根据网上参考的数据集结果,如果要定型、定量的完成测评,还是需要有标准的数据集,明确正确答案,通过分类来确认准确率、召回率和F1。
对于智慧生活现有的安防大模型评测,需要明确的几个点:
1、先要明确场景,根据场景确认数据集,比如B端巡店场景、C端门口安全认知场景、场景识别。
2、根据每个场景准备对应的数据集,每个场景必须归一化。

  • B端场景的输出数据为合格、不合格。
  • C端安全认知场景需要明确几个大的分类,比如快递员、陌生人、无人等多个分类。
  • 普通视觉类检测,比如门前、门后、室内、室外场景分类。
  • 其他场景需要一起讨论沟通,每个场景一个数据集,并明确每个场景的分类。
    3、统一脚本,明确输入输出格式,包括测试集的输入格式、结果的输出格式(execl输出)
    4、统一数据集以后,根据需求优化prompt,如何测试prompt。
  • 测试数据集分为20份和多份数据集,编写prompt以后可以在20份数据集上先测试,如果OK以后再跑批量数据集。
  • 如果更新的prompt提高了整体分数,则更新prompt。
    数据标注模板,不同场景要求的输出有可能不同,以场景识别为例,只需要识别F1
ID 图片ID 图片地址 prompt(统一) 问题 正确答案
1 1.jpg ./1.jpg 生成指定格式:

{

“answer”:”X”,

}
这款摄像机的场景是什么?A.公司 B.室外 C.店铺 D.商场 C

以C端场景为例,需要评测F1和BERTscore.

ID 图片ID 图片地址 prompt(统一) 问题 正确答案
1 1.jpg ./1.jpg 你是一个经验丰富的安保人员,……

生成以下格式:

{

“skill”:”XX”,

“des”:”XXX”,

}
这幅图像触发了什么技能? {

“skill”:”人员离开”,

“des”:”一位男性离开了门口”,

}

数据结果输出:

ID 图片ID 图片地址 prompt(统一) 问题 正确答案 调用成功 用时时间(s) 耗费token 指令遵循 答案 是否正确
ID 图片ID 图片地址 prompt(统一) 问题 正确答案 调用成功 用时时间(s) 耗费token 指令遵循 答案 是否正确
1 1.jpg ./1.jpg 生成指定格式:

{

“answer”:”X”,

“des”:”XX”,

}
这款摄像机的场景是什么?A.公司 B.室外 C.店铺 D.商场 C True 4.2s 3000 True True True

最终指标暂定:

场景 模型 稳定性

(网络调用)
平均用时 平均耗费token 指令遵循 F1 precision recall 整体相似度比较 正确相似度比较
B端巡店 doubao-vison-pro 1QPS下调用错误时间 最长时间、最短时间、平均耗时