多模态大模型评测与标准
根据网上参考的数据集结果,如果要定型、定量的完成测评,还是需要有标准的数据集,明确正确答案,通过分类来确认准确率、召回率和F1。
对于智慧生活现有的安防大模型评测,需要明确的几个点:
1、先要明确场景,根据场景确认数据集,比如B端巡店场景、C端门口安全认知场景、场景识别。
2、根据每个场景准备对应的数据集,每个场景必须归一化。
- B端场景的输出数据为合格、不合格。
- C端安全认知场景需要明确几个大的分类,比如快递员、陌生人、无人等多个分类。
- 普通视觉类检测,比如门前、门后、室内、室外场景分类。
- 其他场景需要一起讨论沟通,每个场景一个数据集,并明确每个场景的分类。
3、统一脚本,明确输入输出格式,包括测试集的输入格式、结果的输出格式(execl输出)
4、统一数据集以后,根据需求优化prompt,如何测试prompt。 - 测试数据集分为20份和多份数据集,编写prompt以后可以在20份数据集上先测试,如果OK以后再跑批量数据集。
- 如果更新的prompt提高了整体分数,则更新prompt。
数据标注模板,不同场景要求的输出有可能不同,以场景识别为例,只需要识别F1
ID | 图片ID | 图片地址 | prompt(统一) | 问题 | 正确答案 |
---|---|---|---|---|---|
1 | 1.jpg | ./1.jpg | 生成指定格式: { “answer”:”X”, } |
这款摄像机的场景是什么?A.公司 B.室外 C.店铺 D.商场 | C |
以C端场景为例,需要评测F1和BERTscore.
ID | 图片ID | 图片地址 | prompt(统一) | 问题 | 正确答案 |
---|---|---|---|---|---|
1 | 1.jpg | ./1.jpg | 你是一个经验丰富的安保人员,…… 生成以下格式: { “skill”:”XX”, “des”:”XXX”, } |
这幅图像触发了什么技能? | { “skill”:”人员离开”, “des”:”一位男性离开了门口”, } |
数据结果输出:
ID | 图片ID | 图片地址 | prompt(统一) | 问题 | 正确答案 | 调用成功 | 用时时间(s) | 耗费token | 指令遵循 | 答案 | 是否正确 |
---|---|---|---|---|---|---|---|---|---|---|---|
ID | 图片ID | 图片地址 | prompt(统一) | 问题 | 正确答案 | 调用成功 | 用时时间(s) | 耗费token | 指令遵循 | 答案 | 是否正确 |
1 | 1.jpg | ./1.jpg | 生成指定格式: { “answer”:”X”, “des”:”XX”, } |
这款摄像机的场景是什么?A.公司 B.室外 C.店铺 D.商场 | C | True | 4.2s | 3000 | True | True | True |
最终指标暂定:
场景 | 模型 | 稳定性 (网络调用) |
平均用时 | 平均耗费token | 指令遵循 | F1 | precision | recall | 整体相似度比较 | 正确相似度比较 |
---|---|---|---|---|---|---|---|---|---|---|
B端巡店 | doubao-vison-pro | 1QPS下调用错误时间 | 最长时间、最短时间、平均耗时 |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 apostle的数字花园!
评论