自定义评测数据集
介绍
CSGHub提供的模型评测工具,并支持自定义评测数据集。用户可以上传自己的数据集,然后使用这些数据集来评测模型的效果。本文将详细介绍如何自定义评测数据集。
EvalScope 自定义数据集的使用
选择题(MCQ)
CSV格式
mcq/
├── example_dev.csv # (可选)文件名组成为`{subset_name}_dev.csv`,用于fewshot评测
└── example_val.csv # 文件名组成为`{subset_name}_val.csv`,用于实际评测的数据
CSV文件需要为下面的格式:
id,question,A,B,C,D,answer
1,通常来说,组成动物蛋白质的氨基酸有____,4种,22种,20种,19种,C
2,血液内存在的下列物质中,不属于代谢终产物的是____。,尿素,尿酸,丙酮酸,二氧化碳,C
JSONL格式
mcq/
├── example_dev.jsonl # (可选)文件名组成为`{subset_name}_dev.jsonl`,用于fewshot评测
└── example_val.jsonl # 文件名组成为`{subset_name}_val.jsonl`,用于实际评测的数据
JSONL文件需要为下面的格式:
{"id": "1", "question": "通常来说,组成动物蛋白质的氨基酸有____", "A": "4种", "B": "22种", "C": "20种", "D": "19种", "answer": "C"}
{"id": "2", "question": "血液内存在的下列物质中,不属于代谢终产物的是____。", "A": "尿素", "B": "尿酸", "C": "丙酮酸", "D": "二氧化碳", "answer": "C"}
其中:
id是序号(可选字段)
question是问题
A, B, C, D等是可选项,最大支持10个选项
answer是正确选项