Llama3开源模型中文版-全方位测评,基于SuperCLUE基准 | Llama3 Chinese Evaluation with SuperCLUE
初步计划,2024年5月8日发布首批代表性Llama3中文版的测评效果。欢迎点赞、关注。
1)会进行横向对比,哪个(些)模型效果更好?
2)将对国内代表性模型与Llama3中文版进行效果对比:Llama3中文版与国内开源模型相比,竞争力如何?
3)在各类任务上成熟度如何?测评范围包括但不限于:通用测评(OPEN2)、数学推理(Math6)、代码生成(Code3)。
如你希望某个Llama3中文版纳入测评范围,请提issue,或发送邮件至:[email protected]