- [2025/1/7] 发布v2.7版本评测榜单
- 新增代词理解CLUEWSC榜单(比如“他”是指谁)、诗词匹配CCPM榜单
- 新增5个模型:Claude-3.5-Sonnet、gemma-2-27b-it、Llama-3.1-405B-Instruct、Baichuan4-Air、Baichuan4-Turbo
- 删除陈旧的模型:Baichuan3-Turbo、qwen2-72b-instruct、Qwen2-7B-Instruct、qwen2-1.5b-instruct、qwen2-0.5b-instruct、qwen2-57b-a14b-instruct
- [2024/12/28] 发布v2.6版本评测榜单
- 新增BBH(学术界常用符号推理评测集)榜单,并计入总分
- 将初中数学(七/八/九年级)成绩计入总分
- 删除陈旧的模型:deepseek-chat-v2、Llama-3-70B-Instruct、Llama-3-8B-Instruct、MiniCPM-2B-dpo、minimax-abab6.5-chat、DeepSeek-V2-Lite-Chat、internlm2-chat-1_8b
- [2024/12/27] 发布v2.5版本评测榜单
- 新增Grade8Math-zh(八年级数学)、Grade9Math-zh(九年级数学)榜单
- 新增6个模型:deepseek-chat-v2.5、abab7-chat-preview、hunyuan-standard、hunyuan-large、hunyuan-turbo、SenseChat-5,☛查看模型完整信息
- [2024/12/25] 发布v2.4版本评测榜单
- 新增Grade7Math-zh(七年级数学)榜单
- 删除陈旧的模型:Phi-3-mini-128k-instruct、Qwen1.5系列、openbuddy-llama3-8b、yi-large、yi-large-turbo、yi-medium、yi-spark、internlm2-chat-20b、internlm2-chat-7b、gpt-4-turbo、gpt-3.5-turbo
- [2024/10/20] 发布v2.3版本评测榜单
- 新增6个模型:yi-lightning、gemini-1.5-flash、gemini-1.0-pro、gemini-1.5-pro、GLM-4-Long、GLM-4-Plus
- 更新4个模型:GLM4、qwen-max、ERNIE-4.0-Turbo-8K、ERNIE-3.5-8K
- 删除陈旧的模型:Baichuan2-13B-Chat、Baichuan2-7B-Chat、deepseek-llm-67b-chat、gpt4、gemma-2b-it、gemma-7b-it
- [2024/9/29] 发布v2.2版本评测榜单
- 新增qwen2.5系列7个开源模型
- [2024/9/21] 新增开源大模型发布历史 link
- [2024/8/27] 发布v2.1版本评测榜单
- 新增2个大模型:Llama-3.1-8B-Instruct、Llama-3.1-70B-Instruct
- 完善大模型信息汇总列表,link
- [2024/8/7] 发布v2.0版本评测榜单
- 中文指令遵从、算术运算计入总分,作为综合能力排行依据
- 新增7个大模型:qwen2-1.5b-instruct、qwen2-0.5b-instruct、qwen2-57b-a14b-instruct、internlm2-chat-1_8b、internlm2_5-7b-chat、gemma-2-9b-it、DeepSeek-V2-Lite-Chat
- 删除陈旧的模型:aquilachat2-34b、AquilaChat2-70B-Expr、BlueLM-7B-Chat、openbuddy-deepseek-67b、openbuddy-mixtral-7bx8、tigerbot-13b-chat-v4、Yi-34B-Chat
- [2024/7/26] 发布v1.21版本评测榜单
- 新增8个大模型:gpt-4o-mini、讯飞4.0Ultra、ERNIE-3.5-8K、ERNIE-4.0-Turbo-8K、ERNIE-Speed-8K、Doubao-lite-32k、Doubao-pro-32k、qwen-turbo
- 删除陈旧的模型:baichuan3、minimax-abab6-chat、tigerbot-70b-chat-v3、openbuddy-zephyr-7b、Yi-6B-Chat、chatglm3-6b、Llama-2-70b-chat、 miniCPM-2B-sft、openbuddy-mistral-7b
- [2024/7/15] 发布v1.20版本评测榜单
- 新增10个大模型:gpt-4o、yi-spark、qwen-plus、qwen-long、GLM-4-AirX、GLM-4-Air、GLM-4-Flash、Baichuan4、Baichuan3-Turbo、SenseChat-Turbo
- 更新模型:商汤senseChat
- 删除陈旧的模型:谷歌bard、openbuddy-llama2-70b、XVERSE-65B-Chat、微软new-bing、BELLE-Llama2-13B-chat-0.4M、讯飞星火v2.0、chatglm-std、chatglm-pro、chatglm-turbo、字节跳动豆包
- [2024/6/29] 发布v1.19版本评测榜单
- 新增数学基础(算术)能力排行榜
- 新增5个大模型:Qwen2-7B-Instruct、Qwen2-72B-Instruct 、glm-4-9b-chat、Yi-1.5-9B-Chat、Yi-1.5-34B-Chat
- 排行榜删除陈旧的模型
- [2024/6/2] 发布v1.18版本评测榜单
- 新增6个大模型:abab6.5-chat、abab6.5s-chat、deepseek-chat-v2、yi-large、yi-large-turbo、yi-medium
- 中文指令遵从排行榜补充更多模型
- 排行榜删除陈旧的模型
- [2024/5/8] 发布v1.17版本评测榜单
- 新增中文指令遵从排行榜
- 新增4个大模型:Llama-3-8B-Instruct、Llama-3-70B-Instruct、openbuddy-llama3-8b、Phi-3-mini-128k-instruct
- [2024/4/13] 发布v1.16版本评测榜单
- 新增中文编码效率排行榜,同等尺寸大模型,编码效率越高推理速度越快,几乎成正比。
- 模型更新:minimax更新至minimax-abab6-chat
- 新增3个大模型:Qwen1.5-32B-Chat、minimax-abab5.5-chat、minimax-abab5.5s-chat
- [2024/3/20] 发布v1.15版本评测榜单
- 模型更新:gpt3.5更新至最新版本
- 新增8个大模型:gpt-4-turbo、讯飞星火v3.5、MiniCPM-2B-dpo、miniCPM-2B-sft、AquilaChat2-70B-Expr、月之暗面kimichat、谷歌gemma-7b-it、谷歌gemma-2b-it
- 排行榜删除陈旧的模型(比如Baichuan2-53B、chatglm-130b-v1、tulu-30b、belle-llama-13b-2m、belle-llama-13b-ext、openbuddy-llama-30b-v7.1、vicuna-33b等)
- [2024/2/28] 发布v1.14版本评测榜单
- 新增11个大模型:deepseek-llm-67b-chat、baichuan3、internlm2-chat-20b、internlm2-chat-7b、openbuddy-mixtral-7bx8-v17.1以及qwen1.5系列的6个模型
- 排行榜删除陈旧的模型(比如chatglm2-6b、AquilaChat-7B等)
- [2024/1/29] 发布v1.13版本评测榜单
- 模型更新:微软new-bing、文心4.0更新至24年1月版本
- 新增6个大模型:qwen-max、GLM4、BlueLM-7B-Chat、openbuddy-zephyr-7b-v14.1、openbuddy-deepseek-67b-v15.2、XVERSE-65B-Chat
- 排行榜删除陈旧的模型(比如phoenix-inst-chat-7b、BELLE-on-Open-Datasets等)
- [2023/12/10] 发布v1.12版本评测榜单
- 新增7个大模型:Yi-34B-Chat、tigerbot-13b-chat-v4、openbuddy-openllama-3b-v10、Qwen-1_8B-Chat、Yi-6B-Chat、Qwen-72B-Chat、chatglm-turbo
- 新增开源模型细分排行榜:10B以下模型排行榜、10B~20B模型排行榜、20B以上模型排行榜
- [2023/11/22] 发布v1.11版本评测榜单
- 新增4个大模型:openbuddy-mistral-7b-v13.1、Qwen-7B-Chat、Baichuan2-7B-Chat、tigerbot-70b-chat-v3
- 将数据分析能力计入综合得分
- [2023/11/5] 发布v1.10版本评测榜单
- 新增6个大模型:
- 3个商用模型:文心4.0、谷歌bard、讯飞星火v3
- 3个开源模型:aquilachat2-34b、ziya2-13b-chat、chatglm3-6b
- 排行榜删除陈旧的模型(比如第一代chatglm-6b、MOSS等)
- 新增6个大模型:
- [2023/10/11] 发布v1.9版本评测榜单
- 新增7个大模型:
- 3个商用模型:阿里通义千问v1.0.7、豆包、Baichuan2-53B
- 4个开源模型:Baichuan2-13B-Chat、internlm-chat-20b、qwen-14b-chat、tigerbot-70b-chat-v2
- 新增7个大模型:
- [2023/9/13] 发布v1.8版本评测榜单
- 新增7个大模型:
- 2个商用模型:chatglm-std、chatglm-pro
- 5个开源模型:openbuddy-llama-30b-v7.1、openbuddy-llama-65b-v8、openbuddy-llama2-70b-v10.1、xverse-13b-chat、Baichuan-13B-Chat-v2
- 新增7个大模型:
- [2023/8/29] 发布v1.7版本评测榜单
- 新增2个商用大模型:讯飞星火v2.0、Baichuan-53B
- 表格问答(数据分析)能力排行榜:新增21个模型参与排行。
- [2023/8/13] 发布v1.6版本评测榜单,link
- 新增4个大模型:
- 2个商用模型:商汤senseChat、微软new-bing
- 2个基于LLaMA2的开源中文模型:BELLE-Llama2-13B-chat-0.4M、Linly-Chinese-LLaMA2-13B
- 新增4个大模型:
- [2023/7/26] 发布v1.5版本评测榜单,link
- 新增7个大模型:gpt4、文心一言v2.2、vicuna-33b、wizardlm-13b、Ziya-LLaMA-13B-v1.1、InternLM-Chat-7B、Llama-2-70b-chat
- [2023/7/18] 发布v1.4版本评测榜单,link
- 新增3个大模型:tulu-30b、chatglm2-6b、Baichuan-13B-Chat
- [2023/7/2] 发布v1.3版本评测榜单,link
- 新增3个大模型:360智脑、MOSS-003-SFT、AquilaChat-7B
- 讯飞星火更新为最新的v1.5模型
- [2023/6/17] 发布v1.2版本评测榜单,link
- 新增2个大模型:tigetbot-7b官网、linly-chatflow-13b
- 说明做评测榜单的初衷
- [2023/6/10] 发布v1.1版本评测榜单,link
- 新增3个大模型:minimax、guanaco、Phoenix-7b
- 新增表格问答评测维度,作为阅读理解能力的细分项
- [2023/6/4] 发布v1版本评测榜单,link