SuperCLUE：中文大模型基准测评2024年上半年报告

我的文库

首页研究报告年报季报人工智能SuperCLUE：中文大模型基准测评2024年上半年报告

十一

文档

5505

关注

好评

 关注

 主页

PDF

SuperCLUE：中文大模型基准测评2024年上半年报告

 阅读 864  下载 59  大小 16.54M  总页数 59 页 2024-07-21 分享

价格：¥ 9.90

下载文档加入VIP

文档评论 收藏文档 违规举报 用手机查看 分享文档

热门文档

2024-11-17 13:23:03 Mckinsey：2024中国消费趋势调研
2024-05-19 21:59:54 2024小红书餐饮行业方法论
2024-03-22 23:03:56 红爵啤酒品鉴会“红爵之夜嗨啤TIME ”主题活动策划方案
2024-08-18 12:25:23 2024年科大讯飞1024招商方案
2024-07-09 21:55:15 如何运营你的小红书？
2024-09-08 21:00:26 【Short TV】ShortTV出海短剧内容生态
2024-11-04 20:41:56 淘天集团：2024年家装家居行业营销解决方案
2024-09-18 21:21:14 最美的夜bilibili晚会-招商方案
2024-10-20 11:10:26 企业新春年会盛典（跨越前行·进无止境主题）活动策划方案-
2024-08-25 22:28:04 喜马拉雅：喜马拉雅2024营销白皮书
2024-07-21 20:53:59 2024全球E-Bike市场洞察报告(电动自行车)
2024-09-01 17:42:02 龙井温泉度假区文旅项目营销运营提升升级策划案

下载文档

/ 59

 全屏查看

SuperCLUE：中文大模型基准测评2024年上半年报告



还有 59 页未读，您可以继续阅读或下载文档

下载文档继续在线阅读

下载提示文本预览常见问题

1、本文档共计 59 页，下载后文档不带水印，支持完整阅读内容或进行编辑。
2、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
4、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

SuperCLUE中文大模型综合性测评基准中文大模型基准测评2024年上半年报告一2024年度中文大模型阶段性进展评估SuperCLUE团队2024.07.09SuperCLUE中文大模型综合性测评基准精准量化AG进展，定义人类迈向AG的路线图Accurately quantifying the progress of AGl.defining the roadmap for humanity's journey towards AGl.报告核心结论摘要SuperCLUE■内外大型E进一小：国内外大模型差距进一步缩小：Op阳41最新模型GPT4o依然是全球表现最好的模型，但国内大模型已将差距缩小至5%以内。■内开世量起：本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,.并且超过了众多国内外闭源模型。售任身囊：在文科、理科和Hard任务中，GPT-4o综合最佳，Claude-3.5在Hard任务表现突出，Qwen2-72B在文科任务表现优异。墙侧小侧回慎槽：诺侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，极大提升了落地的可行性。SuperCLUE模型象限SuperCLUE各维度任务工具使用31,国内大横型关键进展及趋势·2023-2024年大模型关键进展2024年值得关注的中文大模型全暴图·2023-2024年度国内外大模型技术发展趋势2.SuperCLUE通用帕力测评中文大模型基准SuperCLUE介绍·SuperCLUE测评体系及数据集目录总榜，理科榜单，文科榜单、Hard榜单及模型象限开源榜单及端侧小模型榜单大模型对战胜率、成度指数·评测与人类一致性分析3.SuperCLUE多模态能力测评AIGVBench视颜生成测评SuperCLUE-V多模态理解测评4,SuperCLUE专项与行业基准测评·各行业、专项测评·未来两个月基准发布计划5,优秀模型案例介绍优秀模型案例介绍第1部分国内大模型关键进展及趋势1.2023-2024大模型关键进展2.中文大模型全景图3.国内外大模型发展趋势52023-2024大模型关键进展SuperCLUE◆自2022年11月30日ChatGPT发布以来，A1大模型在全球范围内批起了有史以来规模最大的人工智能浪潮.国内学术和产业界在过去一年半也有了实质性的突破.大致可以分为三个阶段，即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)，成长期（国内大模型数量和质量开始逐浙增长）、樱发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势)，SuperCLUE:Al大模型2023-2024年关键进展·百川智能发布Bachuan3·字节跳动公测大模型产品豆包百度升级文心一言4.0科大讯飞发布星火35·科大讯飞发布星火4.0OPPO发布desGPTata开Uama2·百度发布文心一言10科大讯飞升级星火30华为发布盘古3.0·360发布360智脑·商汤科技发布商量20小米发布大模型MM·DeepS0ek-V2发布科大讯飞发布星火·云从科技发布从容大模型2022.122023.022023.062023.122024.042024.0662024年值得关注的中文大模型全景图SuperCLUEvivo BlueLM字节豆包大模型MINIMAXDeepSeek8Moonshot Al出门问问西湖心辰4Paradigm SageGPT百川智能阶跃Andes GPT回MLM-6B言犀大女通义万相艺陕Ai HiDream.aimeituViduVimi△X-Avatar际Qwen2Baichuan2RWKV-LM工业MedGPTMathGPTAlnno-15B业大模型回作业帮华佗GPT广汽AI大模型妙想大模型NomlGPTEduChat2023-2024年度国内外大模型发展趋势SuperCLUE·2023年5月至今，国内外大模型能力持续发展.其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Tub0、GPT4o的多个版本的选代升级，国内模型也经历了波潮壮侧的14个月的选代周期，其中T01的模型经历了8次易主，不断提升国内模型的最强战力.·总体趋势上，国内外第一梯队大模型在中文领城的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年6月的4.94%，SuperCLUE基准：过去14个月国内外TOP模型对比趋势30.12%24.58%18.76%17.56%1281%734%535%494%23年5月2023年6月2023年7月2023年8月2023年9月2023年10月2023年11月2023年12月2024年2月2024年4月2024年6月23年5月23年月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月GPT量新模型78.7670.898103832087.0889.79906392.7179.138100国内TOP153.5863.5362.0060.0262.7570.747402790287.7573327700国内TOP249.5262.5859.3555.7070.42728898.5486.7772.5878.0046.45598058.02534362.1269.577187750485.7072.4578.008第2部分SuperCLUE通用能力测评■■■1.SuperCLUE:介绍2.SuperCLUE:综合测评体系及数据集3.国内外大模型总体表现4.子任务测评结果5.SuperCLUE模型象限6.国内大模型历月前三甲7.理科测评结果8.文科测评结果9.Hrd测评结果10.开源及端侧小模型总体表现11.大模型对战胜率分布图12.SuperCLUE成熟度指数13.评测与人类一致性验证9SuperCLUE介绍SuperCLUESuperCLUE中文语言理解测评鲨准CLUE(The Chinese Language三大特征Understanding Evaluation)是致力于科学，客观、中立的语言模型评测基准，发起于2019年，陆续推出CLUE,FewCLUE,KgCLUE,DataCLUE等广为引用的测评基准.随着国内外大模型的竞争日益激烈，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成解明对比的是，SuperCLUE作为一个完全独立的第三方评测机构，承诺提供无偏倚的客现评测结果。SuperCLUE采用先走的自动化评测SuperCLUE是大模型时代CLUE第准的发晨和延续.聚焦于通用大模型技术，有效清除人为因素带来的不确定性，确保每一项评测都公正无私。的综合性测评.，Sup阳rCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。其他测评SuperCLUE02不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目VS体系以及对话的形式，模拟大模型的应用场景，真实有效的考察模型生或能力。03不同于传统学术领域的评测，SuperCLUE根据全球的大模型技术发展趋势，不10

文档评分

请如实的对该文档进行评分

0 分

发表评论

提交评论