首页研究报告年报季报人工智能SuperCLUE:中文大模型基准测评2024年上半年报告
十一

文档

5505

关注

0

好评

0
PDF

SuperCLUE:中文大模型基准测评2024年上半年报告

阅读 864 下载 59 大小 16.54M 总页数 59 页 2024-07-21 分享
价格:¥ 9.90
下载文档
/ 59
全屏查看
SuperCLUE:中文大模型基准测评2024年上半年报告
还有 59 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 59 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
SuperCLUE中文大模型综合性测评基准中文大模型基准测评2024年上半年报告一2024年度中文大模型阶段性进展评估SuperCLUE团队2024.07.09SuperCLUE中文大模型综合性测评基准精准量化AG进展,定义人类迈向AG的路线图Accurately quantifying the progress of AGl.defining the roadmap for humanity's journey towards AGl.报告核心结论摘要SuperCLUE■内外大型E进一小:国内外大模型差距进一步缩小:Op阳41最新模型GPT4o依然是全球表现最好的模型,但国内大模型已将差距缩小至5%以内。■内开世量起:本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,.并且超过了众多国内外闭源模型。售任身囊:在文科、理科和Hard任务中,GPT-4o综合最佳,Claude-3.5在Hard任务表现突出,Qwen2-72B在文科任务表现优异。墙侧小侧回慎槽:诺侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,极大提升了落地的可行性。SuperCLUE模型象限SuperCLUE各维度任务工具使用31,国内大横型关键进展及趋势·2023-2024年大模型关键进展2024年值得关注的中文大模型全暴图·2023-2024年度国内外大模型技术发展趋势2.SuperCLUE通用帕力测评中文大模型基准SuperCLUE介绍·SuperCLUE测评体系及数据集目录总榜,理科榜单,文科榜单、Hard榜单及模型象限开源榜单及端侧小模型榜单大模型对战胜率、成度指数·评测与人类一致性分析3.SuperCLUE多模态能力测评AIGVBench视颜生成测评SuperCLUE-V多模态理解测评4,SuperCLUE专项与行业基准测评·各行业、专项测评·未来两个月基准发布计划5,优秀模型案例介绍优秀模型案例介绍第1部分国内大模型关键进展及趋势1.2023-2024大模型关键进展2.中文大模型全景图3.国内外大模型发展趋势52023-2024大模型关键进展SuperCLUE◆自2022年11月30日ChatGPT发布以来,A1大模型在全球范围内批起了有史以来规模最大的人工智能浪潮.国内学术和产业界在过去一年半也有了实质性的突破.大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识),成长期(国内大模型数量和质量开始逐浙增长)、樱发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势),SuperCLUE:Al大模型2023-2024年关键进展·百川智能发布Bachuan3·字节跳动公测大模型产品豆包百度升级文心一言4.0科大讯飞发布星火35·科大讯飞发布星火4.0OPPO发布desGPTata开Uama2·百度发布文心一言10科大讯飞升级星火30华为发布盘古3.0·360发布360智脑·商汤科技发布商量20小米发布大模型MM·DeepS0ek-V2发布科大讯飞发布星火·云从科技发布从容大模型2022.122023.022023.062023.122024.042024.0662024年值得关注的中文大模型全景图SuperCLUEvivo BlueLM字节豆包大模型MINIMAXDeepSeek8Moonshot Al出门问问西湖心辰4Paradigm SageGPT百川智能阶跃Andes GPT回MLM-6B言犀大女通义万相艺陕Ai HiDream.aimeituViduVimi△X-Avatar际Qwen2Baichuan2RWKV-LM工业MedGPTMathGPTAlnno-15B业大模型回作业帮华佗GPT广汽AI大模型妙想大模型NomlGPTEduChat2023-2024年度国内外大模型发展趋势SuperCLUE·2023年5月至今,国内外大模型能力持续发展.其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Tub0、GPT4o的多个版本的选代升级,国内模型也经历了波潮壮侧的14个月的选代周期,其中T01的模型经历了8次易主,不断提升国内模型的最强战力.·总体趋势上,国内外第一梯队大模型在中文领城的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年6月的4.94%,SuperCLUE基准:过去14个月国内外TOP模型对比趋势30.12%24.58%18.76%17.56%1281%734%535%494%23年5月2023年6月2023年7月2023年8月2023年9月2023年10月2023年11月2023年12月2024年2月2024年4月2024年6月23年5月23年月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月GPT量新模型78.7670.898103832087.0889.79906392.7179.138100国内TOP153.5863.5362.0060.0262.7570.747402790287.7573327700国内TOP249.5262.5859.3555.7070.42728898.5486.7772.5878.0046.45598058.02534362.1269.577187750485.7072.4578.008第2部分SuperCLUE通用能力测评■■■1.SuperCLUE:介绍2.SuperCLUE:综合测评体系及数据集3.国内外大模型总体表现4.子任务测评结果5.SuperCLUE模型象限6.国内大模型历月前三甲7.理科测评结果8.文科测评结果9.Hrd测评结果10.开源及端侧小模型总体表现11.大模型对战胜率分布图12.SuperCLUE成熟度指数13.评测与人类一致性验证9SuperCLUE介绍SuperCLUESuperCLUE中文语言理解测评鲨准CLUE(The Chinese Language三大特征Understanding Evaluation)是致力于科学,客观、中立的语言模型评测基准,发起于2019年,陆续推出CLUE,FewCLUE,KgCLUE,DataCLUE等广为引用的测评基准.随着国内外大模型的竞争日益激烈,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成解明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客现评测结果。SuperCLUE采用先走的自动化评测SuperCLUE是大模型时代CLUE第准的发晨和延续.聚焦于通用大模型技术,有效清除人为因素带来的不确定性,确保每一项评测都公正无私。的综合性测评.,Sup阳rCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。其他测评SuperCLUE02不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目VS体系以及对话的形式,模拟大模型的应用场景,真实有效的考察模型生或能力。03不同于传统学术领域的评测,SuperCLUE根据全球的大模型技术发展趋势,不10
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

工具

运营工具导航

AI工具导航

帮助

帮助中心

常见问题

顶部