首页研究报告机构研究人工智能2025大模型发展回顾、国内外大模型进展及未来研判分析报告
八九文峰

文档

2470

关注

0

好评

0
PDF

2025大模型发展回顾、国内外大模型进展及未来研判分析报告

阅读 720 下载 72 大小 6.68M 总页数 0 页 2025-04-29 分享
价格:¥ 9.90
下载文档
/ 0
全屏查看
2025大模型发展回顾、国内外大模型进展及未来研判分析报告
还有 0 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2025年深度行业分析研究报告目录1.1.1、大语言模型(LLMs)的兴起一自回归架构强化文本生成能力3.I、海外大模型:格局头部集中马太效应显著,集中押注面向AG3.2、OpenAI:全球AI大模型风向标,自然语言/多模态/推理模型上均作为引领角色3.4、Meta:10年布局跻身全球AI巨头,Lama成为全球开源模型标杆122、GPT-3以1750亿参数开启了预训陈侧Scaling law叙事3.5、Antropic:Claude-3.5对标penAI,Agen系列computer use推动人机交互变革21、国内大模型:行业充分党争,降本提效为主旋律4.2、合成数运作为AI时代新石油,支撑模型继续在pre女aining上scaling23、豆包大模型:实时语音、视频生成理解领域布局,2024H2发力月活冲上全球第二4.4、DeepSeek带动模型加速私有化+低成本部署趋势2.4、Qwen:AI为阿里巴巴未来战路核心,Qwen系列掀起国内模型开源革命一、大模型发展回顾:以Transformer:为基,Scaling law贯穿始终1.1.1、大语言模型(LLMs)的兴起一自回归架构强化文本生成能力●语言慎型是一种人工智能系毓,目在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。大语言横型(LLMs)是语言横型系毓的子集。大语言模型规模显著更大,通常包含数十亿个参数(例如,GPT-3拥有1750亿个参数),使得大语言模型在广泛的任务中表现出卓越的性能。大语言模型这一术语在2018至2019年间随着基于Transformer架构的模型出现开始受到关注,在2020年GPT-3发布后,LLMs开始被广泛使用。●大多数LLMs以自回归方式操作,根据前面的文本预测下一个字(或4okcn/sub-word)的氯率分布。这种自回归特性使模型能够学习复杂的语言模式和依赖关系,从而善于文本生成。在文本生成任时,LLM通过解码算法确定下一个输出的字,这一过程可以采用的策略包括:I)选择概率最高的下个字;2)从预测的概率分布中随机采样一个字。The next token's probability distribution031powerfulText InputText Output03DecodingLanguageDeep Learning is veryLLM0.28novative→powerfulWhat is the capital of China?BeijingModel0.1"Question"or"Prompt"资料来源:中科院计算所培训中心公众号L.l.2、Transformer架构克服歇NN长文本局限性,标志着NLP的分水岭时刻●2017年谷团队提出Transformer横型,Transformer架构也标志着NLP的分水岭时刻。Transformer突破了早期模型如循环神经网络(RNNs)与长短期记忆网络(LSTMs)在捕捉长依赖及顺序处理上的难点,同时RNN和LSTMsi计算低效且易受梯度消失等问题困扰。Transformer的横空出世扫清了这些障碍,重塑了该领域格局,并为当代大型语言模型发展铺设了基石。LLMLeamingLarge Language Model (LLM)ALLMTime =4资料来源:中科院计算所培训中心公众号、ATYUN.人工智能媒体平台1.1.3、Transformer拆解:包括Encoder/Decoder、注意力层、前馈神经网络层编码器:编码器是前馈神经网络层解码器:与编码器几乎Transformers架构的主Output probabiities相同,除了额外的潜在要模块之一,位于输入多头注意力,它在编码序列的输入处。编码器Softmax归一化层器的输出上操作。解码将输入序列转换为压缩Decoder器的目标是将编码器输表示。在原始Add Norm出与目标序列融合,并Transformers架构中,进行预测(或预测下一编码器重复了6次(这MLPs个令牌)。取决于架构的总体大小,Add Norm可以更改)。每个编码Add Norm前馈神经网络器块都有3个主要层,MLPsEncoderMulti-head即多头注意力(MHA)、Attention归一化层层归一化和MLPs(前Add Norm馈神经网络)·Add Norm多头注意力层Multi-headAttentionMasked Multi-headAttention潜在多头注意力层多头注意力层Positional encodingPositional encoding位置编码位置编码EmbeddingsEmbeddings输入嵌入Input sequenceTarget sequence输入嵌入编码图包含3个主要层,总共层数不固定,层目标序列数越多模型越大,泛化能力越强。资料来源:《Attention is All You Need》Ashish Vaswani、国海证券研究所。注意力机制允许横型在解码时,根据当前生成的词动态地关注输入序列中的不同部分,有效情捉与袖出相关的输入信息,而非依赖于某个固定的上下文向量。注意力机制使得模型更容易捕捉长距离依赖关系,模型在每个时间步都可以选择关注距离较远的输入部分。数学表达上,注意力度量两个向量之间的相似性并返回加权相似性分数,标准的注意力函数接受三个主要输入,即查询、键和值向量。●例如,在电商平台搜索特定商品时,输入内容即为Qury,搜索引擎据此匹配Key(涵盖商品种类、颜色、描述等),并通过计算Query-与Key的相似度(即权值),得出匹配内容(alue)。这3个向量负责将输入信息依次KQV向量计算查询Q和键K的点积,并除转化为对QW向量缩放因子d将点积规范化为softmax(加权求和)Scaled ScoresSoftmax权重与值V相乘,得到加权值Attention WeightsX W输入的token经过嵌入层转化为向量形式,可以是词嵌入和拉置嵌入Compute the Q,K and V Matrices资料来源:《Attention is All You Need》Ashish Vaswani、.中科院计算所培训中心公众号、国海证券研究所1.l.4、Transformer核心点1一多头注意力机制:运行多个自注意力层,提升模型表达能力●Multi--headed attention(多头注意力机制)增圆了自注意能力,扩晨关注位量,同时为注意力层提供多个“表示子空间”。假设模型若用了8个注意头,就会有8组不同的QKV矩阵,每个输入的词向量都被投影到8个表示子空间中进行计算。ThinkingMachines与自注意力机制的区别:将线性变换后的查询、键和值矩阵分割成多个头。每个头In all encoders other than #0.都有自己的查询、键we don't need embedding.和值矩阵。然后,在We start directly with the output每个头中独立地计算of the encoder right below this one注意力分数。W-v资料来源:Nine Data公众号、国海证券研究所。前墙神经网络是最盖本的人工神经网络结构,由多层节点组成,每个节点都与下一层的所有节点相连。前馈神经网络的特点是信息只能单向流动,即从输入层到隐藏层再到输出层,不能反向流动。工作原理上表现为,输入数据首先进入输入层,然后通过权重和偏置传递到隐藏层,隐藏层中的节点对输入进行加权求和,并通过激活函数进行非线性转换,最后输出层接收到经过隐藏层处理的信号,并产生最终的输出。偏置:加在输入上的常数,用于调Input Layer:Hidden LayerOutput Layer:激活函数:用于在网络中引Words整激活涵数的输出。入非线性,使得网络能够学习和模拟复杂的函数映射。MOVEOutput of a neuron0OutputROTATEALPHA权重:连接输入层和隐藏层隐藏层和输出层的连接贸强度资料来源:deepdata_cn、.midokura、国海证券研究所1.2.1、预训练Transformer模型时代(2018-2020):GPT VS BERT。Transformer架构的出现也标志着预训练模型的幅起及对扩展性的■视。BERT与GPT的诞生便显示了大规模预训练与微调范式的成效。20I8年,谷歌推出了BERT模型,模型采用Transfome编码器,在多个NLP任务中取得了突破性进展。与以往仅单向处理文本的模型不同,BERT运用了双向训练方法同时双向捕获上下文信息,以至于B距RT在文本分类、命名实体识别及情感分析等语言理解任务中展现出了不俗的表现。解码器,GPT模型在自回归语言建模及文本生成领域展现了出色的性能。MLM(掩码语言建模):BERT不是预测序列中的下一个词,而是被训练预单向自回归训饬:GPT使用因果语言建模目标进行训练,其中模型仅基于前测向子中随机掩码的标记.这迫使模型在进行预测时考虑整个句子的上下文;面的记预测下一个标记.因此适合于生成任务,NSP(下一句预测):模型学习预测两个句子是香在文档中连续,从而理解下游任务的微调:GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式,句子之间关系。GPT就可以适应诸如情感分析、机器翻译和问答等任务。Deep LearningverypowerfulDeeppowerful Transformer EncoderTransformer DecoderBERTGPTDeep is powerfulDeep Learningvery powerful资料来源:中科院计算所培训中心公众号1.2.2、GPT3以1750亿参数开启了预训练侧Scaling law叙事●2020年0pe4发布GPT-3(1750亿◆数横型),NLP横型迎来了转折点。1750亿参数突破了大规模预训练的界限,展示了显著的少样本和零样本学习能力,在推理时只需提供最少或无需示例即可执行任务。GT3的生成能力扩展到了创意写作、编程和复杂推理任务,展示了超大模型的潜力。究人员发现随若模型规模的增长,模型在捕捉复杂模式和泛化到新任务方面变得更好。这种规慎效应得到了三个关因素的支持:1)据集大小:更大的模型需要庞大的数据集进行预训练:2)计算资源:强大硬件(如GPU和TU)的可用性以及分布式训练技术,使得高效训练具有数十亿参数的模型成为可能;3)高效架构:混合精度训练和梯度检查点等创新降低了计算成本,使得在合理的时间和预算内进行大规模训练更加实际。4.265.653.64.033.0242.7101101108101010ComputeDataset SizeParametersPF-days,non-embeddingtokensnon-embeddng1.2.3、Post-training)重要性凸显,RLHF范式出现(2021-2022)。GPT3同时也表现出大型语言横型与人类价值观、偏好及期塑保特一致上的挑战。其中,“幻觉”问题尤为突出,即LLM生成的内容可能与事实不符、缺乏意义或与输入提示相悖,给人以“言之凿凿却离题万里”之感。为应对模型幻觉,2021至2022年间,研究人员推动了监督微调(SFT)及基于人类反馈的强化学习(RLHF)等技术的进展。●SFT(有监督学习方法)酒过提供明确的输入一输出对,横型学习其中的映射关系。但$FT的弊端包括有1)可扩展性问题:收集人类演示需劳动密集且耗时,尤其是对于复杂或小众任务:2)性能:简单模仿人类行为并不能保证模型会超越人类表现,或在未见过的任务上很好地泛化。©LHF(盖于人类反债的强化学习)解决了SFT中可扩晨性和性能限制的问题。RLHF包括两个阶段,首先:1)根据人类偏好数据集训练一个奖励模型,该模型学习根据人类反馈评估输出的质量。2)使用强化学习微调LLM,奖励模型使用近端策略优化(PPO)指导LM的微调,模型学会了生成更符合人类偏好和期望的输出。●2022年3月,0penA1发布GPT3.5,与GPT3架构相同但关麓增强包括放进数据更好地道循指令,减少了幻觉。AlignmentPre-TrainingSFTRLHF资料来源:《Demystifying Reasoning Models》Cameron R.6lfel.2.4、训练侧Scaling law瓶颈出现,推理侧接过Scaling law叙事大旗型规模较大时,资源的增加对性能提升的影响变得有限,资源投入与性能提升之间的平衡关系并非单纯“大力出奇迹”。根据oh团队的论文《Wle run out of data?Limits of LLM scaling based on human--generated data》中统计,高质量语言数据存量只剩下约4.6×1012~l.7×10I3个单词。结合增长率,论文预测高质量文本数据会在20232027年间被A耗尽。Altman在x上分享的数据,AME2024(高水平的数学境赛)中,ol-preview将模型回答准确率从GPT4o的13.4%提升至56.7%,ol正式版是83.3%。Extrapolation based on computeExtrapolation from trendSystem 1System 2Stock of data (90%Cl)88.0Stock of data (median)24Median datedata is exhausteddata is exhaus时eu(compute extr.】20222023202420252026资料来源:量子位公众号、1.3.1、Transformer受限于长序列场景,计算复杂度与输入序列表现为指数增长关系●长序列场量下Transfor meri计算复杂度显着提升:自注意力机制的计算复杂度为O(N2,d),其中N代表序列长度,d表示token嵌入的维度,这意味着Transformer模型的计算复杂度会随着输入序列长度(token数量)的增加呈二次方增长,这种高计算复杂度会导致计算资源的大量消耗,对硬件性能提出了极高的要求。●随着盖于Transformer架构的横型规模不断甜大,训练和部看成本也慰之大幅增加。在计算资源方面,Transformer模型不仅需要大量的计算资源来支撑复杂的运算,还对并行处理能力有若较高的要求。训练成本不仅要涵盖高性能的GPU,还需要大量的存储空间。并且,随着序列长度的增加,其平方级的扩展会导致内存使用量急剧上升。这使得训练和部署Transfommer模型的成本居高不下,在一些资源受限的场景中,其应用受到了明显的限制。国内外关注度较高的模型上下文可接受长度表CPT-3.54K-16KGPT-4kener-lieLLaMAmkoreuv-lkeMeta4k32KKimi Chat资料来源:53AI、光锥智能l.3.2、Mamba架构集成ransformer+RNN优势,成为Transformer架构的强劲挑战者。Mamba融合Transformer、RNN架构的特点,实现在推理和训练上的加速。结构化的状态空间序列模型(SSM)能高效捕获序列数据中的复杂依赖关系,其一大关键是融合了卷积神经网络以及循环神经网络的特点,让计算开销随序列长度而线性或近线性变化,大幅降低计算成本,而Mama则为SSM的一种变体。●Mamba可根据输入对SSM进行■新◆数化,让模型在速除不相关信惠的同时无限期地保留必要和相关的数据。在CVPR2025上,英伟达推出混合新架构MambaVision视觉骨干网络,打破精度/吞吐瓶颈。MambaVision是首个针对计算机视觉应用,结合Mambai和Transformer的混合架构的尝试。主要贡献包括1)引入了更新设计的适用于视觉任务的Mamba模块,提升了相较于原始Mamba架构的准确性和图像处理能力;2)系统性地研究了Mamba和Transformer模块的融合模式,并展示了在最终阶段加入自注意力模块,显著提高了模型捕捉全局上下文和长距离空间依赖的能力。圆:Mamba、Transformer、RNNs架物对比TrainingInferenceFast!Slow...Transformers(scales quadratically with sequence length)Slow...Fast!RNNsInot parallelizable)FastlFast!Mamba资料来源:
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

工具

运营工具导航

AI工具导航

帮助

帮助中心

常见问题

顶部