专业报告 ,2025上半年AI核心成果及趋势报告!
专业报告 ,2025上半年AI核心成果及趋势报告!
当前,2025年已过去大半,AI行业的变化已经快得让人跟不上节奏。从能自己完成深度研究的Agent,到代码写得比程序员还快的AI工具,从大模型之间的激烈厮杀,到小模型的悄悄逆袭,这大半年的AI圈简直像坐了火箭。
前不久,量子位智库最新发布的《2025上半年AI核心成果及趋势报告》,梳理了应用、模型、技术、行业四大维度的关键变化。作为AI从业者,带你看透这半年来AI领域的“风起云涌”......

01、应用层:Agent从概念走向实用,AI编程成最大黑马
如果说2024年是Agent的“概念元年”,那2025年上半年绝对是它的“实用爆发期”。AI应用不再局限于简单的聊天问答,而是开始像真人一样“干活”了。
通用类Agent:从“聊天”到“做事”的跨越
ChatGPT、Kimi等AI工具已升级:此前仅能文字应答,如今深度研究类Agent能响应“生成2025年新能源汽车市场分析报告”等需求,自动调用工具查数据、扒财报、生成图表,输出完整报告。
其核心在于“任务分解+工具调用+记忆能力”,如OpenAI的o3、Kimi的Researcher可拆分复杂任务、调用工具并记忆信息,能自动化数小时人类工作量。
另一路径是视觉操作核心的Computer Use Agent(CUA),能像人一样操作电脑:通过屏幕识别按钮、菜单,用虚拟光标完成点击、输入,例如自动在Expedia订美联航纽约机票。ChatGPT Agent、Claude Computer Use已推出此类功能,未来两类Agent或融合为更全能的通用Agent。
垂类Agent:每个行业都在“AI化”
通用Agent在搞全能,垂直领域的Agent则在“精准打击”。在旅行APP、设计软件中,“自然语言操控”成了标配,这背后就是垂类Agent在发力。
比如飞猪 “问一问” 中,用户提出行程需求,路线、票务、酒店等Agent便协同运作,几分钟生成方案并支持实时调整,靠大模型精准对接数据源。
设计领域更突出:LOVART 能按需求生成生产级海报并响应修改;视频生成 Agent 输入文字参考图,即可生成含剧情镜头的视频,物理规律与一致性较去年显著提升。
时尚领域GENSMO也实用:输入穿搭需求,能结合身材与趋势生成效果图,支持照片 “试穿”。这些垂类 Agent 爆发,本质是大模型在特定场景落地 —— 技术从概念变为解决具体问题的工具。
AI编程:从“辅助”到“革命”,增长速度创纪录
如果说Agent全面开花,AI编程便是2025上半年最猛“黑马”:AI编程工具Cursor的年度经常性收入(ARR)突破5亿美元,达成这一规模,Uber用了8年,Zoom用了10年,而Cursor仅用2年多。
其进化路径清晰:从“代码补全”“单文件编辑”,到如今“多文件协同”——能理解整个代码库,自动写命令、改文件、并行处理任务,让程序员聚焦“验证和优化”。
火爆源于它从源头改变软件生产方式:从前代码生成与验证工作量1:9,程序员多耗于查bug;现在大模型快速生成框架,验证效率提升。当前OpenAI、Anthropic及国内阿里、字节等均在加码,毕竟拿下编程场景,便掌握数字时代“生产工具”。
模型上下文协议(MCP):AI生态的“连接器”
大模型再强也需外部数据与工具支持,过去依赖API却因兼容问题如同“插头插座不匹配”。模型上下文协议(MCP)的出现,正是要制定“通用插座标准”。
MCP核心是标准化接口,可高效安全调用外部资源:以往调用10个工具需对接10套API,如今一套协议即可搞定。
目前谷歌、亚马逊、阿里、字节等巨头均在推MCP生态,但尚未达规模化生产级——客户端支持调用量有限(20-30个),服务端稳定性不一,部分厂商因担心失去用户关系不愿开放接口。
不过长期来看,MCP必将成为AI生态核心组件,正如当年HTTP协议推动互联网发展。
02、模型层:推理能力狂飙,多模态成标配,小模型逆袭
应用层的爆发,离不开模型层的“内功修炼”。这半年大模型的能力提升,用“突飞猛进”来形容一点都不夸张。
推理能力:从“做题”到“解题”,算力堆出高智商
大模型已能斩获国际数学奥林匹克(IMO)金牌,谷歌与OpenAI的实验模型实现了这一突破,核心在于推理能力的持续跃升。
以OpenAI的o3模型为例,其在AIME准确率较o1提升23%,Codeforce竞赛Elo评分从1891升至2706(涨幅43%),GPQA综合智力测试也提升7%。这些进步依托“思维链范式”单纯堆算力实现,印证了自然语言通用推理可达到极高智能水平。
从前模型解数学题、写代码易“卡壳”,如今能像人类般“逐步推导”,甚至在复杂逻辑中找最优路径。这种能力提升让模型在科研、工程等高端领域实用性大增,不再仅是“聊天玩具”。
工具使用:从“被动调用”到“主动解题”
大模型光会推理还不够,正转向“用工具”解题。这半年核心突破是“端到端训练集成工具使用能力”——模型无需人类额外提示,能自主判断何时调用工具。
比如问“2025年一季度全球智能手机出货量排名及同比变化”,以往模型可能凭“过时记忆”乱答;如今o3、Gemini 2.5 Pro会自动调用搜索引擎查新数据,甚至用Python分析趋势后作答。
未来模型还将更强大:不仅能用现有工具,还能“发明新工具”,比如遇复杂问题时先写小程序处理数据再解题,如同科学家为实验发明新仪器。
多模态:视觉+文本深度融合,“慢思考”成新能力
大模型已从“读文字”专家升级为“看图像+懂文字+会推理”的多面手,这半年关键进展是“端到端融合视觉与文本”,形成类人类“系统2慢思考”能力。
例如OpenAI的o3模型能解“走迷宫”“推箱子”等视觉推理题:放大细节识障碍、规划路线,甚至调用工具检查;复杂任务如“据公交车图推运营时间表”时,能放大读车牌、查站点,结合搜索给结果。
图像与视频生成亦大幅升级:GPT-4o生成图像文字清晰,可理解16个细节指令并支持多轮编辑;视频生成中,字节Seeddance 1.0排名第一,快手可灵2.0月入1400万美元,生成视频的物体一致性与物理规律协调性显著提升,此前体操动作“肢体扭曲”问题已解决,能精准还原复杂动作。
小模型:极致性价比,端侧设备也能跑
大模型并非越大越好,小模型正加速“逆袭”。近半年阿里、字节、谷歌、微软等厂商密集推新,核心聚焦“降门槛、提性价比”。
阿里Qwen 3系列中,0.6B参数版适配低算力设备,8B版支持128K上下文;字节Seed-Coder-8B凭高质量数据强化代码生成能力;谷歌Gemma 3n仅需2GB内存即可在移动设备流畅运行,还支持多模态实时处理。
小模型硬件要求低、可端侧部署,输出成本极低,适配AI陪聊、搜索等大token场景。多数场景无需“全知全能”的大模型,小模型即可满足需求,显著加快AI应用普及。
评估体系:从“考分数”到“看价值”
模型能力越来越强,怎么评估成了新问题。传统的静态榜单(比如MMLU、GSM8K)已经快“饱和”了——大部分头部模型的准确率都快摸到天花板,看不出真实差距。
现在评估方向正在转向“真实世界价值”。比如红杉中国推出的HealthBench,专门衡量AI在医疗健康领域的实用能力;xBench则聚焦HR、销售等领域的商业价值。
未来的评估不仅要看模型“多聪明”,更要看它能创造多少经济产出、解决多少实际问题——毕竟用户最终为“有用的能力”买单,而不是“高分成绩单”。
03、技术层:强化学习成算力黑洞,多智能体开启新范式
模型和应用的进步,背后是技术范式的革新。这半年AI技术的核心变化,正在重塑整个行业的底层逻辑。
训练重心转移:后训练和强化学习成“重头戏”
大模型训练不再是“预训练一家独大”。以前资源主要砸在预训练阶段,现在越来越多投入到后训练和强化学习(RL)中。
预训练为模型打下“基础知识”,但推理等能力难直接显现;后训练与RL则负责“激发潜力”,放大基座模型能力——如GPT-4通过RLHF让回答更贴合人类需求。
不过过争议也存在:后训练可能只是“选出正确推理路径”,不会创造新能力。但预训练投入ROI下降,后训练直接影响实用性,资源倾斜已成必然。
强化学习:算力消耗将超预训练,成智能核心
强化学习的重要性再怎么强调都不为过。OpenAI的o1模型是大规模强化学习在大模型领域的里程碑,而o3模型因为加入工具使用等复杂能力,对强化学习的算力要求更高。
未来强化学习将成算力消耗主力。从Grok系列可见,Grok 1强化学习算力已是预训练的10倍,Grok 4推理版差距进一步拉大。
核心挑战在于奖励模型设计:代码、数学因答案明确易评分,而创意写作等无标准答案领域需专用模型评分,难度更高。但突破后,强化学习将成为驱动模型智能的核心引擎。
多智能体(Multi-Agent):下一个前沿范式
单个Agent能力再强亦有局限:上下文过载易分心、工具过多难决策、领域知识不深。多智能体系统则是破解之道。
其优势显著:分布式并行提效,局部决策减少上下文污染,知识技能互补出优案,且单个故障不影响整体。当前Grok 4 Heavy、Claude Research功能、Manus等均采用多智能体架构,如“领导型Agent分解任务+执行型Agent各司其职”模式,效率远超单Agent。
这或将成为思维链之后的下一个前沿范式——如同人类分工创造更大价值,AI正走向“集体智慧”之路。
在线学习:摆脱人类数据依赖,从交互中成长
当前大模型呈“静态”特征:依赖历史数据训练后即固定,升级需重新训练。而“在线学习”正打破这一局限——模型可从实时交互中学习,如同人类从经验中成长。
其核心在于“持续经验流+自主行动+环境反馈”:例如健康领域Agent能持续监控用户数据并动态调整建议,科研Agent可通过自主实验、分析结果从失败中优化方案。这种方式能摆脱人类数据依赖,突破认知边界——毕竟诸多宇宙规律与科学突破或不在现有人类数据中。
DeepMind与强化学习之父Richard Sutton均提出“经验时代”概念,这很可能成为下一代模型的核心学习方式。
Transformer架构迭代:更高效、更灵活
Transformer仍是主流,但持续“自我优化”。近半年改进聚焦注意力机制与前馈神经网络,以降延迟、提效率为目标。
例如MiniMax的01模型首次大规模实现线性注意力,可处理400万token超长上下文;Google的NSA通过分层设计聚焦关键信息并捕捉全局,性能与全注意力模型相当且更高效;动态Tanh替代归一化层、UltraMem结合超稀疏内存层解决访存问题,均助力Transformer工业落地更顺畅。
混合架构亦在涌现:MambaVision融合Mamba与Transformer,视觉任务达SOTA;Titans架构整合短期记忆(注意力)与长期记忆(神经记忆),兼顾精确性与持久性。架构创新从未停歇,成为模型能力提升的“隐形引擎”。
04、行业层:格局大洗牌,中美差距缩小,编程战场硝烟四起‘
技术和模型的变化,最终会反映在行业格局上。这半年AI圈的“权力榜”,已经悄悄换了位次。
头部玩家大洗牌:OpenAI优势缩小,谷歌、xAI迎头赶上
OpenAI不再是“孤独求败”。上半年谷歌Gemini 2.5 Pro综合推理出色,多模态(视频、音频)表现突出;成立仅2年的xAI Grok 4跻身全球第一梯队,科学、工程类问题表现甚至超OpenAI o3。
能力层面,通用场景中o3深度推理仍占优,但Gemini 2.5 Pro与Grok 4已追平;视频生成上OpenAI Sora与谷歌Veo 3各有千秋;图像生成GPT-4o仍是SOTA,Gemini原生能力亦不俗;代码领域Anthropic Claude Code、谷歌Gemini Code与OpenAI Codex快速趋同,集体提升。
仅Meta Llama 4表现不佳,正通过投资数据标注、引进顶尖人才追赶。头部差距缩小将加剧竞争,推动AI服务品质提升。
算力成核心竞争力:十万卡集群成标配
AI竞赛的核心是“算力竞赛”。在强化学习算力需求超越预训练后,计算集群的强弱直接决定成果产出能力。
xAI便是典型例证:其2024年上半年用122天建成1.5万卡集群,2025年上半年仅92天就将规模扩展至20万卡,未来计划冲刺100万卡。这种“算力暴兵”能力推动Grok 4快速跻身SOTA水平。
正如强化学习之父Richard Sutton“苦涩教训”的论断:通用方法+大规模计算永远优于依赖人类知识的特定方法。如今头部玩家集群已达数十万卡规模,算力堪称AI时代的“核武器”。
中美差距缩小:中国多模态表现亮眼
中美大模型差距正快速缩小。多模态领域已达世界一流:字节Seedance 1.0登顶视频生成榜单;NINMAX Hailu-02-616在图像生成与编辑中排名第二(仅次于GPT-4o Image);音频生成领域国内模型成本更低、响应更快。
代码生成领域亦有突破:DeepSeek-R1-0528在Web开发场景评分仅次于Gemini 2.5 Pro,阿里Qwen 3-Coder部分榜单斩获SOTA。尽管通用大模型仍需追赶,但垂直领域中,中国厂商已凭借“性价比”与“响应速度”构建差异化优势。
AI编程成必争之地:国内外厂商密集布局
编程作为AI最可能率先超越人类的高价值领域,已成竞争焦点,国内外头部玩家动作密集如“军备竞赛”。
海外方面,OpenAI推出o3优化代码能力、Codex支持并行工程任务;Anthropic Claude 4专攻代码问题,Claude Code终端编程表现顶尖;谷歌发布AlphaEvolve对标Codex;xAI正训练专属编程模型,计划8月发布。
国内玩家“对标+创新”并举:阿里开源Qwen 3-Coder并推出命令行工具;字节开源Seed-Coder,发布对标Cursor的AI编程IDE Trae(月活破百万);百度文心快码提供代码生成等功能,智谱GLM-4.5代码能力显著提升。编程场景竞争将直接决定未来软件生产“话语权”。
国内创业公司分化:两条路线选方向
国内大模型创业公司已告别“千篇一律”,分化趋势明显,DeepSeek的现象级出圈成为转折点,创业路径大致分两类:
一类走“技术驱动,追求智能上限”路线:如DeepSeek持续开源强化推理与代码模型,Moonshot AI推Kimi K2发力Agent和深度搜索,MiniMax开源长上下文模型并布局音视频生成,它们聚焦C端或Prosumer端产品,凭技术突破打开市场。
另一类聚焦“商业化与垂类落地”:部分转向行业解决方案,深耕金融、医疗等领域;部分收缩通用模型投入,专注快速变现场景。这种分化标志行业从“同质化竞争”迈向“差异化发展”,是成熟的体现。
结语:AI“实用化”时代已开启
回顾2025上半年,AI最核心的变化是“从实验室走向生活”:Agent能帮你干活了,AI编程能提效了,小模型能在手机上跑了,多模态交互更自然了。技术不再是PPT上的概念,而是能实实在在解决问题的工具。
下半年的看点会更多:通用Agent的融合、视频生成的商业化、MCP生态的成熟、中美模型的进一步较量……AI的进化速度只会越来越快,而那些能抓住趋势、用好工具的人,注定会在这场变革中抢占先机。
不管你是从业者、创业者还是普通用户,现在都该认真看看AI的新变化——因为它正在重塑我们工作和生活的每一个细节,而这场变革,才刚刚开始。
更多内容参见报告。
报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系。
以上就是今天分享观点,若有什么问题,欢迎在下方留言。
学习资料见知识星球。
以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。
快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利!
更多技巧, www.excelbook.cn
欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;
1、价值上万元的专业的PPT报告模板。
2、专业案例分析和解读笔记。
3、实用的Excel、Word、PPT技巧。
4、VIP讨论群,共享资源。
5、优惠的会员商品。
6、一次付费只需129元,即可下载本站文章涉及的文件和软件。