专业报告,计算机行业中期策略:把握人工智能和数字中国双主线机遇!
专业报告,计算机行业中期策略:把握人工智能和数字中国双主线机遇!
(报告出品方/作者:万联证券,夏清莹、王景宜)
1 行业整体:业绩短期承压,估值、持仓显著回暖
1.1 行情回顾:年初以来涨幅较大,行情显著跑赢大盘
计算机行业年初至今涨幅较大,在全行业中排名第3。2023年以来,受到数据要素、 AIGC、数字中国等主题的驱动,计算机行业行情表现较好,大幅领先于沪深300指数。 4月到达行情最高点后经历了AIGC情绪的分歧、以及23Q1业绩表现不佳的影响有所回 调,5月开启新一轮上涨,目前仍处上升通道。2023年年初至6月13日,申万计算机行 业上涨37.49%,涨幅在申万一级31个行业中排名第3位。同期沪深300上涨2.37%,计 算机板块跑赢沪深300指数35.12pct。
估值情况来看,SW计算机行业PE从2022年9月开始探底回升,目前仍处于上升趋势。 截至6月16日收盘,申万计算机PE(TTM)已回升至54.76倍,高于2018年至2023年的 历史均值水平47.55倍。
1.2 业绩分析:23Q1 业绩承压,全年修复可期
2023Q1业绩仍然承压,需求静待修复。2023年第一季度,计算机行业实现营业收入 2270.15亿元,同比下降了1.45%,较22年Q1的增速同比下降了17.03pct,下游需求亟 待修复。实现归母净利润54.54亿元,整体法下同比增速由22年Q1的-41.53%转为 41.17%,增速同比提升了82.70pct,主要是由于非经常性损益的大幅回升。扣非净利 润为-0.98亿元,同比下降104.02%。2023年Q1计算机行业整体毛利率为26.15%,同比 上升0.63pct;销售/管理/研发费用率分别同比提升了0.8pct/0.33pct/1.04pct。
业绩压制因素大幅改善,2023年基本面修复可期。2022年受宏观环境影响,计算机行 业普遍存在项目实施和收入确认延期、商务活动受阻等现象,导致业绩表现较差。 23Q1业绩在宏观经济温和复苏的背景下仍然承压,下游需求亟待修复。当前时点与 2022年相比主要不利因素已基本消除,部分细分领域已出现复苏迹象,随着下游B端、 G端IT支出的回暖、招投标节奏恢复正常,行业的订单和收入增速有望恢复。同时行 业积极控费降本,员工数量增速呈下降趋势,预计收入-成本剪刀差有望扩大,利润 有望释放弹性。
1.3 持仓分析:基金持仓比例大幅提升
2023Q1计算机行业基金重仓比例持续上升,超配比率大幅提升。计算机行业2023年Q1基金持仓占比为7.40%,较2022年Q1同比提升了3.82pct,较2022Q4环比提升了3.05pct。 对比计算机行业流通市值占全部A股流通市值的比例,2023年Q1计算机行业基金持仓 的适配比例为7.40%,超配了2.07pct,但对比2015年的高位仍有较大空间。
从持股市值看,2023年Q1计算机行业的前十大重仓股分别为金山办公、海康威视、恒 生电子、科大讯飞、广联达、纳思达、深信服、同花顺、宝信软件、中科创达。重仓 股持股市值多数环比上升,仅纳思达和中科创达持股市值环比下降。
1.4 行业展望:把握人工智能和数字中国双主线投资机遇
把握人工智能和数字中国双主线机遇。2023年以来,以ChatGPT为代表的AI大模型技 术迎来奇点时刻,AI产业发展日新月异,全球科技公司争相入局大模型研发,上游算 力供不应求,下游应用百花齐放,有望带来IT全面升级。同时,本轮AI的技术升级与 我国的数字经济政策同频共振,2022年年底以来,数据要素、数字中国相关纲领性文 件陆续发布,国家数据局的成立将推动数字中国建设进入实质性落地阶段。数字中国 的核心组成部分数据要素也是AI大模型训练的“燃料”,智算中心、数据中心的建设也为我国发展人工智能提供算力支撑。我们建议把握人工智能和数字中国双主线机 遇,关注AI算力、AI应用、数据要素三大领域。
2 人工智能:ChatGPT 正式开启大模型时代,带动 AI 产业 升级
2.1 OpenAI 与谷歌两大巨头引领技术不断进步
2.1.1 OpenAI:ChatGPT 开启大模型时代,GPT-4 能力大幅提升
2022年11月30日,OpenAI推出全新的对话式AI工具ChatGPT。ChatGPT表现出的交流问 答、文本撰写、生成代码等能力,刷新了人们对AI技术发展的认知。据钛媒体消息, ChatGPT推出短短几天内,注册用户超过100万,2个月活跃用户数已达1个亿,引爆全 网热议,成为历史上增长最快的消费者应用程序,掀起了人工智能领域的技术巨浪。 大规模的参数与海量的训练数据为GPT系列模型赋能,使其可以存储海量的知识、理 解人类的自然语言并且有着良好的表达能力。GPT家族是OpenAI公司推出的一系列生 成式语言模型,每一代GPT相较于上一代模型的参数量均呈现出指数级增长。OpenAI 在2018年6月发布的GPT包含1.2亿参数,在2019年2月发布的GPT-2包含15亿参数,在 2020年5月发布的GPT-3包含1750亿参数。与相应参数量一同增长的还有公司逐年积淀 下来的海量数据。
ChatGPT由一系列GPT模型演变而来,引领AI技术路线发展。除参数量的增长以外,GPT 模型家族的发展从GPT-3开始分成了两个技术路径并行发展,一个路径是以Codex为代 表的代码预训练技术,另一个路径是以InstructGPT为代表的文本指令(Instruction) 预训练技术。后者通过指令学习(Instruction Tuning)、有监督精调(Supervised Fine-tuning)以及基于人类反馈的强化学习(RLHF)等技术实现了以自然语言对话 为接口的ChatGPT模型。ChatGPT的出现为AI技术路线的发展指明了可行的方向,即在 “预训练模型+Prompt”的训练范式下,通过“大算力+大数据+大参数”提升模型准 确性,并加入人类反馈的强化学习(RLHF)与人类偏好对齐,预计将成为后续AI技术 发展的主流路线。
GPT-4升级为多模态,能力飞跃式提升。GPT-4于2023年3月14日发布,属于多模态大 模型,能够支持图像和文本的输入,再输出正确的文本回复。和上一代相比,GPT-4 拥有了更广的知识面和更强的解决问题能力。当任务的复杂性足够高时,GPT-4比 GPT3.5更可靠、更有创意,并且能够处理更细微的指令,例如强大的识图能力、长内 容分析能力、回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。与上 一代模型相比,GPT-4显著减少了“幻觉”。在OpenAI内部对抗性事实性评估中,GPT4的得分比GPT3.5高40%。
OpenAI发布ChatGPT plugins功能,构建第三方应用生态。据官网资料,ChatGPT的第 一批插件由Expedia、FiscalNote、Instacart、KAYAK、Klarna、Milo、OpenTable、 Shopify、Slack、Speak、Wolfram和Zapier等公司提供,这些插件的具体功能包括推 荐餐厅、制定出游计划、网上商店购物、企业办公、信息检索、语言教学等,涵盖日 常生活的衣食住行各个方面。
2.1.2 谷歌:与 OpenAI 竞争持续升级,前瞻性探索具身智能
谷歌紧随OpenAI脚步,发布PaLM 2与GPT-4同台竞技。2023年2月6日,谷歌发布由 “LaMDA轻量级版本”支持的Bard对话式人工智能项目;3月21日,Bard正式开放内测, 并将反馈结果用于改进;5月10日,在年度开发者大会上,谷歌正式发布了对打GPT4的PaLM 2并将其赋能Bard。语言能力方面,新版Bard支持100种语言。推理能力方面, PaLM 2的广泛数据集包括科学论文和包含数学表达式的网页,由此带来了强大的逻 辑、常识推理和数学方面的能力,比之前的PaLM更容易理解人类的意图。在少样本场 景下的推理能力对比中,PaLM 2相较PaLM的性能提升幅度较大,在WinoGrande、DROP 场景超越GPT-4。
谷歌PaLM-E探索具身智能,或是下一阶段大模型发展方向。PaLM-E模型源自于谷歌的 大型语言模型PaLM,E指的就是具象化(Embodied)。通过将通用语言模型与视觉转换 模型ViT相结合,PaLM-E成功实现让AI同时具备“理解文字”和“读懂图片”的能力, 不仅能够输出文字,还能赋予机器思考如何执行人类指令的能力。研究人员介绍称, PaLM和ViT的结合,使得PaLM-E的参数量最高可达5620亿。
大模型是连接人工智能产业生态的桥梁,向上带动算力基础设施的需求,向下促进应 用的百花齐放。上游产业:可分为硬件、软件两部分。其中,硬件上包括通用计算芯 片、AI计算加速芯片、计算服务器、存储服务器、高速互联网络等。软件包括云计算 环境、数据库组件、容器和虚拟化技术等。中游产业:主要围绕大模型技术研发、管 理和运维发展。技术研发方面,主要包括算法研发所需的编程环境(语言)、算法框架 等工具,甚至可能出现专业的模型测评机构。同时,可能出现一批基于模型技术开发 平台、服务和软件开发的企业。下游产业:主要是大模型重点落地的场景,这些场景 可以和教育、营销、社交、娱乐等产业结合,形成丰富的产业形态。
2.2 国内大模型百舸争流,政策大力支持产业发展
国内大模型研发如火如荼,参与者包括BAT、华为、京东等互联网厂商,也包括商汤、 科大讯飞等人工智能算法独立厂商,以及高校和研发机构。从参数量来看,国内大模 型参数规模大多达到了千亿级以上,其中阿里通义及腾讯混元参数量达到万亿级。从 模型类型来看,国内大模型以NLP模型为主,主要实现人机对话、文本生成等功能。 互联网大厂及少数AI算法厂商涉及了CV及多模态领域。
相比国外大模型,国内大模型发展更注重实际落地。从落地方向上来看,百度、阿里、 科大讯飞均采取了“通用基础大模型+行业大模型”协同发展的模式,首先发布通用 大模型并开放公众测试,同时积极将大模型融入自身产品线。而华为、腾讯则更侧重 于打造行业专属大模型,专注于对B端客户的赋能。
1)百度:文心大模型
“文心一言”打响国内大模型第一枪。百度于2023年3月16日召开关于“文心一言” 的主题发布会。“文心一言”是国内首款公开发布的生成式语言大模型,基于飞桨深 度学习平台和文心大模型打造,持续从海量数据和大规模知识中融合学习,具备知识 增强、检索增强和对话增强的技术特色,能够与人对话互动、回答问题、协助创作, 高效便捷地帮助人们获取信息、知识和灵感。除NLP大模型“文心一言”外,百度文 心大模型还包括了CV大模型、跨模态大模型、生物计算大模型和一系列行业大模型, 具有多模态内容创作、数理推算、数据搜索分析、程序代码生成分析等能力,可应用 于政务、金融、旅行、电商、企业办公多种场景。 文心大模型积极拓展内外部应用,目前面向公众和企业用户同时进行开放测试。内部应用方面,文心大模型已经率先应用于百度搜索、智能驾驶、百度地图、小度智能屏 等内部重要产品上;外部应用层面,据百度智能云披露,发布三个月以来,已有超15 万客户申请接入文心一言,超300家企业成为文心一言生态伙伴,实现超400个具体场 景落地。
2)阿里:通义大模型
2023年4月,阿里正式发布了“通义千问”产品。该产品基于10万亿级参数的大模型 底座M6-OFA,未来将具有多轮交互及复杂指令理解、可多模态融合、支持外部增强 API等多种能力。阿里巴巴通义大模型以统一底座为基础构建了层次化的模型体系, 其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入电商、医 疗、法律、金融、娱乐等行业。通用与专业领域大小模型协同,让通义大模型系列可 兼顾性能最优化与低成本落地。 钉钉率先接入通义千问,未来阿里全线产品将接入大模型升级。根据峰会当天预告的 Demo演示,接入通义千问之后的钉钉可实现近10项AI功能,包括创作诗歌小说、撰写 邮件、生成营销策划方案、生成会议记录并自动总结会议纪要、生成待办事项等。最 值得关注的是,钉钉展示了拍照生成小程序场景,上传一张功能草图,不用写一行代 码,可立刻生成订餐轻应用。未来阿里全线产品将接入大模型升级,包括天猫、钉钉、 高德地图、淘宝、优酷、盒马等。
3)科大讯飞:星火认知大模型
2023年5月6日,讯飞星火大模型正式发布,宣布10月对标ChatGPT。发布会展示了文 本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力七项 能力,模型在文本生成、逻辑推理等AI任务上表现惊艳,中文表现已接近ChatGPT。 2023年6月9日,讯飞星火认知大模型V1.5如约而至,几项能力都有了显著提升:文本 生成能力有7%的提升,语言理解能力提升了8%,知识问答提升了24%,在逻辑推理、 数学能力和代码能力上分别有了10%、9%和8%的提升。根据科大讯飞宣布的计划,8月 15日将突破代码能力,多模态交互能力也将正式开放给客户;10月24日在通用大模型 领域对标ChatGPT,中文超越,英文相当。
科大讯飞将大模型嵌入自身产品线,落地教育、办公、汽车、数字员工四方面应用。 教育:学习机实现作文高级批改,能识别错别字、语句不通及根据作文要求评价内容, 快速完成普通教师30分钟的批改量;英文作文纠正拼写错误、词汇用法和句型结构; 并提供AI开放式英文对话练习功能。办公:在办公本、录音笔、讯飞听见等办公产品 中提供语篇规整及规整前后对比,会议纪要并根据手写内容概括会议重点,根据录音 实现品宣文案、新闻稿件等各风格需求一键成稿,并可翻译成多种语言。汽车:车内 实时语音交互,实现路线搜索、行程规划、故事朗读、电话录音并纪要等功能。数字 员工:能够实现更加智能的虚拟人智能交互、RPA自动数据分析及PPT创作等。
4)华为:盘古大模型
华为专注AI for Industry,主要面向企业市场提供全栈式服务。华为盘古大模型于 2021年发布,包括NLP、CV、科学计算等大模型。根据2023年4月华为公布的最新进展, 华为基于一站式AI开发平台ModelArts建立了三个层次的大模型,L0层为基础通用模 型,L1层为结合具体行业数据训练的行业大模型,包括矿山、气象、药物、电力、金 融等行业,L2层为应用于具体业务场景的部署模型,如金融OCR模型、PCB板质检模型、 电力巡检模型等。
5)腾讯:基于行业大模型的腾讯云MaaS
腾讯以行业大模型切入大模型产业,定位为B端MaaS提供商。6月19日,腾讯首次正式 公布行业大模型研发进展,并发布面向B端客户的腾讯云MaaS(Model-as-a-service, 模型即服务)服务解决方案。腾讯云MaaS的技术底座是一系列的行业大模型,包括金 融、政府、文旅、传媒、教育等。基于这些基础模型,腾讯云的客户只要加入自己的 场景数据,就可以生成契合自身业务需要的专属模型。
我国AI产业支持政策频出,监管政策及立法有序推进有利于推进我国AI大模型的研 发升级和产业链上下游的发展。2023年4月,中央政治局会议首次提出,重视通用人 工智能发展。5月,北上深三地齐发人工智能相关支持政策,均重点提及支持智能算 力建设,预计算力基础设施的投资力度将加大。同时,北京还重点强调了人工智能芯 片的国产化。此外同时,北京和深圳均强调人工智能落地应用场景、赋能千行百业。 监管层面,网信办发布了《生成式人工智能服务管理办法(征求意见稿)》,对AI生成 内容的真实性、歧视性、数据安全、隐私、知识产权等方面提出相应监管要求。《国 务院2023年度立法工作计划》也将人工智能法草案包含在内。
2.3 算力:算力需求持续增长,AI 服务器及芯片市场迎来机遇
2.3.1 大模型发展需要海量算力支持
随着LLM参数规模的提升,知识密集型的学习效率普遍提高,甚至出现“涌现能力”。 2022年Google发表文章探讨大模型的涌现现象,点明很多能力是模型规模增大以后神 奇出现的,当模型规模跨过某一阀值时,大模型对此类任务的效果就出现突然的性能 增长。针对知识密集型任务,随着模型规模逐步放大,任务的表现越来越好;类似于 思维链等比较高级的能力,需要在数百亿参数量以上的模型中才表现得足够优异。
参数量增长的背后是海量的算力支持,预计大模型参数规模增长仍是当前趋势,算力 资源需求保持旺盛。自2010年代初深度学习问世以来,训练所需的算力快速增长,大 约每6个月翻一番。2015年末,随着大规模的出现及其参数量的快速增长,训练算力 的需求提高了10到100倍。据澎湃新闻报道,OpenAI首席执行官Sam Altman在OpenAI 闭门会议上称,ChatGPT开放更长的上下文窗口、提供微调API等服务都受到GPU资源 的限制。此外,OpenAI的内部数据表明,模型性能与规模成比例的规律仍然成立,即 模型更大、性能也会更强。OpenAI会继续尝试把模型做得更大。我们认为继续通过增 大模型和增加训练数据仍会是短期内演进方向。随着全球大模型数量的不断增加、模 型参数的快速增长,叠加模型从单一模态向多模态、具身智能发展的发展趋势,算力 需求将持续保持旺盛。
全球智能算力规模正在快速膨胀。据信通院测算,2021年全球计算设备算力总规模达 到615EFlops,增速达到44%,到2030年智能算力将达到52.5ZFlops,平均年增速超过80%;国内方面,根据IDC数据,2021年中国智能算力规模达155.2每秒百亿亿次浮点运 算(EFLOPS),2022年智能算力规模将达到268.0 EFLOPS,预计到2026年智能算力规 模达到1271.4 EFLOPS。智能算力规模和增速远超通用算力,预计中国智能算力规模 年复合增长率达52.3%,同期通用算力规模年复合增长率为18.5%。
2.3.2 服务器厂商有望率先受益
服务器是AI算力的主要载体,预计全球AI服务器市场规模将高速增长。IDC数据显示, 2021年全球人工智能服务器市场规模达156.3亿美元,约合人民币1045亿元,同比增 长39.1%。其中,浪潮信息、戴尔、HPE分别以20.9%、13.0%、9.2%的市占率位列前三, 三家厂商总市场份额占比达43.1%。未来五年,人工智能服务器市场将继续高速增长, 预计2026年全球人工智能服务器市场规模将达到347.1亿美元,五年复合增长率为 17.3%;国内市场方面,2021年中国人工智能服务器市场规模达到59.2亿美元,与2020 年相比增长68.2%。IDC调研显示,超过80%的中国企业将在未来一年持续增加人工智 能服务器的投资规模,预计到2026年,中国人工智能服务器市场规模将达到123.4亿 美元。
AI服务器相比普通服务器价值量大幅提升,AI芯片为服务器成本核心。对比英伟达 DGX H100服务器和英特尔普通双路服务器的成本结构,可以发现AI服务价值量大幅 提升。其中,GPU成本占AI服务器总成本的比重超过80%,此外,其他主要部件如CPU、 内存、网卡等价值量均大幅提升。
2.3.3 国产 AI 芯片迎来发展机遇
AI芯片是专门为AI计算加速而设计的芯片,GPU目前占据主流地位。“CPU+X”的异构 计算模式极大加速了AI应用的运算效率。X即指代AI芯片,常见架构类型包括GPU、 FPGA和ASIC。在云端及边缘侧对芯片的计算性能、精度及通用性有高要求的训练场景, 以英伟达产品为代表的GPU长期占据AI芯片主流应用市场。而ASIC架构的AI芯片由于 高度定制化带来的极致性能,近年来发展势头较为迅速,市场上涌现出的类似谷歌的 TPU、高通的NPU等各种芯片,本质上都属于ASIC。
英伟达在GPU领域独占鳌头,已充分受益于本轮AI浪潮。英伟达是全球GPU市场的龙 头,凭借优异的产品性能及完善的CUDA生态占据主导地位。其拳头产品A100、H100加 速卡在本轮全球大模型竞赛中“一卡难求”。得益于在AI大模型持续火热的背景下, 互联网公司和云服务商对GPU需求的持续增长,英伟达2024FYQ1业绩大幅超出市场预 期,并预期下半年GPU需求仍将显著提升。
美国限制高性能AI芯片对华出口,国产芯片迎来机遇。2022年10月7日,美国正式出 台了针对中国大陆的出口管制新规,其中包括了对于高性能计算芯片对中国大陆的 出口限制,并且以NVIDIA的A100芯片的性能指标作为限制标准。对此,英伟达宣布将 推出符合新规划的A100的替代产品A800。从官方公布的参数来看,A800主要是对互联 带宽进行了限制,由A100的600GB/s降至了400GB/s,单卡算力不变,但互联带宽的限 制可能会限制整个集群的算力规模。
国内AI芯片厂商奋起直追,有望在ASIC路线上实现弯道超车。整体上看,国外芯片巨 头目前仍处于领先地位,占据了大部分市场份额,并且在GPU和FPGA方面近乎垄断。 国内AI芯片采用ASIC路线切入,在性能上向英伟达不断追赶。华为昇腾、寒武纪、百 度昆仑芯等厂商在多个领域取得突破进展,部分已进入批量出货阶段。如寒武纪的第 三代云端推训一体芯片思元370,最大算力高达256TOPS(INT8),目前已与数家头部互 联网企业完成适配工作,已经进入了批量销售环节,并与金融、运营商等众多行业领 域中的头部公司实现了批量销售或达成合作意向。我们认为在国内政策支持和大模 型训练需求的双重驱动下,国产AI芯片有望扩大在国内的市场份额。
2.4 应用:大模型赋能千行百业,AI 应用百花齐放
预计未来3年内文本、代码领域出现成熟应用。目前AIGC大模型涉及到的模态有文本、 代码、图片、视频、音频、3D模型等,不同模态间往往可以进行相互转化,例如文本 生成图片、文本生成代码等。当前AIGC类的应用开发多数也是均是基于上述模态的生成和转化进行落地,满足不同场景的需求。根据红杉资本的预测,文本领域的应用走 在前列,在2023年左右已经可以输出较高质量的垂直领域文案;代码领域应用进展同 样迅速,而图像、视频等领域受限于多模态大模型的发展进度起步较晚。
2.4.1 通用工具:AI+办公软件开启智能办公新时代,大幅提升生产力
办公软件为本轮AI应用最先落地的应用场景,Notion AI开启付费订阅,微软已在探 索AI功能定价。2月底,文档协同软件公司Notion就推出了基于ChatGPT的企服工具 Notion AI,成为行业中第一个发布AI+轻文档办公软件应用的厂商。Notion AI拥有总结、改错、翻译、续写、头脑风暴等功能,已开启订阅制收费。3月16日,微软正 式发布Microsoft 365 Copilot,将GPT-4大语言模型能力融入了旗下全栈生产力工 具。据科技媒体The Information报道,包括美国银行、沃尔玛、福特和埃森哲在内 的600多家微软最大的客户预计将试用Microsoft Office 365中的Copilot功能,其 中至少已有100家客户已经额外分别为1000个订阅账户支付了高达10万美元的年费。 与经典版本相比,这一AI版本的Office 365价格至少高出了40%。微软利用AI功能进 行提价有望充分打开办公软件订阅付费空间。
WPS AI宣布全面嵌入Word、PPT、Excel及PDF四大组件,进一步对标微软Copilot。与 微软于3月发布的Microsoft Copilot功能类似,WPS AI在办公套件中能够执行各类 生成、理解、分析等任务。在Word中,用户只需要向助手提供创意,或复制粘贴已有 素材,WPS AI即可提供撰写、润色、总结的能力,并支持语音输入功能;在Excel中, 用户可直接向助手下达调用公式、函数等能力,自动生成相关图表,WPS AI可自动完 成计算和对数据的分析;在PPT中,WPS AI现已支持输入主题,一键生成PPT演示文稿, 并会根据用户要求进细化调节,如更改主题风格、单页美化、更改字体、更改配色、 生成演讲稿等;在PDF中,WPS AI能够阅读包括论文、合同、课件等文档,用户以问 答方式则可以获得关键信息,并提供文档溯源功能。此外,用户还能通过手机拍摄相 关文档,而后WPS给出相关翻译、概括、分析等功能。
大模型有望推动办公软件重构。我们认为LLM会从两方面改变办公软件行业:1)更好 的人机交互:办公软件功能繁多、交互复杂,用户的学习成本较高。在LLM能力的加 持下,用户通过简单的自然语言指令描述自己想要实现的功能和效果,办公软件就可 以自动执行操作,能够用户学习成本、省去大量的人工操作,从而大幅提升工作效率。 此外,过去移动端场景不便于深度操作文档,但随着AI技术不断提升人机交互的便利 性,移动端办公的用户体验有望充分提升。2)知识的再利用:LLM可以赋予办公软件 非结构化数据处理能力,随着大量文件与对话的数据在办公场景中不断沉淀,LLM的 能力可以帮助企业挖掘数据价值,未来企业可以私有化部署大模型,做到对企业的文 档库了如指掌,从而挖掘文档中沉淀的知识。
2.4.2 垂直行业:深度赋能千行百业,教育、金融领域加速融合
AI在教育、金融、医疗、工业、游戏等行业均有丰富的应用场景。1)教育:在课程 生成、作业批改、答疑反馈、个性化教学等场景均能融入;2)金融:可用于智能客服、 智能投顾、量化交易、信用评级、风险欺诈检测等领域;3)医疗:可辅助进行药物研 发、影像分析、拟定初步诊疗方案等;4)工业:赋能产品设计,生成设计图草稿、 3D建模;在产品制造阶段也可用于人机协作、工业质检;5)影视娱乐:对于非严肃场 景下的内容生成、特效处理、脚本创作等均有有效促进;6)游戏:辅助进行原画设 计、场景剧情生成、角色建模;可在个性化定制关卡、NPC交互等方面进行玩法创新。
AI+金融:智能客服、智能投研领域应用前景广阔
彭博构建金融数据集,训练出金融领域专用大模型BloombergGPT。2023年3月30日, 彭博发布一篇关于BloombergGPT开发情况的研究论文,文章详细介绍了这一全新的大 规模生成式人工智能(AI)模型。该大语言模型(LLM)专门针对各类金融数据进行 训练,以全方位支持金融领域的自然语言处理(NLP)任务,包括市场情绪分析、命 名实体识别、新闻分类和问题回答等。根据实验结果,BloombergGPT模型在金融任务 上的表现远超类似规模的开放模型,而在一般NLP基准上的表现也达到甚至超过了平 均水平。Bloomberg通过其积累的大量金融行业优质数据训练行业专有模型,更能够 满足金融场景的特定需求。
同花顺基于AI技术打造i问财等产品,实现智能客服、智能投研等功能。i问财可以提 供多维度的股票、基金、债券数据,投资者可输入自然语言问句,搜索想要的数据和 信息。i问财还能为客户提供条件选股、研报图表、精选策略、产品搜索、短线复盘、 策略回测、宏观经济等功能。此外,同花顺AI开放平台下还有智能服务数字人功能, 用人工智能技术、多模态的交互及富媒体的表达,解决用户个性化的投资问题。
AI+教育:提升教学互动性,打造个性化专属教师
Duolingo接入GPT-4,大大提升语言教学的互动性和个性化。Duolingo是一款广受欢 迎的语言学习应用程序,旨在帮助用户通过游戏化的方式学习新语言。该应用提供了 多种语言学习课程,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语等。 Duolingo已经建立了广泛的语言学习课程和资源库,涵盖了多种语言和学习层级。结 合GPT-4的技术,Duolingo可以进一步扩展其课程内容,提供更丰富的教学体验。近 期Duolingo与OpenAI团队合作推出了Duolingo Max,在原有会员功能的基础上提供角 色扮演(“Roleplay”)及对话辅导(“Explain My Answer”)的两个新功能: 角色扮演(“Roleplay”):通过日常生活场景对话模拟练习,帮助用户掌握更实 用的表达。互动结束后,用户会从Duo获得反馈,了解自己表达的准确性,增进 对话的技巧。 AI对话辅导(“Explain My Answer”):通过对话的方式为用户解析翻译出现用 词及语法的问题。用户在练习后点击一个按钮,就可以进入与Duo的聊天,以获 得简单的解释为什么他们答案是对还是错,也可以要求进一步进行举例或说明。
讯飞星火认知大模型覆盖“教、学、考、评、管”全链路场景,在精准教学、学情分 析、个性化学习、测评与评价等方面带来更丰富的体验创新。在作文批改上,搭载认 知大模型的科大讯飞AI学习机T20系列可实现中英文作文类人批改。相比于传统学习 机只能针对字词标点纠错、识别句式修辞错误这些基础批改,讯飞AI学习机实现了围 绕写作要求、分析全篇结构和文采的深度高阶批改。它还可以实现写作思路启发,利 用AI润色技术生成片段优化参考和写作建议提升。
讯飞还发布大模型赋能的AI口语助手星火语伴App,实现1对1口语陪练和随身翻译, 让每个孩子都有专属的AI学习助手,并发布全新的智能“星火教师助手”,深度定制 开发了更符合教学实际需求的功能和应用,通过对话交互的方式,使教学更加具象化, 以人工智能技术助力高效智慧课堂教与学。
3 数据要素:进入实质性落地阶段,与 AI 产业共振
3.1 中央及地方政策密集出台,数据局成立有望推动产业加速落地
纲领性政策文件密集出台,国家数据局成立推动产业进入实质性落地阶段。2022年12 月,国务院发布“数据二十条”,从数据产权、流通交易、收益分配、安全治理四方 面初步搭建中国数据基础制度体系,提出20条政策举措,确立了数据要素发展顶层指 导框架。同月,财政部印发《企业数据资源相关会计处理暂行规定(征求意见稿)》, 对于符合条件的数据资源,内部使用确认为无形资产,外部交易确认为存货,数据资 产入表有助数据要素价值可视化。2023年3月,十四届全国人大一次会议举行第二次 全体会议,根据国务院关于提请审议国务院机构改革方案的议案,组建国家数据局, 负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字 中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。
地方层面,今年多个省市密集发布数据要素相关政策。北京、上海、广东、浙江、江 苏、山东、四川等各地积极响应,从数据产权登记、公共数据开放、数据流通交易等 方面积极探索,切实推动各地数据要素市场化改革落地。
当前我国数据要素市场处于高速发展阶段,“十四五”期间规模超千亿。“十三五”期 间,我国各要素市场规模实现不同程度的增长,以数据采集、数据储存、数据加工、 数据流通等环节为核心的数据要素市场增长尤为迅速。据国家工信安全中心测算数 据,2020年我国数据要素市场规模达到545亿元,“十三五”期间市场规模复合增速 超过30%;预计“十四五”期间市场规模复合增速将超过25%,到2025年市场规模达到 1749亿元。
我国数商生态持续扩容。数商是数据要素市场的参与主体,主要职能是为数据交易双 方提供数据产品开发、发布、承销和数据资产的合规化、标准化、增值化服务,促进 提高数据交易效率。上海数据交易所将数据服务商分成基础设施提供商、数据资源集 成商、数据加工服务商、数据分析技术服务商、数据治理服务商等15类。“数据二十 条”明确提出,培育一批数据商和第三方专业服务机构。
3.2 多地探索公共数据运营新模式,医疗数据要素或将先行
公共数据作为数据资源的重要组成部分,蕴藏着巨大的经济和社会价值,我国高度重 视并大力推动公共数据开发利用和运营。根据《国家数据资源调查报告(2021)》,我 国2021年数据产量6.6ZB,其中个人数据产量为1.4ZB,各类行业机构产生数据5.2ZB。 行业分布看,数据产量排名前五位的行业分别为政府、互联网、媒体、公众服务及专 业服务、交通,前五大行业数据产量占全国行业机构数据总产量的65%。国家“十四五”规划提出,“开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利 用”,《“十四五”数字经济发展规划》进一步提出,通过数据开放、特许开发、授权 应用等方式,鼓励更多社会力量对政务数据和公共数据进行增值开发利用。随着数据 要素市场化配置改革、数据安全、网络安全、个人信息保护等政策法规颁布实施,公 共数据运营正迈入落地实施阶段。 公共数据运营主要分为行业主导、区域主导、场景牵引三种模式。根据赛迪研究院的 研究成果,我国公共数据授权运营主要形成三种主要模式:一是行业主导模式,主要 由垂直行业管理部门授权和指导其下属机构承担数据运营平台建设、场景开发和市 场运营;二是区域一体化模式,主要由地区数据管理机构以整体授权形式委托数据运 营机构开展平台建设和市场运营;三是场景牵引模式,主要基于特定应用场景分类授 权引入专业数据运营机构,分领域、分场景激活公共数据价值的运营模式。
多个省市成立数据集团,有望成为各地政府参与数据运营的抓手。央企层面,中国电 子数据产业集团于2022年12月成立,是国内首家由中央企业设立的数据产业集团;地 方层面,上海、河南、福建、陕西、成都、南京等地陆续成立数据集团,多为政府主 导。部分数据集团为当地数据交易所的控股股东。数据集团以数据为核心业务,实现 公共数据、行业数据和社会数据的交汇、供给、配置及市场化开发利用,开展数字资 产运营、数据交易服务和数字产业投资。数据集团也可作为电子政务公共平台,实现 电子政务网络+云+平台系统建设一体化,助推数字经济发展市场化、专业化。
医保数据要素具备较好的落地基础和清晰的商业模式,且已有相关地方政策开始探 索,或将成为率先落地场景。一方面,我国已具备一定的医疗信息化基础,2022年3 月,全国统一医保信息平台已在31省全域上线,该平台包括公共服务、经办管理、智 能监管、分析决策共4大类14个业务子系统,实现了标准全国统一、数据两级集中、 平台分级部署、网络全面覆盖、系统安全可控,实现了国家、省、市、县四级医保信 息互联互通、数据有序共享,为医保数据要素的流通交易奠定了充分基础。另一方面, 医保数据具备较为清晰的落地场景,如杭州市数据资源管理局起草的《杭州市公共数 据授权运营实施方案(试行)》,其中明确提到“推动重点场景应用。如普惠健康险场 景,通过融合保险数据、诊疗数据、医保数据、健康数据等。”;《青岛市公共数据运 营试点管理暂行办法》公开征求意见提出在公共数据运营平台中设置医疗专区,围绕 “医疗、医保、医药”应用场景建设,医疗人工智能企业药企、保险公司等三医行业 相关企业,可通过医疗专区申请并使用医疗数据,可用于智慧核保、快速理赔、药物 研发等医疗场景。
3.3 数据交易所建设如火如荼,数据产品不断丰富
我国大数据交易所建设方兴未艾,加速数据要素价值转化。我国自2014年开始探索建 立类似证券交易所形式的数据交易机构,随着数据要素相关政策的推动,数据产品交 易迎来2.0时代。截至2022年底,全国数据交易所已近50家。各大数据交易所交易主 题、上架产品以及交易规模都处于快速发展态势,数据产品和服务类型日益丰富,能 够提供数据AP1、数据集、数据报告等多种形式的产品和服务:
贵阳大数据交易所:2015年4月正式挂牌,是全国第一家大数据交易所,根据数据 交易网披露,截至2023年6月21日,贵数所已累计集聚“数据商”、“数据中介” 等市场主体629家,上架产品1055个,交易888笔,共计交易额达14443万元。贵 数所表示,力争到2025年,年度交易额突破100亿元。
上海数据交易所:2021年11月揭牌交易,根据数据交易网披露,2022年,上海数 据交易所数据产品挂牌超800个,涉及金融、交通、工业、通信等12个行业领域, 交易金额突破1亿元。上海交易所总经理汤奇峰表示,2023年,场内交易有望突 破10亿元。
深圳数据交易所:2022年11月15日挂牌运营。截至2023年6月,深数所已累计交易突破700笔,覆盖165个应用场景,生态合作机构突破900家。汇集数据产品超1500 个,服务触达2000家以上市场主体。预计未来2-3年,其数据交易规模超过100亿 元,对经济增加值贡献超过50亿元。
3.4 高质量数据是 AI 大模型的“燃料”
数据是人工智能三要素之一,大模型的训练离不开高质量的数据集。数据集的质量直 接影响着大模型的性能和表现。一个优质的数据集应该具备多样性、广泛性和准确性, 以确保模型能够获取全面而可靠的信息。例如,在训练NLP大模型时,如果数据集中 只包含特定领域的文本,比如新闻报道,那么这个模型在其他领域的表现可能会相对 较差。但如果数据集包含了例如科技、医学、法律和社交媒体等不同类型的文本,那 么训练出来的模型将具备更广泛的知识和理解能力。此外,用于垂直领域的专用大模 型更需要大量行业专属数据进行微调,才能解决更为专业复杂的行业问题。 AI数据相关市场快速增长。据艾瑞统计与预测,2022年我国AI基础数据服务市场规模 (含数据采集与标注)为31亿元。受各类AI应用对于图像、语音和文本数据集及定制化 数据服务的需求上涨影响,2027年相应规模可达到79亿元,2022-2027年的相关CAGR 达20.6%。2022年中国面向人工智能的数据治理市场规模约为45亿元。受数据平台服 务、数据治理服务和AI应用建设的需求推动影响,面向人工智能的数据治理市场规模 将持续上升,2027年达121亿元,2022-2027年的相关CAGR为21.7%。
北京、深圳在人工智能产业政策中针对性提及数据要素,有望推动产业发展。2023年 5月,《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》 提出,“建立多模态公共数据集,打造高质量中文语料数据”。同月,《北京市促进 通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》发布,针对“提升 高质量数据要素供给能力”提出三大举措:(1)归集高质量基础训练数据集;(2)打造 “国家数据基础制度先行先试示范区”,谋划国家级数据训练基地;(3)搭建数据集 精细化标注众包服务平台。
下载地址:https://t.zsxq.com/0fiRbch5u
以上就是今天分享观点,若有什么问题,欢迎在下方留言。
学习资料见知识星球。
以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。
快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利!
更多技巧, www.excelbook.cn
欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;
1、价值上万元的专业的PPT报告模板。
2、专业案例分析和解读笔记。
3、实用的Excel、Word、PPT技巧。
4、VIP讨论群,共享资源。
5、优惠的会员商品。
6、一次付费只需99元,即可下载本站文章涉及的文件和软件。
共有 0 条评论