Select Language

AI社区

数据要素产业

2021年中国人工智能基础层行业研究报告

人工智能丨研究报告

核心摘要:

算力、算法、数据是人工智能产业发展的三大要素。基于此,艾瑞定义人工智能基础层是支撑AI应用模型开发及落地的必要资源,主要包括智能计算集群、智能模型敏捷开发工具、数据基础服务与治理平台三大模块。发展人工智能基础层可多环节提效AI技术价值的释放,解决需求方人工智能生产力稀缺问题,且依托AI基础层资源,AI企业可有效应对下游客户的长尾应用需求,将其高频应用转化为新主营业务,寻找业务增长突破点。此外,基础层工具属性标志着AI产业社会化分工的出现,AI产业正逐步进入各产业深度参与、双向共建的效率化生产阶段。据艾瑞测算,2020年人工智能基础层市场规模为497亿元,为AI产业总规模的33%,AI芯片的高增长是产业规模增长的主要拉动力。未来,伴随各行业智能化转型的迫切需求,艾瑞认为人工智能基础层的各模块工具有望走向集约型的生产模式,更多企业将自研开源框架,国产的操作系统与数据库等软件配套设施将稳步崛起,算力模块的智能服务器国产化率也将逐步提升。

人工智能基础层概念界定

人工智能基础层定义

支撑各类人工智能应用开发与运行的资源和平台

算力、算法、数据是人工智能产业发展的三大要素。据此,人工智能基础层主要包括智能计算集群、智能模型敏捷开发工具、数据基础服务与治理平台三个模块。智能计算集群提供支撑AI模型开发、训练或推理的算力资源,包括系统级AI芯片和异构智能计算服务器,以及下游的人工智能计算中心等;智能模型敏捷开发工具模块主要实现AI应用模型的生产,包括开源算法框架,提供语音、图像等AI技术能力调用的AI开放平台和AI应用模型效率化生产平台;数据基础服务与治理平台模块则实现AI应用所需的数据资源生产与治理,提供AI基础数据服务及面向AI的数据治理平台。AI基础层企业通过提供AI算力、开发工具或数据资源助力人工智能应用在各行业领域、各应用场景落地,支撑人工智能产业健康稳定发展。

人工智能基础层价值

AI基础层是支撑AI应用模型开发及落地的必要资源

开发一项人工智能模型并上线应用大致需经历从业务理解、数据采标及处理、模型训练与测试到运维监控等一系列流程。过程中需要大量的AI算力、高质量数据源、AI应用算法研发及AI技术人员的支持,但大部分中小企业用户并不具备在“算力、数据、算法”三维度从0到1部署的能力,而财力雄厚的大型企业亦需高性价比的AI开发部署方案。依靠AI基础层资源,需求企业可降低资源浪费情况、规避试错成本、提高部署应用速度。作为支撑AI模型开发及落地的必要资源,AI基础层可在多环节提效AI技术价值的释放;其工具属性也标志着AI产业社会化分工的出现,AI产业正逐步进入低技术门槛、低部署成本、各产业深度参与双向共建的效率化生产阶段。

人工智能基础层进阶之路

粗放式单点工具向集约型、精细化资源演进

智能化转型趋势下,企业部署AI项目的需求正经历着变化,对数据质量、模型生产周期、模型自学习水平、模型可解释性、云边端多样部署方式、人力成本及资金投入、投资回报率等的要求都逐步走高。在上述需求特点及自动机器学习、AI芯片硬件架构等技术发展的共同推动下,AI基础层资源的整体效能水平也在不断进化,以有效降低需求企业的AI开发成本。大致涵盖相互交融的三个阶段:雏形期,算法/算力/数据各模块多为粗放式的单点工具,新兴产品及赛道逐步出现;快速发展期,各赛道活跃度显著提升,参与者积极探索产品形态与商业模式,基础层服务体系逐步完善、资源价值凸显;最后则向成熟阶段过渡,各赛道内企业竞争加剧,逐步跑出头部企业。同时各赛道间企业生态合作增多,一站式工具平台出现。

人工智能基础层需求篇

基础层初步成型是AI产业链成熟的标志

基础层资源促进AI产业链各环节价值传导顺畅、分工明确

现阶段,已初步成型的AI基础层资源可有效缓解下游行业用户逐渐增长的、从感知到认知多类型的AI应用模型开发及部署需求。细看基础层内部,一方面,数据资源、算力资源和算法开发资源三者之间的分工更为明确和有序。数据基础服务及治理平台企业为AI产业链供应数据生产资料;智能计算集群产出高质效的生产力;智能模型敏捷开发工具则负责模型开发及模型训练等,输出AI技术服务能力,提高AI应用模型在各行业的渗透速率与价值空间。另一方面,基础层厂商的数量保持增长、厂商业务范围持续扩大,可提供专业定制化或一站式的基础资源服务。由此,基础层完成AI工业化生产准备,通过直接供应和间接供应的形式,将基础层资源传送到下游的AI应用需求端,产业链向顺畅的资源输送及价值传导方向演进。

AI基础层解决人工智能生产力稀缺问题

基础层资源缓解甲方在对待人工智能投资上的“矛盾”

根据艾瑞2020年执行的CTO调研,2019年超过51%的样本企业AI相关研发费用占总研发费用比重在10%以上,2020年65.9%的企业AI研发占比达到10%以上。一方面是甲方企业不断增长的对智能化转型的强劲需求,一方面则是在AI应用开发与部署过程中企业普遍面临的数据质量(49%)、技术人才(51%)等基础资源配置难点。且目前只有少数企业可以完成AI项目实施前设定的全部投资回报率(ROI)标准,因此甲方企业在投资AI项目时相对审慎。AI基础层资源则可有效缓解甲方利用AI技术重塑自身业务时的投资矛盾,提升模型生产效率,降低部署成本:数据资源集群具备数据采标与数据治理能力,且一站式的数据平台可对实时数据进行统一管理,提高数据利用率;高效的AI算力集群与调度系统可满足模型训练与推理需求,降低总拥有成本(TCO,TotalCost of Ownership);基于算法开发平台演化出的语音识别、计算机视觉、机器学习等专业的AI模型生产平台,可提供高效、一站式的AI模型生产服务。

人工智能基础层供给篇

人工智能基础层产业图谱

人工智能基础层市场规模

AI企业业务突破、智能化转型趋势等多因素驱动产业规模增长

AI企业突破业务增长瓶颈的需求是人工智能基础层发展的驱动力之一。当前人工智能核心产业规模保持线性增长态势,且增速趋于平稳与常态化。为寻求产值增长突破点,AI企业发力探索开拓市场的有效手段。依托人工智能基础层资源建设,AI企业可有效应对下游客户的长尾应用需求,再将高频应用转化为新主营业务。此外“新基建”、半导体自主可控等相关政策扶持、传统行业智能化转型等因素也都在助推人工智能基础层资源的发展。据艾瑞测算,2021-2025年,人工智能基础层市场规模CAGR为38%,整体产业规模发展速度较快、空间较为广阔,总体呈现持续增长的走势。2020年,中国人工智能基础层市场规模为497亿元,为人工智能产业总规模的33%,市场规模相较去年同比增长76%,AI应用模型效率化生产平台创收增长、AI芯片市场规模随着云端训练需求出现较高增长等是同比增速的主要拉动力;2021-2024年同比增速趋于平缓下降,市场开始恢复稳步增长态势。到2025年,中国人工智能基础层市场规模将达到2475亿元,云端推理与端侧推理芯片市场持续走高使得人工智能基础层整体市场同比增速稍有抬升。

算力:超算/数据中心的存量与增量判断

从算力需求与节能减排规定看存量替换与增量增长

现有的超算/数据中心以建设单位为标准,可分为两类:1)以国家或地方为建设单位的G端超算中心,服务对象主要为国家牵头的重点科研单位、高校研究院等,此类超算中心是解决国家安全、科学进步、经济发展与国防建设等重大挑战性问题的重要手段,近两年受国家与地方的高度重视与扶持,建设与升级超算中心的趋势愈加明朗。但由于数据网络安全与计算精度要求高,建设周期较长,此类超算中心的数量在中短期内增长缓慢,长期来看则会成为替换存量与增量增长的贡献主力之一。2)以智能云厂商或IDC服务商为建设供应主体的B端超算/数据中心,为互联网公司、其他类型的企业或事业单位提供主机托管、资源出租、增值或应用服务,是存量与增量市场变化主要推力。

从市场变化趋势来看:1)存量市场:日渐增加的AI计算负载需要处理力更强、能耗承受度更大的数据中心,同时,一系列有关控制数据中心PUE值的节能审查规定相继出台,一味盲目扩建、新建数据中心已难合时宜,促进老旧数据中心绿色化改造的减量替代方案因此诞生。微型、中小型数据中心会逐渐被改造为集约型的大型数据中心,符合节能减排相关标准、机柜数量与异构组合增多的集约型超算/数据中心将在存量市场中占据主流。2)增量市场:考虑到边缘计算可分担AI计算任务、兼具低延时优势,管理边缘计算中心则需要布局相应的大型云端数据中心,故增量市场会被异构的边缘计算数据中心与云端超算或大型数据中心扩充。

算力:云化AI算力

开放共享虚拟AI算力资源,实现AI模型海量训练与推理

AI是一种高资源消耗、强计算的技术,AI算力的强弱直接关联到AI模型训练的精度与实时推理的结果。若企业独立部署AI算力,不仅需要建设或租用机房这类重资产与网络宽带资源,还需要购置物理机、内存、硬盘等硬件设备,而且购置设备存在采购周期不确定、硬件资源过度铺张、专业管理团队缺乏等问题。所以,独立部署AI算力资源是一项耗时耗力的工作。将AI算力云化是一种高效能、低成本的有力解决方案。具备先天性业务优势的云服务商搭建数据中心,先将AI服务器算力资源虚拟化,开放给AI模型开发者,做到按需分配,如给短视频业务的开发者优先配备CPU+GPU方案,而后对算力资源的调度工作进行统一管理。由此,“物美价廉”的算力有序注入各行各业的AI模型中,减轻了井喷式数据爆发所带来的模型训练负担,并能及时根据用户使用情况弹性扩充或缩减虚拟算力资源空间,达到方便、灵活、降本增效的效果。

算力:端-边-云的算力协同

端-边-云实现AI算力泛在,加速AI模型训练与推理

在人工智能与5G等技术的冲击下,设备端产生大量实时数据,若直接上传到云端处理,会对云端的带宽、算力、存储空间等造成巨大压力,同时也存在延时长、数据传输安全性等问题。因此,为缓解云端的工作负载,云计算在云与端之间新增了若干个边缘计算节点,从而衍生出端-边-云的资源、数据与算力协同。在算力协同的业务模式下,靠近云端的云计算中心承担更多的模型训练任务,贴近端侧的各设备主要进行模型推理,而二者之间的边缘侧则负责通用模型的转移学习,帮助云端分散通用模型训练任务、处理实时计算的同时,也解决了终端算力不足、计算功耗大的难题。未来,边缘计算的发展会催生出更适宜边缘计算场景的算力集群异构设计,其异构化程度将会高于传统的数据中心,异构设计的突破将会进一步提高端-边-云的整体计算效能,进而加速AI模型的训练与推理。

算力:AI芯片市场规模

当前以训练需求为主,推理需求将成为未来市场主要增长动力

AI芯片是人工智能产业的关键硬件,也是AI加速服务器中用于AI训练与推理的核心计算硬件,被广泛应用于人工智能、云计算、数据中心、边缘计算、移动终端等领域。当前,我国的AI芯片行业仍处于起步期,市场空间有待探索与开拓。据艾瑞统计与预测,2020年我国AI芯片市场规模为197亿元,到2025年,我国AI芯片市场规模将达到1385亿元,2021-2025年的相关CAGR=47%,市场整体增速较快。从AI芯片的计算功能来看,一开始,因AI应用模型首先要在云端经过训练、调优与测试,计算的数据量与执行的任务量数以万计,故云端训练需求是AI芯片市场的主流需求。而在后期,训练好的AI应用模型转移到端侧,结合实时数据进行推理运算、释放AI功能,推理需求逐渐取代训练需求,带动推理芯片市场崛起。2025年,云端推理与端侧推理成为市场规模增长的主要拉动力,提升了逐渐下滑的AI芯片市场规模同比增速。

算法:智能模型敏捷开发工具商业价值分析

API规模经济+AI应用模型效率化生产平台的杠杆增效

智能模型敏捷开发工具的出现与驱动AI业务的外因以及企业自身的内因紧密相关。从外因看,规模化多场景的业务不断衍生出长尾需求,原有的应用需及时更新;从内因看,囿于开发企业有限的经营成本与AI技术人才,其资源主要投放到现阶段的主营业务,现有人员难以推动业务的智能化改造。对此,可有效解决AI应用模型设计与开发过程中通用或特有问题的智能模型敏捷开发工具逐步成为备选方案。AI开放平台与AI应用模型效率化生产平台作为其中的代表性工具,不仅能减少由0到1的开发成本,而且可降低人工智能市场的参与门槛,提升开发效果。AI开放平台属于API资源的一种,其可帮助技术领先企业开放AI能力与先进资源,从而延伸价值链,形成规模经济与长尾经济,利用开发者的创新应用来反哺开放平台。AI应用模型效率化生产平台可提供较为前沿的技术、经济合理的模型生产经验以及为实现敏捷开发而打包的数据、算力与算法资源。具体而言,其采用自动机器学习技术,很大程度上降低了机器学习的编程工作量、节约了AI开发时间、减轻了对专业数据科学家与算法工程师的依赖,让缺乏机器学习经验的开发者用上AI,加快开发效率。

算法:智能模型敏捷开发工具增长模型

API与定制方案共拓产业广度与深度,AI柔性生产贴近需求

在人工智能产业发展的过程中,智能模型敏捷开发工具可持续拓宽与深挖AI业务的广度和深度。从广度讲,AI开放平台形成平台效应,调用平台API的开发者聚集创新,针对不同业务场景的开发成果数量逐渐增多,提高了技术产品的利用率,打造出轻量化的输出模式、降低单位开发成本,并且构建出动态更新的服务池;与此同时,一站式AI应用模型效率化生产平台逐步填充因场景多元化而衍生出的长尾业务模型,丰富模型供应市场的种类与数量。从深度讲,二者均从业务前端发掘潜在或外显的市场需求,针对刚需应用与高价值环节延伸出多条增量建设与运行需求业务线,瞄准市场风口的同时,敏捷、经济地消化个性化或碎片化需求,根据需求柔性匹配生产。

算法:AI技术开放平台市场规模

产业受API经济带动,主要收入贡献来源为计算机视觉类

随着数据量与AI算力的提升,可落地的场景与算法的交互变得愈加频繁,二者结合开发出的AI应用模型就需要更大量地通过API调用AI技术开放平台的AI技术能力。据艾瑞统计与预测,2020年我国AI技术开放平台市场规模为225亿元,到2025年,相应规模可达到730亿元,2021-2025年的相关CAGR=26%。受API经济兴起的影响,2020年市场规模同比增速走高较快,2021年下滑后恢复平稳态势。按AI技术能力划分,计算机视觉类与语音技术类收入占比达72.2%,是收入的主要贡献来源。人脸识别、人体识别、OCR文字识别、图像识别等构成了计算机视觉类业务的主要技术能力,且计算机视觉类的技术价格相较于其他技术而言更高,应用领域也更为广泛。现阶段的市场集中度相对分散,未来,能持续投入成本、研发出强劲算法的厂商有望占领更多的市场份额,市场集中度亦会因此提升。

算法:AI应用模型效率化生产平台市场规模

集成式的模型开发工具包,产业恰逢伊始,前景有待开拓

AI应用模型效率化生产平台是全栈式的、可实现流水线开发的AI应用模型生产工具。假若每次开发模型都需要算法工程师单独完成从生产到上线的全流程搭建,就会导致很多时间的耗损与AI模型开发成本的浪费。集成了数据、算法与算力的相应开发工具的模型开发工具包AI应用模型效率化生产平台应运而生。据艾瑞统计与预测,2020年我国AI应用模型效率化生产平台市场规模为23亿元;到2025年,相应规模可达到204亿元,2021-2025年的相关CAGR=49%。2020年,AI应用模型效率化生产平台相关业务拓展相对较快、产品恰逢创收伊始阶段,故同比增速增幅较快。与此同时,因参与技术门槛偏高,具备能力的厂商较少,市场尚未形成稳定状态,市场集中度偏高。

数据:人工智能数据基础服务定义

以AI训练与调优为目的提供的数据采集、标注与质检等服务

人工智能基础数据服务是指为各业务场景中的AI算法训练与调优而提供的数据库设计、数据采集、数据清洗、数据标注与数据质检服务。整个基础数据服务流程围绕着客户需求而展开,最终产出产品以数据集与数据资源定制服务为主,为AI模型训练提供可靠、可用的数据。数据采集、数据标注与数据质检是较为重要的三个环节。数据采集是数据挖掘的基础,提供多源的一手数据和二手数据;数据标注对数据进行归类与标记,为待标注数据增加标签,生产满足机器学习训练要求的机器可读数据编码。数据质检为数据的客观性和准确性设置检验标准,从而为AI算法的性能提供保障。AI基础数据服务商可着重在以上三个环节建立壁垒,以巩固行业地位。

数据:AI基础数据服务市场规模

行业规模稳步向前,图像、语音类内容继续向新兴场景开拓

高质量的数据是提高AI应用模型训练速度与精度的必要准备之一,而行之有效的AI基础数据服务又为提高数据质量奠定了坚实的基矗因而,提供通用化、精细化、场景化的AI基础数据服务才能满足日渐增长的AI应用模型训练需求。据艾瑞统计与预测,2020年我国AI基础数据服务市场规模(含数据采集与标注)为37亿元,到2025年,相应规模可达到107亿元,2021-2025年的相关CAGR=25%,整体增速呈现稳步提升的趋势。从市场细分收入结构来看,图像类与语音类收入占总收入规模的88.8%,是业务的主要构成部分;图像类与语音类收入基本持平,图像类业务以智能驾驶与安防为主,而语音类业务以中英大语种、中国本土方言以及外国小语种为主。目前,行业中也相应地分成了以图像类或语音类为主的供应商阵营,各类供应商将会继续立足于主营业务,深挖现有应用场景的业务细分需求,从而带动未来收入的增长。

数据:面向人工智能的数据治理定义

产生于业务,围绕于AI,追溯于治理

在大数据时代背景下,金融、零售、公安、工业等不同行业的业务场景衍生出诸多应用,多元的AI模型开发需求因此产生。AI模型开发的原材料是数据,但在挖掘模型数据时,往往面临模型与数据无法拉齐的问题,所以需要溯源到前置环节,从一开始就把数据治理的工作做好,面向AI的数据治理这一概念也就由此出现。面向AI的数据治理是指,以具体业务产生的AI模型开发与训练为目的,使用各个数据组件与人工智能技术,对数据进行针对性与持续性的诊治与管理。相比于传统的数据治理,其更新了数据接入、数据汇聚、数据分析的功能,并新增了AI模型开发与应用组件,以应对海量实时数据迸发、模型需及时对接数据等情形。面向AI的数据治理的特点在于,其对接企业现有的数据、积累新的AI数据而非重新进行AI数据的数据库建设,而且提供针对实时数据的处理办法、优先解决业务落地的困难,并持续挖掘具体业务的数据资产价值。

数据:面向AI业务的数据积累与治理模型

锚准方向,双轮驱动为智能化转型速度与质量赋能

在大数据应用的驱动下,具有相当数据规模的企业的多条业务条线往往会产生大量的结构化与非结构化数据,愈加需要企业内部的数据及时融通,但企业不可能完全抛弃现有的数据库系统、更换一套完全符合面向AI业务开发的数据治理系统;另一方面,智能化转型浪潮推动着企业的AI应用开发需求增长,但数据开发缺少统一标准、数据与业务场景割裂,让面向AI的数据治理的工作面临两难的局面。对此,艾瑞认为面向AI的数据治理并非完全舍弃已有的数据治理结构,而是在原有的基础上,进行数据治理结构的改造,让治理工作更多为AI开发服务,从而完成AI业务数据的积累。面向AI的数据治理工作完成后,才能驱动AI应用模型开发高效、高质运行,而模型开发反过来会为面向AI的数据治理工作提供指导。业务系统与数据系统像两个锚准工作方向的齿轮,共同滚动。符合业务场景需求的AI应用模型、MLKGNLP等AI技术加速促进两个齿轮的转动,使企业的业务系统运转效率向高质高效发展,为企业带来更可观的智能化转型业务发展速度与业务服务质量。

数据:面向AI的数据治理市场规模

存在数据中台带来的业务冲击,后期恢复稳步爬坡态势

在数字化转型与智能化转型的大趋势下,数据治理工作一般伴随着数据中台的搭建以及AI应用模型的开发而展开。数据治理属于数据中台的构成组件,数据治理的工作与服务则属于数据中台建设、运营与维护中不可缺少的环节。与此同时,以AI应用模型所需的数据标准去治理数据,结合AI技术提升数据的可用度与模型的训练效率,才能够更好更快地为人工智能业务前端服务,改善供应商的业务流程与消费者的消费体验。据艾瑞统计与预测,2020年我国面向AI的数据治理市场规模为14亿元,到2025年,相应规模可达到50亿元,2021-2025年的相关CAGR=28%。2018年,数据中台概念兴起,其规模在2020年处于爆发点,而数据治理作为数据中台的组件,也于同期迎来增长爆发点,从而带动面向AI的数据治理。2020年后,数据中台市场规模增速开始降温,数据治理也随之回落,面向AI的应用模型开发业务在该过程中的带动作用有限,故2021年的业务同比增速出现拐点。后期,面向AI的应用模型开发业务的带动效应逐步凸显,规模增速呈现稳步爬坡态势。

人工智能基础层发展洞察

一站式基础层资源平台

泛在需求下AI模型生产模式的变迁与资源集成

在人工智能由技术落地应用阶段向效率化生产阶段转变的背景下,艾瑞认为人工智能基础层的各模块工具有望走向集约型的生产模式。该模式主要能赋予开发企业以下价值:1)开发方式改进:从客户需求分析到解决方案部署形成独立的闭环,构建端到端的工作流。在强大算力的支持下,完成数据采集、数据标注、数据治理、数据应用、模型设计、参数调优、模型训练、模型测试、模型推理的全栈式流水线生产。2)管理效率提升:将数据、算法与算力委托给专业的服务商,实现一站式托管,打通三者之间的衔接壁垒,提高交互友好性,让开发者专注于业务。3)部署成本降低:集成数据、算法、算力的各个软件与硬件,企业可在一个平台内按需选择自己所缺失的模块组件并自由搭配,有效避免因采购不同供应商的产品或服务而带来的隐性成本损失与显性成本损失。

基础层全栈自主可控展望

自主可控稳步向前,内外兼修

信创产业涉及到核心技术问题,受到国家的大力扶持。比如,2020年12月,财政部、发改委、工信部等部门就联合发布了《关于促进集成电路产业和软件产业高质量发展企业所得税政策的公告》,文中明确指出:国家鼓励的集成电路线宽小于130纳米(含),且经营期在10年以上的集成电路生产企业或项目,第一年至第二年免征企业所得税,可见国家对国产芯片的重视。在信创产业稳步推广的的趋势下,人工智能基础层的各模块也在逐个突破“卡脖子”的关键点,朝着全栈国产化的方向迈进。算法模块相对其他两个模块而言,因开源框架协助,算法开发相对容易,但依然面临开源框架商用版限制的潜在风险,同时,使用开源框架难以友好对接到AI企业的业务逻辑,基于这两点,部分企业已开始自研开源框架并取得一定成效;数据模块的各类操作系统与应用软件在较大程度上仍以国外企业为主导,而国产的操作系统与数据库等软件配套设施正在稳步崛起,已存在相应的产品与服务可供客户选择;算力模块的智能服务器的国产化率逐步提升,AI芯片虽然仍以英伟达的GPU为主导,但国内部分企业开始自研AI芯片,产生了一批针对通用GPU、ASIC与FPGA的先行玩家。总的来说,基础层全栈的自主可控建设还处在萌芽阶段,未来将在“可用”的建设要求上打好根基,向“好用”的状态演变,并且从以政府政策引导为主的局面向以企业产品自由竞争的局面转变。