来源:源达
投资要点
- 数字化和智能化趋势加快,推动数据要素市场生态完善
数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,是基于数字经济及新质生产力产业发展而出现的概念。数据要素的一次价值体现在在企业数字化转型过程中,数据经由各个业务系统的设计而产生,用以支撑业务系统的正常运转。数据要素的二次价值体现在数据可通过数据分析、AI大模型等手段,揭示内在运行规律,用于支持生产、经营和治理等环节的战略决策。数据要素的三次价值体现在数据作为商品,可交易至更多需要的场景实现价值利用。数字化和智能化趋势下,各组织需要更多数据用于分析决策,产生数据流通需求,因此数据可作为商品进行价值流通。
- 加快新质生产力建设,为数据要素产业发展保驾护航
数据基础设施是发展数据要素产业的基础,人工智能技术将实现对数据要素的更好利用。因此需发展以数字经济、人工智能行业为代表的新质生产力产业,才能加快发挥数据要素行业的各项作用。《2024年国务院政府工作报告》中提到:要深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群;健全数据基础制度,大力推动数据开发开放和流通使用;适度超前建设数字基础设施,加快形成全国一体化算力体系,培育算力产业生态。
- 构建数据要素交易平台市场,商业模式加快成熟
数据流通端是数据要素流通的中介与核心,沟通各类市场主体,是数据作为生产要素进行交互、整合、交换、交易的平台。目前国内数据要素交易场内机构以形成“国家级+省市级+行业级+企业级”的格局。其中国家级和省市级交易机构是市场内主流,集中于华东与华南地区,以国资主导公司制为主,通常为通用型数据交易平台。而行业级和企业级交易机构往往专耕单个或数个细分行业和领域,如:钢铁行业、医药行业、金融行业和电信行业等。
- 建议关注
数据要素是国家基于数字经济和新质生产力产业发展的又一重要政策导向方向。伴随国内新质生产力产业发展壮大,数据要素市场商业化有望加快成熟。建议关注数据基础设施、人工智能和数据要素交易平台等环节的投资机会。
- 风险提示
政策导向不及预期的风险,市场竞争加剧的风险,技术发展不及预期的。
一、数字化和智能化趋势下,数字要素市场生态逐渐完善
“数据要素”是数字经济中,讨论生产力和生产关系时对“数据”的指代,是对数据促进生产价值的强调,即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴。
图1:数据要素主要表现形态
资料来源:《数据要素白皮书》,源达信息证券研究所
数据要素的一次价值体现在支撑企业、政府的业务系统运转实现业务间的贯通。在企业数字化转型过程中,数据经由各个业务系统的设计而产生,用以支撑业务系统的正常运转。
数据要素的二次价值体现在数据可揭示内在运行规律,用于支持生产、经营和治理等环节的战略决策。在数据分析、人工智能等技术支持下,数据可用于构建出理解预测乃至控制事物运行的模型体系,从而支撑未来决策。
数据要素的三次价值体现在数据作为商品,可交易至更多需要的场景实现价值利用。数字化和智能化趋势下,各组织需要更多数据用于分析决策,产生数据流通需求,因此数据可作为商品进行价值流通。
图2:数据要素产生价值的三种方式
资料来源:《数据要素白皮书》,源达信息证券研究所
根据数据要素的三次价值,数据要素市场可分为数据采集、数据存储、数据加工、数据流通、数据分析、数据应用、生态保障七大模块。其中为实现数据要素的一次价值需推动政府及企业数字化转型,发力服务器及云计算中心等数据基础设施建设;实现数据要素的二次价值需发展人工智能行业,通过大模型等智能终端辅助决策;实现数据要素的三次价值需构建数字要素交易流通市场,方便数据要素的市场化流通。
图3:数据要素市场构成
资料来源:国家工业信息安全发展研究中心,源达信息证券研究所
通过数据分级分类可将数据分为四类数据:公开数据、低敏感度数据、中敏感度数据、高度机密数据四种,提出针对不同数据类型,应用不同的数据流通技术和服务模式。
图4:数据流通金字塔模型
资料来源:国家工业信息安全发展研究中心,源达信息证券研究所
中国数据交易市场规模保持高速增长趋势,预计2023年中国数据交易行业市场规模达1199亿元,同比增长36.72%。预计2030年中国数据交易行业市场有望增长至5156亿元。
图5:2021-2030年中国数据交易行业市场规模及预测
资料来源:《2023年中国数据交易市场研究分析报告》,源达信息证券研究所
二、加快新质生产力建设,为数据要素生态保驾护航
人工智能大模型对数据要素有巨大需求。AIGC行业进入高速发展期,AI大模型性能持续提升的背后是千亿级以上的参数训练,带来对算力的高额需求,有望推动新一轮AI基础设施建设。根据OpenAI官网,AI模型训练计算量自2012年起每3.4个月就增长一倍。以GPT-3模型为例,根据lambdalabs数据,该模型参数规模达1750亿,完整训练运算量达3640PFlop/s-days(以3640PFlop/s速度进行运算,需要3640天)。模型完成单次训练约需要355个CPU年并耗费460万美元(假设采用Nvidia Tesla V100芯片)。
表1:人工智能大模型的参数规模呈指数级增长趋势
Models |
Release time |
Developers |
Parameter size/10-8 |
Sample size/10-9 |
GPT-1 |
2018 |
OpenAI |
1.17 |
10 |
BERT |
2018 |
|
3.40 |
34 |
GPT-2 |
2019 |
OpenAI |
15.00 |
100 |
Fairseq |
2020 |
Meta |
130.00 |
— |
GPT-3 |
2020 |
OpenAI |
1750.00 |
4990 |
GLaM |
2021 |
|
1200.00 |
16000 |
LaMDA |
2022 |
|
1370.00 |
15600 |
GPT-4 |
2023 |
OpenAI |
— |
— |
Ernie Bot |
2023 |
Baidu |
— |
— |
SparkDesk |
2023 |
iFLYTEK |
1700.00 |
— |
PanguLM |
2023 |
HUAWEI |
>30000 |
资料来源:《大语言模型研究现状及趋势》,源达信息证券研究所
更多大模型类应用的推出是对数据要素有效利用的基础。AI Agent是一种以AI大模型驱动的人工智能工具,可根据具体场景实现高度个性化和智能化的智能服务,有望将大模型的潜力最大化,推动AI技术应用化,加速人工智能产业商业化。
表2:国内厂商加大对AI Agent等大模型驱动下的人工智能应用的投入
公司名称 |
大模型产品 |
阿里云 |
百炼大模型服务平台 |
AWS |
Amazon bedrock 以及partyrock.aws等工具 |
百度智能云 |
TiAppBuilder、AgentBuilder |
京东云 |
Al Agent开发管理平台 |
蚂蚁集团/蚂蚁数科 |
蚂蚊Al Studio+Max |
昆仑万维 |
SkyAgents |
商汤科技 |
MaaS平台-应用智能体 |
深信服科技 |
AI算力平台 |
神州数码 |
神州问学-AI应用及Agent管理 |
腾讯云 |
腾讯元器 |
月之暗面 |
Kimi Plus |
中国电信(天翼AI) |
智能体开发运营平台 |
字节跳动 |
扣子/Coze,火山引擎Al Agent开发管理平台 |
360 |
360智脑、360智汇云 |
资料来源:IDC,源达信息证券研究所
服务器等数据基础设施是数据要素价值得到有效利用的基础。自OpenAI发布ChatGPT后,AI大模型有望成为助力千行万业智能化转型的底层支撑。AI大模型的训练和运行过程对对算力需求极大,预计将推动一轮算力中心的建设。以Nvidia A100服务器为例(由8个A100 GPU构成),单台服务器算力约为5Pflop/s,则训练一个具有1750亿个模型参数的大模型需要约2917台A100服务器。
表3:具有1750亿个模型参数的大模型训练一天需要约2917台Nvidia A100服务器
模型参数(亿个) |
350 |
700 |
1050 |
1400 |
1750 |
所需算力(E+8PFlop/s) |
0.63 |
1.26 |
1.89 |
2.52 |
3.15 |
有效算力比率(%) |
25% |
25% |
25% |
25% |
25% |
实际算力需求(E+8PFlop/s) |
2.52 |
5.04 |
7.56 |
10.08 |
12.6 |
服务器算力(PFlop/s) |
5 |
5 |
5 |
5 |
5 |
每日工作时间(s) |
86400 |
86400 |
86400 |
86400 |
86400 |
服务器需求数(台) |
583 |
1167 |
1750 |
2333 |
2917 |
资料来源:Nvidia官网,OpenAI,源达信息证券研究所
用于构建算力中心的AI服务器出货量高速增长。2023年全球普通AI服务器/高端AI服务器出货量分别为47.0和27.0万台,较2022年分别同比增长36.6%和490.5%,并预计2024年全球普通AI服务器和高端AI服务器出货量分别为72.5和54.3万台,分别同比增长54.2%和172.0%。
图6:AI服务器出货量高速增长
资料来源:华勤技术投资者关系公众号,源达信息证券研究所
华为加大算力基础设施研发力度。目前华为算力基础设施布局中:鲲鹏系列以通用算力为主,昇腾系列以智能算力为主,均采用国产芯片打造。华为凭借自身强大的研发能力,已实现从算力、存力、互联技术和计算架构等方面为世界提供第二选择,打造算力坚实底座。从产业链布局看,目前华为主要负责服务器或其中核心器件的研发和生产,并由下游服务器厂商代理销售,主要的华为系服务器厂商有高新发展(对华鲲振宇持股70%)、四川长虹、神州数码、拓维信息和烽火通信等。此外2023年3月中兴通讯宣布自身服务器将为百度“文心一言”提供算力支撑。
图7:搭载鲲鹏920处理器的鲲鹏服务器主板 |
图8:华为推出昇腾系列AI算力基础设施 |
|
|
资料来源:华为官网,源达信息证券研究所 |
资料来源:华为官网,源达信息证券研究所 |
三、构建数据要素交易平台市场,商业模式加快成熟
数据流通端是数据要素流通的中介与核心,沟通各类市场主体,是数据作为生产要素进行交互、整合、交换、交易的平台,是推动数据交易市场建设的基础。数据流通端按类型可分为数据交易所、企业主导型数据服务平台及开放数据平台。未来数据交易所有望成为数据要素市场交易的主流平台。
图9:中国数据要素流通行业产业链
资料来源:《2023年中国数据交易市场研究分析报告》,源达信息证券研究所
数据交易按类型可分为场内交易和场外交易,场内交易由数据交易所制定数据交易流程及规章,在交易前负责质量评估、合规评估和资产评估等;在数据交易环节做好风险控制;在交易后提供交易核验、仲裁纠纷等服务。
图10:数据要素交易模式
资料来源:《2023年中国数据交易市场研究分析报告》,源达信息证券研究所
图11:场内外数据交易流程
资料来源:《2023年中国数据交易市场研究分析报告》,源达信息证券研究所
目前国内数据交易平台的规模仍有待壮大。数据交易平台注册资本数额大多在5000万元-1亿元,有23家;而注册资本数额超过1亿元的有4家,其中上海数据交易所注册资本达8亿元,北京国际大数据交易所和郑州数据交易中心注册资本达2亿元。
数据交易平台分布以华东、华南和华中为主。受企业数字化水平及数据资源分布情况影响,目前数据交易平台分布仍以华东、华南和华中为主,其中华东地区有14家,占比达35%,华南和华中地区各7家,占比为17.5%,三个地区合计占比达70%。
图12:数据交易平台注册资本数额情况 |
图13:数据交易平台区域分布情况 |
资料来源:《数据交易平台发展白皮书》,源达信息证券研究所 |
资料来源:《数据交易平台发展白皮书》,源达信息证券研究所 |
目前国内数据交易机构的产品以数据集、API和数据应用服务为主。少数机构还提供许可证、数据处理服务、数据分析工具服务和行业研究报告等产品。
图14:主流数据交易机构的产品上架情况
资料来源:《数据流通市场中数据产品的特性及其交易模式》,源达信息证券研究所
目前数据交易平台的盈利模式主要有三种:佣金模式、会员制和增值式交易服务三种。其中交易佣金模式的优势是简单易行、门槛低,但佣金费率过高会抑制平台交易需求;会员制模式可利于促进长期合作及交易安全性,但交易规模的扩大具有一定难度;增值式交易服务模式交易所需提供数据处理等更多服务,对平台的能力提出更高要求。
图15:数据交易平台的盈利模式
资料来源:《数据交易平台发展白皮书》,源达信息证券研究所
中国数据要素交易场内机构可分为国家级、省市级、行业级和企业级。其中国家级和省市级交易机构是市场内主流,集中于华东与华南地区,以国资主导公司制为主,通常为通用型数据交易平台。而行业级和企业级交易机构往往专耕单个或数个细分行业和领域,如:钢铁行业、医药行业、金融行业和电信行业都有较好应用前景。
图16:中国数据要素交易场内市场竞争格局
资料来源:《2023年中国数据交易市场研究分析报告》,源达信息证券研究所
目前国内数据要素交易市场存在的问题有:数据产权不清、数据交易活跃度低、同质化竞争和新技术应用不成熟等。目前各机构收集的个人数据权属仍存在争议,导致交易风险较高,需要进一步完善相关制度体系及让交易所发挥好做市商功能;而数据交易机构的建设需根据区域、产业和经济情况做好统筹布局,避免同质化竞争和资源浪费。
图17:目前数据要素交易行业仍存在的问题
资料来源:《数据交易平台发展白皮书》,源达信息证券研究所
四、投资建议
数据要素是国家基于数字经济和新质生产力产业发展的又一重要政策导向方向。国家数据局等17个部门联合引发《“数据要素×”三年行动计划(2024—2026年)》:将工业制造、交通运输、金融服务、科技创新、医疗健康、气象服务、城市治理等12个行业作为数据要素高水平应用的重点行业。数据交易层面国内已建成多个大型数据交易所,形成“国家级+省市级+行业级”的发展局面,为数据要素市场发展打牢基础。伴随国内新质生产力产业进一步发展壮大,数据要素市场有望加快成熟。
五、风险提示
政策导向不及预期的风险;
市场竞争加剧的风险;
技术发展不及预期的风险;
责任编辑:刘万里 SF014