中国的深度学习框架走到了哪一步?
这个问题可能会刺痛一些技术大牛的神经。起因还要追溯到2019年外媒对中国人工智能行业的评价:“中国在创新人工智能框架方面尤其薄弱。”
彼时谷歌的TensorFlow和Facebook的PyTorch激战正酣,Amazon主导的MXNet、微软背书的CNTK也蓄势待发。而中国市场还只有百度PaddlePaddle(飞桨)一棵独苗,大多数中国开发者仍是TensorFlow的忠实拥趸。
时间过去三个年头后,中国在深度学习框架市场的话语权是否改变?
百度在新一季度财报中对外公布了这样一组数据:截止到2022年5月20日,深度学习框架飞桨已经凝聚了477万开发者、服务了18万家企业并创建了56万个模型,并联合产业合作伙伴研发行业大模型、与硬件伙伴进行软硬件优化,推动了人工智能技术、产业和生态的蓬勃发展。
无独有偶,国际权威咨询机构弗若斯特沙利文(以下简称“沙利文”)在5月18日发布的《中国深度学习软件框架市场研究报告(2021)》中,也向外界披露了一个既定事实:中国深度学习框架市场正从百花齐放向几家逐鹿转变,其中百度飞桨的综合竞争力排名第一。
01 深度学习框架的第三赛段
深度学习框架的历史并不算长,即使是从2010年诞生的Theano算起,至今也不过才十二年的时间。
然而深度学习框架的淘汰和进化速度,似乎超出了许多人的料想。早期的Theano、Caffe、Torch等框架在2017年后逐渐销声匿迹,这个时间点前后出现的TensorFlow、飞桨和PyTorch以极短的时间占领了市场。
沙利文在“报告”中对深度学习框架不寻常的演变轨迹,给出了两个维度的解释:
一个是政策环境的持续性利好。美国白宫的科技政策办公室在2016年就推出了《国家人工智能研发战略计划》,为美国的人工智能产业发展制定了宏伟蓝图;中国也将人工智能上升为国家战略,并针对深度学习框架行业出台了密集的政策;欧盟、日本等也陆续推出了各自的支持政策,人工智能由此走向了快车道。
另一个是人工智能的应用高峰。深度学习框架常常被比作是“智能时代的操作系统”,下接芯片、上承应用,在人工智能的落地环节有着承上启下的作用。仅在2021年,中国AI市场上金额过亿的融资就有158笔,涵盖自动驾驶、智慧医疗、智能语音、智慧零售等领域,深度学习框架为这些应用提供了肥沃的土壤。
折射到行业竞争层面,深度学习框架的产业周期被极限压缩,十年左右的时间里就进入到了第三个赛段:
第一个赛段是“有无”的竞争,那时候的框架大多有着学术性质,所能解决的往往是一类问题,而且在设计上有着不小的缺陷;
谷歌、Facebook、百度等科技巨头的进入,拉开了第二赛段的序幕,谁能提供更丰富的模型库,谁就会赢得开发者的青睐,TensorFlow、飞桨和PyTorch的崛起可以说是预料之中的结果;
第三个赛段和人工智能的应用高峰息息相关,不再是模型库的较量,重心放在了易用性和硬件适配优化,同时也预示着深度学习框架的竞赛对政策的依赖越来越低,市场需求才是最核心的驱动因素。
这也是飞桨在短时间内迅速崛起的原因所在。早在2012年的时候,百度就开始了人工智能的技术研发,2013年正式成立深度学习研究院IDL,2016年飞桨正式对外开源,并在2017年牵头筹建深度学习技术及应用国家工程实验室……不同的是,百度飞桨在2019年之前并未向谷歌、脸书那样高调,而是结合中国市场的产业需求默默深耕,最终踩着产业智能化的浪潮厚积薄发。
需要理性思考的地方也在于此。深度学习框架市场的演变立足于产业需求,关乎一个国家在人工智能时代自主创新的成色。中国的企业和科学家可以在行业爆发前敛藏锋芒,但必须拥有独立自主的技术硬实力。
02 百度飞桨化身六边形战士
沙利文俨然意识到了这一点,“报告”并未局限在“国产”框架的范畴,并且设计了一套科学的评价体系。
按照“报告”中的解释,制胜中国深度学习软件框架市场关键因素有三,即框架性能、硬件支持和市场表现。市场需求通过框架性能以满足,可反映为厂商的产品能力;强大的硬件算力则是底层支撑,主要体现为企业的生态能力;市场表现则决定用户粘性,可呈现为厂商的应用能力。
最后的综合评价显示:百度飞桨以4.9的综合评分排名第一,同时在应用能力、产品能力和生态能力上均有着显著优势,PyTorch和TensorFlow以4.8的综合评分分列二三位,再次印证了“PPT”的市场格局。
飞桨在中国市场的直线超车,可能会让一些人感到意外,毕竟PyTorch和TensorFlow三年前曾经占据中国市场90%的份额。可把焦点集中在飞桨在过去几年中的成绩,这样的结果绝非偶然。
除了沙利文对深度学习框架的综合评分,另一家市场调研机构IDC也曾在2021年的报告中揭示,飞桨在市场份额上早已超过TensorFlow和PyTorch位居中国第一。而市场份额所揭示的不只是客户数量的多少,还意味着框架在行业覆盖、细分场景、解决方案等方面的多元优势,也是飞桨在应用能力上远超其他框架的主要原因。
其实飞桨过去几年中一直在向产业倾斜。
百度官方发布的产业级开源算法模型已经超过500个,包括23个精度与性能平衡的产业级PP系列模型,涵盖工业、农业、交通、科学计算等20多个行业领域;在业内率先实现了动静统一的框架设计,保证开发灵活性的同时满足了产业应用的效率需求;并在2021年启动了飞桨“大航海”计划,将投入15亿元资金和资源在各地设立“百度飞桨人工智能产业赋能中心”,聚焦各地重点产业的需求和应用。
正是凭借产品研发的苦心经营和耐心打磨、世界领先的技术创新以及生态建设上的脚踏实地,飞桨一跃成为中国市场的佼佼者。
同时不应忽略的还有飞桨在芯片适配上的努力。目前飞桨已经适配了昆仑、英特尔、英伟达、华为等22家硬件厂商的30多种芯片,特别是国产芯片的适配量,飞桨始终位于行业第一的位置。深度学习框架对底层硬件的适配,既降低了企业开发的技术门槛,开拓了国产芯片的应用场景,也进一步强化了飞桨的生态能力。
打一个比方的话,想要在深度学习框架的第三赛段占有一席之地,势必要在某项能力上形成优势,在某个方面掌握主导权。而飞桨就像是一位无死角的“六边形战士”,“中国市场第一”的桂冠可以说名副其实。
03 科技巨头们的生态化阳谋
至于中国深度学习框架市场的演变趋势,沙利文提出了一个残酷的观点:目前深度学习框架格局逐步清晰,已从百花齐放向几家逐鹿转变。
在人工智能的产业应用仍处于早期阶段,算力、框架等任何一个环节的水平化都尚未完全确立的局面下,沙利文为何会给出行业正在进行淘汰赛的判断?这是因为深度学习框架作为产业链中技术含金量最高的环节,也是芯片、应用开发等多个主体集聚的环节,有着很强的不可替代性和制约性。
为了在观点上能够自圆其说,沙利文在“报告”中引述了两个行业事实:
比如科技巨头们正试图在深度学习框架开源生态的基础上,进一步形成应用接口和硬件适配的双向主导权。TensorFlow、PyTorch等不断完善其高级语言接口,大量的算法模型和智能应用是基于高级语言接口开发的,客户想要将模型迁移到其他框架上,会在一定程度上影响模型的性能、增加二次开发的成本,继而和框架形成深度绑定。
再比如深度学习框架的产业主体已经初步形成了生态体系。亚马逊、微软等想要依托云端的算力,布局深度学习框架等技术生产工具和底层专用硬件芯片;谷歌、百度等AI头部企业正基于算法和技术优势,以深度学习框架为核心上下延伸;英伟达为首的芯片巨头选择丰富性能库、编译器等软件配套,构建软硬协同的产业生态体系。
也就是说,谷歌、百度代表的科技巨头开始加速产业布局并垂直整合生态系统,算力、框架、平台和服务趋于纵向一体化,对于在时间上慢半拍的框架绝非是一个好消息。所幸的是,国内的飞桨已经跻身少数几个“生态系统”的阵列。
站在产业应用的立场上,飞桨对产业上下游的垂直整合其实为人工智能的规模化应用带来了曙光。
一个直接的例子,在行业内大模型热的背景下,飞桨并没有一味地追逐模型参数的规模,而是在极力推动大模型的产业落地。不但自主研发了训练推理一体化技术以降低大模型的应用门槛,还通过文心大模型与国网、浦发银行等联合打造行业大模型,以深入挖掘行业大数据、学习行业里的专业知识,进一步提升了大模型在行业应用的适配性。
另一个维度的利好在于人才培养。浙江大学曾在《中国人工智能人才培养白皮书》中透露称,目前人工智能行业人才缺口高达500万,并且在高度跨学科复合型人才的标准下,人才短缺问题将会长期存在。飞桨生态体系的重要组成就有人才生态,正在通过AI Studio、产教融合等方式进行人才培养,目前已经累计培养了200多万AI专业人才。
做一个总结的话,国内的深度学习框架平台想要在国际竞争中领跑,在社区繁荣度、开发者数量等方面仍然存在着不小的差距。可放在中国市场的语境下,飞桨的步伐并未落伍,并且在某些方面取得了确定性优势,形成了针对国内需求因地制宜的特色生态,捍卫了中国在深度学习框架上独立自主的话语权。
04 结语
再来回答文初的问题。
和三年前进行对比,深度学习框架在中国舆论场上的讨论热度正在迅速飙升,越来越多的政府部门、行业机构和企业意识到了深度学习框架的重要性,对应的市场格局也有了颠覆性的变化,中国深度学习框架的独立自主不再是一句空谈。
需要转变心态的还有深入产业一线的企业和开发者,深度学习框架不再是“国外的月亮比较圆”的时代,飞桨在中国市场的综合竞争力早已超越PyTorch和TensorFlow,再加上核心技术、大模型等方面的持续深耕,依托国产平台培育产业生态的时机已经成熟。
框架,深度,学习,中国,人工智能