Building ML platform is essentially a new infrastructure construction
2021-02-20


作者 | 刘燕

采访嘉宾 | 陈雨强,第四范式联合创始人、首席研究科学家


InfoQ 特别面向新一代信息技术领域技术中坚群体正式推出的 「中国技术力量」 之「新基建 50 人」栏目持续进行中,本期嘉宾是第四范式联合创始人、首席研究科学家陈雨强。



抓住机会让更多企业拥有人工智能


2014 年,戴文渊(第四范式创始人、CEO)找到陈雨强,想邀请他一起创业。彼时,在今日头条做算法架构师的陈雨强已颇有成绩,他设计主持了一套新媒体人工智能推荐系统。听说他要离开,张一鸣多次找他长谈挽留。


戴文渊是陈雨强的师兄,从上大学到走上工作岗位,陈雨强受戴文渊的影响很大。最终陈雨强决心出来创业,更多是因为信任戴文渊这个人。

陈雨强也非常认同戴文渊的一个判断。在戴文渊看来,有企业服务需求的客户越来越多。这意味着,未来需要人工智能技术的企业很可能远不止互联网等大厂,各行各业都有需求。


“企业为什么需要 AI 技术,因为 AI 是提升经营效率的重要工具,效率提升就意味着整个价值提升,未来可能所有的企业都会进行 AI 转型,因此这里面蕴藏着巨大的机会。另一方面,如果一直在一个做应用的公司做 AI,瓶颈会非常明显,而解决很多企业的人工智能问题是一个可以长期持续做的方向”。


陈雨强向 InfoQ 表示,第四范式在诞生之初,创始团队就对创业路径做了精心选择,他们认为,打造 AI 平台,帮助企业进行 AI 转型是一个正确的、具有前景的方向。



陈雨强介绍图1



陈雨强

成立 6 年来,第四范式技术团队从技术研发到产品研发再到解决方案,已形成了一套比较完整的技术体系。今年 8 月,第四范式发布了四款新产品, 企业级 AI 操作系统 4Paradigm Sage AIOS、自动化 AI 生产力平台 4Paradigm Sage HyperCycle ML、 企业级 AI 算力平台4Paradigm  SageOne,线上化智能运营系统“第四范式天枢”。


其中 4Paradigm Sage AIOS 定义的“数据形式”旨在解决行业中 AI 数据的痛点。数据治理一直是 AI 落地的顽固阻力,过去,技术人员花了大量时间在整理数据、清洗数据、数据一致性等问题上,4Paradigm Sage AIOS 形成了叫“数据形式”的统一标准,其作用类似于 Windows 中的“文件格式”,它将 IT 知识、数据知识、业务知识等融合在一起,满足数据在一致性、时序性、闭环的要求,数据形式可大幅提升企业使用人工智能的应用效率。


此外在资源调度层面,在过去做应用,如何让它在同一集群上合理地调度分配、尽可能多和好的使用是一个大问题。这个问题过去不凸显,但在未来会非常严重。针对此,4Paradigm Sage AIOS 的资源管理器 HyperScheduler,设置有专门的调度和资源分配机制,能动态地对各个任务进行合理的资源分配,有效管理调度 CPU、GPU、加速卡等各类异构设备资源,避免 AI 应用资源分配不均导致的任务响应慢、宕机等问题,让资源利用率翻倍提升。


4Paradigm Sage AIOS 意在成为 AI 时代的 Windows。如今,市场对软硬件国产化的关注度愈发提高。陈雨强认为,软硬件国产化将是一个非常明确的趋势,第四范式核心的基础架构全都基于自研,是最早一批完成了一体化人工智能平台适配的国产化机器学习平台公司。


AI 平台最大的价值在于帮助企业提高效率



今年 6 月,IDC 发布的《中国人工智能软件及应用 (2019 下半年) 跟踪》报告显示,第四范式已连续 2 年蝉联中国机器学习平台市场份额 No.1,超过阿里、腾讯、百度、华为等厂商。


实际上,由于机器学习平台的门槛特别高,目前行业仍是大厂玩家居多。从细分类型的参与者来看,业内做机器学习平台工具的公司不在少数,但真正做机器学习平台,整体让客户实现成功智能转型的公司壁垒较高,相对较少。此外,业内做机器学习应用的公司也比较多。陈雨强认为,整体来看,目前机器学习平台的需求比较旺盛,正在经历在各行各业”生根“的阶段。


作为一家创业公司的技术掌舵者,陈雨强怀着一颗平常心看待与巨头间的激烈竞争,他表示,不同玩家之间存在竞争是正常的,关键在于一定要产生价值。

“如果一个 AI 平台没有真正落地并产生价值的话,比较是没有意义的”。陈雨强表示,与其他同类 AI 平台相比,第四范式的机器学习平台最具差异化的特质是,会站在如何让客户真正获得 AI 价值这一角度去设计和思考,从而定位和提升 AI 平台的价值。


“我们不是一家工具的公司,我们是一家帮助企业实现智能化转型,助力其业务提升的平台,我们希望帮助企业真正做出有用的场景,并帮助它将业务越做越大”。


落地应用能力被视为第四范式的另一“护城河”。


目前,第四范式的机器学习平台已在金融、零售、能源、医疗、互联网等领域广泛落地。


金融是第四范式率先切入进去的领域。之所以选择这个方向,创始团队主要出于几个考虑,当时团队创业时人工智能还是一个比较贵的技术,金融领域是首选领域,因为相对“有钱”,且数据信息化是金融业天然的需求,银行有需求和能力进行 AI 转型。此外,银行是最难服务的客户群体之一,而这对外部竞争者来说也意味着较高的入局门槛。就这样在金融领域站稳脚跟后,第四范式又逐渐扩展到零售、制造等行业。


当实际落地案例增加到一定规模时,所触达到的最大、最有价值的场景能够反哺整个研发流程,包括新技术的科研和产品研发,这是第四范式长期积累形成的一种独特模式。基于这种模式的 AI 平台产品更擅长直接解决客户的问题,这要比凭猜想可能遇到的问题再去解决效率要高得多。


陈雨强表示,在帮助企业进行数字化、智能化转型方面,第四范式的机器学习平台最大的一个价值在于帮助提高企业经营和决策的效率。企业会面临很多决策,最顶层为战略,中层为决策,底层是执行。中层的非战略级决策过去都是由人工来做的,现在都交给了机器来做,机器学习平台在营销、风控、需求预估等细分场景的决策上具有很大优势。



用上 AI 后,运营效率的提升也是显而易见的。在金融反欺诈方面,与一些竞品相比,第四范式的反欺诈在同样召回的情况下准确率提升 6~7 倍;在做金融产品营销时,很多银行的营销响应率一般能实现 6 倍的提升。在医疗领域做糖尿病患病率预估上,三年糖尿病预估准确率比临床金标准要提升两倍到三倍,与 ADA(美国标准)、芬兰标准和 CDS(中华医学会标准)三个主流的糖尿病风险评估标准对比中,糖尿病预测准确度有显著提升。


不过,现阶段,企业实现 AI 转型的过程中也面临很多挑战和痛点。


很多企业最大一个困惑是“花了钱却半天没见个影“,”大张旗鼓做了数据建设、AI 投入,模型是提升了,但为什么没看到收入增长”?这时候可能会有很多企业觉得,做和不做也无关痛痒,可能就不再继续往下推行 AI 了。


陈雨强表示,这个问题的原因是“1+N”导致的。“1+N”是第四范式提炼出的企业智能化转型的范式,其中“1”代表效果,把 1 个或几个对业务影响最大的场景做到极致;“N”代表规模,用最高的效率规模化落地尽可能多的应用场景,使场景的总体价值最大化。


在“1 ”的问题上,一个工具是没办法帮助它提升的,必须是一个工具加一个方法论,才能做到真正的提升。“N”是效率上的事,如果一家企业做了半年才上线一个场景,但不同的部门有很多这样的场景,当场景堆叠在一起时,就不知道怎么做了,这种情况下必须有一个平台才能规模化地推进。


在“1+N”模式下,一家公司要采用人工智能,一定会从某个“点”开始,这个“点”要足够的影响力,一般是核心业务。在证明了 AI 在某个点产生价值后,”N“的规模化问题随之提上日程。


不同于互联网公司,很多传统企业的业务多且分散,不同业务所需的 AI 能力不同,因此对一家公司来说,只对 1-2 个业务线进行 AI 转型是不够的,人工智能要真正对企业产生影响力,一定要覆盖非常多的业务,才能称之为是“离不开”的影响。如果将人工智能将业务中剔除后,公司可能会面临倒闭,像这样的公司可以视为人工智能转型成功的公司。


做机器学习平台天然就是新基建


新基建无疑是今年科技圈最热的词汇了,伴随着一系列围绕新基建建设的方针和政策的出台,新基建热度攀升,跃升为新的风口。各大科技公司也纷纷结合自己的核心业务出发开始了积极布局,势要抓住红利期。


按照国家发改委明确的新基建的范围,新基建分为信息基础设施、融合基础设施和创新基础设施。其中,信息基础设施中包括以人工智能、云计算、区块链等为代表的新技术基础设施,以数据中心、智能计算中心为代表的算力基础设施等。


陈雨强所理解的“新基建”是指为了提升整个社会的生产力和生产效率,对技术、基础设施的投入。他表示,“做机器学习平台就是天然的新基建,第四范式天然就是一个新基建公司”。


与“修路”、“造桥”等传统意义上的基建建设不同,新基建更多是面向高端制造业的基础设施建设,但“要想富,先修路”,新基建建设也需要修好“路”。陈雨强表示,AI 本质上就是那条“路”,如同第四范式打造 Sage AIOS 操作系统解决数据问题本质上就是在修其中的一条路,“只有把路修好,上面才能跑很多的‘车’,‘车’才能跑得快”。


人工智能、5G、云计算、大数据等均是新基建相关的热门技术,有人担忧,新基建概念中是否存在“新瓶装旧酒”的问题。对此,陈雨强认为,这些名词肯定是过去存在的,但这不影响它们是新基建。新基建是国家认为对未来提升国家生产力、生产效率最重要的基础设施,在未来,在信息时代,5G、AI 等会是最重要的基础设施。未来的社会需要这些基础设施,这并不影响技术是老还是新。


新基建可能并不意味着有新技术出现,提高企业的效率,才是新基建的核心。新基建在“修路”的过程中,一定要考虑在上面跑什么‘车’,不能为了‘修路’而‘修路’,比如想跑火车,修马路就没意义。因此真正做新基建,一定要针对希望解决的问题和场景。


新基建为第四范式带来了重要的发展机会。因为更多的行业开始逐渐意识到人工智能平台或者人工智能建设其实是一件需要去做或者可以去做的事。一些原本没有考虑过 AI 转型的企业也逐渐开始参与到转型和变革中去,提高了智能化转型意识,相当于为机器平台公司起到了教育市场的作用。


除了 AI,新基建所包括的 5G 和 IOT 也与第四范式的技术战略高度相关,这些基础设施建设的未来本质上会带来人与人之间的互联外,还会带来物体之间的互联,物体互联的价值绝不止于连在一起,而会带来新的产业和机会,甚至颠覆所有的行业。陈雨强认为,5G 和 IOT 万物互联最终的结果在于有了智能,能做决策,能决定改造的流程,提升效率,提升效率的手段不是单纯靠人工,一定是靠人工智能,因此这里面也充满机遇。


第四范式目前已将 5G、IOT、端侧作为重点研究和探索方向,公司目前在参与国家的一些标准如边缘计算的标准制定,与高校开展研究合作,也在通过开展科学社区、比赛等吸引更多人参与到新基建研究上来。


新基建牵动了一批新的科技投资热潮,但新基建并不是建好了,就会有人去用。如同所有的“新事物”一样,它会经历萌芽、探索,成长、成熟的过程和阶段,而各个企业从了解到参与新基建也需要一个过程,在这个过程中需要获得支持和帮助。


陈雨强表示,尤其在科技竞争局势越来越紧张的当下,怎样去支持新基建这一新事物,怎样能更好地支持愿意尝试用新基建设施创造价值的企业,并帮助他们使用一些基建设施,这是很重要的事。


“在新基建的窗口期,企业要更开放的考虑新基建带来的发展机会,除国家政策支持外,还有很多像第四范式这样的机器学习平台公司在参与建设,帮助实体经济,如果国家实体经济和新基建本身建设方面能够一起发力的话,新基建整体的进程就比较顺了”,陈雨强表示。