1.4. money

动辄几个亿的模型,普通人无力支持训练和运行大模型,怎么办?

1.4.1. 大真话

投资人和创始人都认识到,人工智能不仅能开辟新的领域,而且能增加他们的预算。 5

1.4.2. 训练成本

  1. 语言模型

  • BERT:1.2 万美元

  • GPT-2:4.3 万美元

  • XLNet:6.1 万美元

  1. 高分辨率 GAN

  • BigGAN:2.5 万美元

  • StyleGAN:0.3 万美元

像AlphaGoZero和GPT-3这样的大型现代网络需要数百万美元用于算力的训练3

Sharir 等人选择 SOTA 模型之一 BERT 进行实验,结果发现根据所选模型的大小,完整训练过程的经济成本可能在 5 万到 160 万美元不等4

今年5月,OpenAI发布GPT-3模型,千亿参数量,数据集(处理前)45T,训练一次的成本号称接近500万美金,6

1.4.3. 用预训练的小模型

网络模型压缩1

1.4.4. 没有算力,怎么做研究

Julian Togelius:但我们可以去尝试那些看起来完全讲不通的方法,或者去破解那些没有人想要去尝试解决的问题(因为那些问题看起来不像问题)。2

1.4.5. 全国性的人工智能研究云

对专业资源、社备的需求增加会导致科学领域的贫富差距。论文称,深度学习的兴起大大增加了计算和数据的重要性,而这反过来又增加了知识生产成本,从而增加了进入壁垒。3

学术机构需要一个全国性的“人工智能研究云”。

1.4.6. 投入产出比低

高技术门槛导致了企业AI应用开发的高人力成本。由于企业内部人才缺口较大,目前企业常见的做法是将非核心场景的A应用开发外包。但外包价格昂贵,某大型券商支付的外包价格为7万/月。随着A应用场景的大规模拓展,企业需要支付愈加高昂的研发成本和人力成本。 此外,“烟囱式”单点开发架构导致应用开发效率低下,难以及时响应业务需求变化,影响A应用的价值产出最大化

1.4.7. 业务导向

公司是盈利为目的的组织,投入产出比是最重要的。企业最看重的就两件事:成本和收益,即搭建一个系统要投入多少成本和时间,然后可以获得多少回报。所以,企业内的算法工程师和科研院所的研发创新导向不同,工作更需要追求投入产出比。

在祁斌川看来,能产生较高 ROI 算法系统建设的核心是业务导向,尤其在项目初期更是强业务导向。

“很多公司在算法平台建设的时候,喜欢先成立一个很高级别的项目,囊括各方人员,包括产品、业务方、技术方等,并设定了一个明确的研发周期,这是典型技术导向,期望闭关修炼后,就能够无往不利,解决一切业务问题。这样做的结果往往是平台搭建好了,要么解决业务问题还是要做大量的定制化,要么平台貌似提供了很多高大上的功能,但对于业务没什么应用场景。这就造成了资源浪费,并没有解决问题。”祁斌川的经验是:始终围绕解决业务问题去建设算法平台和算法团队。7

1.4.8. 摇滚明星

摇滚明星原则来自加利福尼亚州圣莫尼卡某地下室中进行的一项著名研究。当天清晨 6 点 30 分,有 9 位开发实习生进入这个部署着数十台计算机的房间。每个人都拿到了一个草纸信封,其中装有他们需要在 120 分钟之内努力完成的一系列编码与调试任务。

研究人员预计,最强程序员的工作效率应该可以达到最差程序员的 2 到 3 倍。但事实证明,与后者相比,前者的编码速度可以达到 20 倍,调试速度为 25 倍,程序执行速度则是 10 倍。

多年以来,Netflix 发现最顶尖的程序员所带来的价值回报远不止 10 倍,他们的创造力大约是普通程序员的 100 倍。8