1.2. 技术¶

1.2.1. 技术能力不足¶

在特征工程、模型选择和模型评估环节，AI工程化能力髙度依赖数据科学家的专业经验和算法能力，而大部分企业现有的人才储备难以满足高门槛需求。根据爱分析调硏，国内有能力开发算法并将算法用到业务的数据科学家仅为2万，再考虑到大型企业人员的总编制有限，数据科学家人员供应远小于需求。

1.2.2. 重复建设¶

烟囱式开发架构下，企业无法利用原有的软硬件资源支持新场景开发，易导致数据孤岛、数据隔离、数据不一致等问题，造成计算资源、模型管理资源和运维管理资源的浪费。

以保险公司退货险的智能理赔为例。在双十一期间，保险公司的退货险订单量剧增，一天可达上亿笔。而平日退货险一天仅为数笔。在“烟囱式”开发模式下，企业需要增配额外的硬件资源，以支持双十一当天的算力需求。由于平日退货险订单数量少，这些新增的硬件资源在平日多处于闲置状态，造成了计算资源的浪费，维护成本提高。此外，企业在开发新应用场景时，不能复用已经积累的类似场景的模型，导致了模型资源管理的浪费。1

1.2.3. 可靠性¶

工业界对待技术的态度不应该是前沿不前沿，而是能不能更好的解决实际问题。4

工程项目的需求是：“用最稳妥的方法，尽可能控制风险，辅助某人或某个团体完成另一件事”5

可靠性差：很多模型都只能在象牙塔的特定数据集中表现良好，到了现实世界则表现平平，让人难有上线的欲望。3

最前沿的算法一般是预研阶段，可靠性不能保证，工业界不会因学术界出了一个新模型就去复现，就去部署，这太耗费资源，除非这个模型又是一个“革命性”的作品。2

你用写项目申请书的方法写论文绝对被拒稿。（别人都做过了你这个研究的创新点在哪里呢？没有意义阿）5

https://github.com/alirezadir/Production-Level-Deep-Learning

1.2.4. 模型未投入生产¶

据 VentureBeat 报道，大约 90% 的机器学习模型从未投入生产。换句话说，数据科学家的工作只有十分之一能够真正产出对公司有用的东西。6

机器学习专家们把 90% 的时间都放在了数据准备、处理、特征工程、建模、调参上，而背后的业务问题和商业问题，很多时候没有纳入严格的考虑。7

1.2.5. 版本控制和再现仍面临挑战¶

到目前为止，机器学习模型版本控制还没有一种可行的方法。显然，数据科学家需要跟踪他们所做的任何更改，但现在这相当麻烦。

此外，数据集可能会随时间漂移。随着公司和项目的发展，这是很自然的，但这使得再现过去的结果变得更加困难。

更重要的是，一旦项目启动，就会建立一个基准，用于现在和将来对模型进行测试。结合版本控制，数据科学家可以再现他们的模型。6