雷锋网 AI 科技评论按:我们都知道最新的科研成果和实际商业应用中使用的技术会有一定的距离。一面是高复杂度、特定(较简单一致)的输入和直接量化的性能指标,另一面是资源成本的限制、为各种各样情况考虑预案,以及评价标准要变成更高阶、更综合性的用户满意度、营收等等。
所以实际上,即便整个计算机科学界、互联网商业中大家一直对 AI 抱有热情,我们能看到的使用了机器学习的商业化产品也并不多,高度集中在图像处理、文本翻译和语音识别几类任务中,具体使用的算法也往往并不是学术界内认为先进的算法。
有网友观察到了这样的现象,在 Hacker News 的问答板块提问道:「学术界一直在不停地做出新的科研进展,但是工业界好像并没有选择使用这些新鲜成果,包括胶囊网络或者自动网络搜索方面的成果。所以说前沿的科学技术研究和技术商业化之间就是注定有深深的鸿沟吗?这些新研究出的模型都没有什么可能快速商业化、变成产品吗?」
曾在斯坦福大学与 UC 伯克利大学学习计算机科学、在谷歌大脑团队实习,如今身为全栈开发工程师 Denny Britz 给出了一些自己的想法:
大多数科研成果带来的提升比较有限,而新的技术要有能力带来足够大的提升才会被产业界吸收。99.9% 的科研论文提出的技术都是带来优化指标(评价指标,比如准确率、ROC AUC、BLEU 分数等等)的小幅提升。然而表现提升的同时一般都伴随着计算复杂度的提升、更高的训练成本、更低的模型稳定性、代码可维护性的挑战等等。对于谷歌广告词搜索、谷歌翻译之外的绝大多数企业的业务来说,只为了把某项优化指标的数字提升一点点就增加许多成本是根本划不来的。使用一个现成的、经过时间考验的简单、成熟、稳定的模型要好得多,训练很快、维护简单。即便它们的跑分会低 1%。
学术研究一般都关心的是如何改进模型,那么在研究中就不可以改变训练/测试数据。对于科研来说这是理所当然的,毕竟在同样的数据上跑出来的结果才有可比性。但是在真实世界中,你可以自由地收集更多的训练数据、清理数据、选择更有针对性的验证和测试数据,等等。在大多数情况下,有更准确的、更多的数据、更干净的数据,都要比换一个更强的模型效果更好。而且处理数据的事情也更好做,更有迹可循。所以对于产业界来说,他们把精力花在数据上通常更合适。
科研论文里使用的优化指标没有什么能直接迁移到真实世界的商业指标中的,而且同时有很多科研中的想法会过拟合到这些指标和/或数据集上。比如,研究机器翻译的论文都会优化一个叫做「BLEU 分数」的指标,但是真实的翻译应用中需要考虑的用户满意度和「用户评分分数」。这可就是学术科研很难优化的了。类似地,商业产品并不能直接把「ImageNet 图像分类准确率」拿出来卖,不仅模型在应用场景中面对的图像会与 ImageNet 数据集不同,用户满意度也并不直接对等于识别准确率。科研论文会关心特定数据集上的特定指标(因为论文就是这样评审的),但是一个模型在这个数据集上的这个指标表现好,不一定它在别的数据集、别的指标也有好的表现(即便数据集和指标可能是类似的)。实际上,即便是含有已知的错误的数据集也会在科研研究中一直用下去,因为不同的技术以前就是在这些数据集上比较的(雷锋网 AI 科技评论有篇旧文解析过 ImageNet 中错误分类的图像)。而商业应用里就不会发生这样的事情。
对于这个问题,你认同提问者的观察吗?你对这样的现象有别的见解吗?欢迎留言与我们讨论。
via news.ycombinator.com,雷锋网 AI 科技评论编译