构建机器学习工具一年得到的四个教训_大数据

阿里云飞天发布时刻，领先大模型限免，超7000万 tokens免费体验了解详情 



 写点什么

关于如何构建机器学习工具、未来的需求和为什么领域专家在人工智能的未来中扮演重要的角色，我们想与大家分享一些最令人惊讶的经验。

在过去的一年里， Humanloop 一直在开发一种用于训练和部署自然语言处理模型的新工具。我们已经帮助律师、客服人员、市场营销人员和软件开发人员团队快速训练出能够理解语言的人工智能模型，并立即使用它们。在使用主动学习时，我们开始将注意力集中在减少注释数据的需求上，但是很快发现需要更多。

我们真正需要的是一组新的工具和工作流，从第一原则出发，这些工具和工作流是用来处理人工智能工作挑战的。这里有一些我们学到的东西。

1. 主题专家的影响力不亚于数据科学家

2011 年初，对深度学习专业知识的需求如此之高，以至于 Geoff Hinton 能够以 4400 万美元的价格将自己卖给谷歌。今天不再是这样了。

2011 年的许多难题都已商业化。通过导入库，你可以使用最先进的模型，并且大多数研究的突破性成果都会很快被纳入。尽管我已经拿到了深度学习的博士学位，但我仍然对标准模型在广泛的使用案例中的开箱即用表现感到惊讶。

构建机器学习服务仍然很难，但最大的挑战是获取正确的数据。

或许，令人惊讶的是，机器学习技术方面的支持已经不如领域的专业知识有用。

举例来说，我们与一个团队合作，他们想知道 80000 多项历史法律判决的结果。手工处理这些文件是完全不可行的，那要花上几十万美元的律师时间。要解决这个问题，光靠数据科学家时不行的。一位律师是我们真正需要的。

在数据科学中，传统的工作流程将数据注释看作模型训练的第一步。我们知道，将数据注释/数据管护（data curation）放在工作流的中心位置实际上会让你更快的得到结果。由主题专家担任领导角色，与数据科学家更容易合作。而且我们也看到，这会产生更高的数据质量和更高的模型质量。

两位律师组成的团队为 Humanloop 平台上的数据进行了注释，并用主动学习自动并行的方式来训练模型。仅用了几个小时，律师们就训练出了一个模型，它能提供所有 80000 项判决结果，而这些结果完全不需要数据科学家的参与。

不只是律师，我们见过医生团队为训练医疗聊天机器人所作的注释；金融分析师为命名实体识别所作的标记，以及科学家对数据进行注释，以便大规模检索论文。

2. 第一次迭代总是在标签分类上

机器学习模型的训练通常从标记数据集开始。在我们最初构建 Humanloop 平台时，我们认为选择一个标签分类法是在项目开始时做的事情，然后就完成了。

如果不探索数据，大多数团队都低估了定义好的标签分类是多么困难。

我们很快意识到，一旦团队开始注释数据，他们就会发现最初对于他们想要的分类的猜测是错误的。这些数据中常常会有他们从未考虑过的分类，或者是一些非常罕见的，所以最好将它们合并到一个更大的分类。团队会惊讶的发现，对于即使是简单的分类，常常很难对其含义达成一致意见。

在项目开始后，数据科学家、项目经理和标注员之间几乎总是在讨论如何更新标签分类的问题。

将数据整理置于机器学习工作流的中心，可以让不同的利益相关者快速达成一致。为简化这一过程，我们为项目经理增加了在注释期间编辑其标签分类的能力。Humanloop 模型和主动学习系统可以自动遵循对标签的任何修改。让团队能够对示例数据点进行标记、评论和讨论。

3. 快速反馈的投资回报率很高

对于我们创建的主动学习平台，一个出乎意料的好处就是，它可以让项目快速原型化并消除风险。在 Humanloop 平台上，通过团队的注释，对模型进行了实时训练，并提供了模型性能的统计数据。

许多机器学习项目都会失败。根据 algorithmia 的数据，多达 80% 的项目从未投产。出现这种情况通常是因为目标不明确，输入的数据质量太差，无法预测输出，或者模型陷入困境，等待生产。高层管理人员变得不愿意为不确定性很高的项目投入资源，因而错失了很多好机会。

尽管我们没有计划，但我们意识到团队正在利用 Humanloop 的早期快速反馈来评估项目的可行性。他们可以上传小的数据集，然后给一些例子贴上标签，这样就能了解到他们的项目会有多好。这就是说，一些可能会失败的项目没有继续进行，而另一些项目很快就会获得更多的资源，因为团队知道它们会成功。这类早期探索通常由完全没有机器学习背景的产品经理来完成。

4. 机器学习工具应当以数据为中心，但以模型为依托

目前大部分训练和部署机器学习（MLOps）的工具都是针对传统软件构建的。它们专注于代码而非数据，它们的目标是很窄的机器学习开发管道。有一些 MLOps 工具可以用于监控、特征存储、模型版本、数据集版本、模型训练、评估存储等等。几乎没有任何一种工具可以方便地查看和理解系统所学到的数据。

吴恩达（Andrew Ng）和 Andreij Kaparthy 等人最近一直在呼吁使用以数据为中心的机器学习工具。人们完全同意，机器学习要求团队更多地关注他们的数据集，但是我们发现这些工具的最佳版本需要与模型紧密结合。

在 Humanloop 平台上，我们看到的大部分好处来自数据和模型之间的相互作用：

在探索阶段：该模型显示出罕见的分类，并提供有关分类学习难度的反馈。
在训练阶段：模型找到具有最高价值的数据标注，使模型以较少的标签获得高性能模型。
在审查阶段：该模型使得发现错误注释变得更加容易。Humanloop 平台显示出模型的预测与领域专家的标注员不一致的例子，并且具有很高的置信度。发现和纠正错误的数据点往往是提高模型性能的最有效途径。

结合数据和模型构建过程在机器学习开发过程的每一个阶段都有好处。对模型进行注释学习后，部署不再是一个“瀑布”时刻。模型是不断学习的，可以轻松地保持更新。

一年来，我们认为我们已经在建立让机器学习变得更简单的新工具方面取得了重大进展，首先是自然语言处理。如今，很多行业的专家都对人工智能模型的训练做出了贡献，并且很高兴看到基于 Humanloop 的新应用程序。

作者介绍：

Humanloop 是一家从事机器学习和人工智能的初创公司，该公司的产品 Humanloop 是一个训练和部署自然语言处理的人工智能数据标记工具，为用户的模型提供 API，用户可以使用该工具更好地可视化和理解其数据，从而拓展客户人力资源。

原文链接：

https://humanloop.com/blog/4-lessons-from-a-year-building-tools-for-machine-learning

发布

暂无评论

创作场景

构建机器学习工具一年得到的四个教训

1. 主题专家的影响力不亚于数据科学家

2. 第一次迭代总是在标签分类上

3. 快速反馈的投资回报率很高

4. 机器学习工具应当以数据为中心，但以模型为依托

评论

InfoQ百位优质创作者签约计划第三季，终于等到了！！！

防范企业数据泄露，就用网络安全产品堡垒机！

web前端培训 | 34 道 Vue 高频面试题

技术分享| 融合调度中的广播功能设计

基于信通院 Serverless 工具链模型的实践：Serverless Devs

面试突击61：说一下MySQL事务隔离级别？

纯CSS 波点背景 🏀

手把手教你安装jdk8配置环境变量

新朝旧将 vite和webpack煮酒论英雄

从第三次技术革命看企业应用三大开发趋势

攻防演练之战前扫雷：漏洞管理的5大措施

Vue3中如何使用异步请求？

高校如何基于云原生构建面向未来的智慧校园？全栈云原生架构VS传统IT架构

揭秘！付费会员制下的那些小心机！

云创平台+播放器SDK,腾讯云音视频新工具助力视频生产、终端能力全面升级

揭秘百度智能测试在测试自动执行领域实践

iMile 利用 Zadig 多云环境周部署千次，跨云跨地域持续交付全球业务

Numpy 的研究仿制 1

微博评论高可用高性能计算架构

自主可控再下一城！首套国产ARTIQ架构量子计算测控系统发布

图像边缘检测的新方向——量子算法

3个最佳实践助力企业改善供应链安全

使用 Gerrit + Zadig 实现主干开发主干发布（含字节跳动飞书实践）

智能指标驱动的管理和决策平台 Kyligence Zen 全新上线，限量内测中

京东联盟API - 万能转链接口 - 京品库接口 - 接口定制

瓜分1000+万奖金池，昇腾AI创新大赛2022实力赋能开发者

等保测评结论为差，是不是表示等保工作白做了？

架构实战营第五模块课后作业

超级详细的 Maven 教程（基础+高级）

2022年第一季度保险服务数字化跟踪分析

火山引擎入选国内首个《边缘计算产业全景图》

创作场景

构建机器学习工具一年得到的四个教训

1. 主题专家的影响力不亚于数据科学家

2. 第一次迭代总是在标签分类上

3. 快速反馈的投资回报率很高

4. 机器学习工具应当以数据为中心，但以模型为依托

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载