写点什么

构建机器学习工具一年得到的四个教训

Humanloop

  • 2021-08-15
  • 本文字数:2522 字

    阅读完需:约 8 分钟

构建机器学习工具一年得到的四个教训

关于如何构建机器学习工具、未来的需求和为什么领域专家在人工智能的未来中扮演重要的角色,我们想与大家分享一些最令人惊讶的经验。

 

在过去的一年里, Humanloop 一直在开发一种用于训练和部署自然语言处理模型的新工具。我们已经帮助律师、客服人员、市场营销人员和软件开发人员团队快速训练出能够理解语言的人工智能模型,并立即使用它们。在使用主动学习时,我们开始将注意力集中在减少注释数据的需求上,但是很快发现需要更多。

 

我们真正需要的是一组新的工具和工作流,从第一原则出发,这些工具和工作流是用来处理人工智能工作挑战的。这里有一些我们学到的东西。

 

1. 主题专家的影响力不亚于数据科学家

 

2011 年初,对深度学习专业知识的需求如此之高,以至于 Geoff Hinton 能够以 4400 万美元的价格将自己卖给谷歌 。今天不再是这样了。

 

2011 年的许多难题都已商业化。通过导入库,你可以使用最先进的模型,并且大多数研究的突破性成果都会很快被纳入。尽管我已经拿到了深度学习的博士学位,但我仍然对标准模型在广泛的使用案例中的开箱即用表现感到惊讶。

 

构建机器学习服务仍然很难,但最大的挑战是获取正确的数据。

 

或许,令人惊讶的是,机器学习技术方面的支持已经不如领域的专业知识有用。

 

举例来说,我们与一个团队合作,他们想知道 80000 多项历史法律判决的结果。手工处理这些文件是完全不可行的,那要花上几十万美元的律师时间。要解决这个问题,光靠数据科学家时不行的。一位律师是我们真正需要的。

 

在数据科学中,传统的工作流程将数据注释看作模型训练的第一步。我们知道,将数据注释/数据管护(data curation)放在工作流的中心位置实际上会让你更快的得到结果。由主题专家担任领导角色,与数据科学家更容易合作。而且我们也看到,这会产生更高的数据质量和更高的模型质量。

 

两位律师组成的团队为 Humanloop 平台上的数据进行了注释,并用主动学习自动并行的方式来训练模型。仅用了几个小时,律师们就训练出了一个模型,它能提供所有 80000 项判决结果,而这些结果完全不需要数据科学家的参与。

 

不只是律师,我们见过医生团队为训练医疗聊天机器人所作的注释;金融分析师为命名实体识别所作的标记,以及科学家对数据进行注释,以便大规模检索论文。

 

2. 第一次迭代总是在标签分类上

 

机器学习模型的训练通常从标记数据集开始。在我们最初构建 Humanloop 平台时,我们认为选择一个标签分类法是在项目开始时做的事情,然后就完成了。

 

如果不探索数据,大多数团队都低估了定义好的标签分类是多么困难。

 

我们很快意识到,一旦团队开始注释数据,他们就会发现最初对于他们想要的分类的猜测是错误的。这些数据中常常会有他们从未考虑过的分类,或者是一些非常罕见的,所以最好将它们合并到一个更大的分类。团队会惊讶的发现,对于即使是简单的分类,常常很难对其含义达成一致意见。

 

在项目开始后,数据科学家、项目经理和标注员之间几乎总是在讨论如何更新标签分类的问题。

 

将数据整理置于机器学习工作流的中心,可以让不同的利益相关者快速达成一致。为简化这一过程,我们为项目经理增加了在注释期间编辑其标签分类的能力。Humanloop 模型和主动学习系统可以自动遵循对标签的任何修改。让团队能够对示例数据点进行标记、评论和讨论。

 

3. 快速反馈的投资回报率很高

 

对于我们创建的主动学习平台,一个出乎意料的好处就是,它可以让项目快速原型化并消除风险。在 Humanloop 平台上,通过团队的注释,对模型进行了实时训练,并提供了模型性能的统计数据。

 

许多机器学习项目都会失败。根据 algorithmia 的数据 ,多达 80% 的项目从未投产。出现这种情况通常是因为目标不明确,输入的数据质量太差,无法预测输出,或者模型陷入困境,等待生产。高层管理人员变得不愿意为不确定性很高的项目投入资源,因而错失了很多好机会。

 

尽管我们没有计划,但我们意识到团队正在利用 Humanloop 的早期快速反馈来评估项目的可行性。他们可以上传小的数据集,然后给一些例子贴上标签,这样就能了解到他们的项目会有多好。这就是说,一些可能会失败的项目没有继续进行,而另一些项目很快就会获得更多的资源,因为团队知道它们会成功。这类早期探索通常由完全没有机器学习背景的产品经理来完成。

 

4. 机器学习工具应当以数据为中心,但以模型为依托

 

目前大部分训练和部署机器学习(MLOps)的工具都是针对传统软件构建的。它们专注于代码而非数据,它们的目标是很窄的机器学习开发管道。有一些 MLOps 工具可以用于监控、特征存储、模型版本、数据集版本、模型训练、评估存储等等。几乎没有任何一种工具可以方便地查看和理解系统所学到的数据。

 

吴恩达(Andrew Ng)和 Andreij Kaparthy 等人最近一直在呼吁使用以数据为中心的机器学习工具。人们完全同意,机器学习要求团队更多地关注他们的数据集,但是我们发现这些工具的最佳版本需要与模型紧密结合。

 

在 Humanloop 平台上,我们看到的大部分好处来自数据和模型之间的相互作用

 

  1. 在探索阶段:该模型显示出罕见的分类,并提供有关分类学习难度的反馈。

  2. 在训练阶段:模型找到具有最高价值的数据标注,使模型以较少的标签获得高性能模型。

  3. 在审查阶段:该模型使得发现错误注释变得更加容易。Humanloop 平台显示出模型的预测与领域专家的标注员不一致的例子,并且具有很高的置信度。发现和纠正错误的数据点往往是提高模型性能的最有效途径。

 

结合数据和模型构建过程在机器学习开发过程的每一个阶段都有好处。对模型进行注释学习后,部署不再是一个“瀑布”时刻。模型是不断学习的,可以轻松地保持更新。

 

一年来,我们认为我们已经在建立让机器学习变得更简单的新工具方面取得了重大进展,首先是自然语言处理。如今,很多行业的专家都对人工智能模型的训练做出了贡献,并且很高兴看到基于 Humanloop 的新应用程序。

 

作者介绍:

 

Humanloop 是一家从事机器学习和人工智能的初创公司,该公司的产品 Humanloop 是一个训练和部署自然语言处理的人工智能数据标记工具,为用户的模型提供 API,用户可以使用该工具更好地可视化和理解其数据,从而拓展客户人力资源。

 

原文链接:

 

https://humanloop.com/blog/4-lessons-from-a-year-building-tools-for-machine-learning

2021-08-15 08:004544

评论

发布
暂无评论
发现更多内容

星环科技分布式向量数据库Transwarp Hippo正式发布,拓展大语言模型时间和空间维度

星环科技

用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统

Zilliz

nvidia Milvus Zilliz 向量数据库

KaiwuDB 获山东省工信厅“信息化应用创新优秀解决方案”奖

KaiwuDB

如何优雅的开发?低代码搭建应用如此轻松

互联网工科生

软件开发 低代码平台 JNPF

打造企业级门户,WorkPlus助您打造个性化与高效的企业通讯平台

WorkPlus

“敏捷教练进阶课程”12月2-3日 · A-CSM认证在线周末班【分时段模块化教学】CST导师亲授

ShineScrum

证券开源领航者!国金证券通过中国信通院可信开源治理“先进级”评估

新消费日报

文心一言 VS 讯飞星火 VS chatgpt (125)-- 算法导论10.6 6题

福大大架构师每日一题

福大大架构师每日一题

短视频不仅带火了直播/PK,也带着RTC走进了军备竞赛

X2Rtc

音视频 短视频 RTC

Privatus for Mac(网页缓存清理) 6.6.2永久激活版

mac

苹果mac Windows软件 Privatus 网页缓存清理软件

微服务之负载均衡使用场景

互联网工科生

负载均衡 微服务

如何构建适合自己的DevOps软件测试改进方案

DevOps和数字孪生

DevOps 软件测试 仿真建模

《数据安全与流通:技术、架构与实践》新书发布

星环科技

大模型时代的人工智能+大数据平台,加速创新涌现

阿里云大数据AI技术

人工智能

华为云GaussDB城市沙龙活动走进安徽,助力金融行业数字化转型

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

CAEE2023 | 造物云×华为云共建电子电路智慧云工厂,引领产业创新发展浪潮

Geek_2d6073

API商品数据接口调用实战

Noah

NFTScan 发展成为 PlatON 网络最大验证者节点之一

NFT Research

NFT NFT\ NFTScan

TDengine 受邀参加 CNCC 2023,大会现场展位前“人山人海”!

TDengine

tdengine 时序数据库

Navicat Premium 15 for Mac(数据库开发工具)修复密码保存问题 v15.0.30中文激活版

mac

数据库开发工具 苹果mac Windows软件 Navicat Premium 15

golang结构体内存对齐

fm

行云创新加入深圳市人工智能行业协会

行云创新

AI编程 人工智能协会 行云创新加入人工智能协会 云原生+AI 云端IDE+大模型

大模型训练中的AI合成数据应用

百度开发者中心

大模型 人工智能「 LLM

全网最详细4W字Flink全面解析与实践(下)

Java随想录

Java 大数据 flink

KaiwuDB 联合信通院数据库应用创新实验室召开数据库技术研讨沙龙

KaiwuDB

EasyDL平台的强大开发力量

百度开发者中心

大模型 #人工智能

酷克数据出席永洪科技用户大会 携手驱动商业智能升级

酷克数据HashData

最新体育赛事视频直播系统开发解决方案,提高用户黏性

软件开发-梦幻运营部

史上最短苹果发布会;三星、LG、高通联手进军 XR 市场丨 RTE 开发者日报 Vol.74

声网

第19期 | GPTSecurity周报

云起无垠

构建机器学习工具一年得到的四个教训_大数据_InfoQ精选文章