写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005988

评论

发布
暂无评论
发现更多内容

微店商品详情 API 的调用频率有限制吗?

技术冰糖葫芦

API 文档

JavaScript 的 structuredClone:深拷贝技术全解析

Liam

JavaScript 前端 Web 前端开发 structuredClone

人工智能发展史:从专家系统到机器学习的演进

测吧(北京)科技有限公司

测试

DAPP合约代币矩阵公排系统开发

l8l259l3365

龙智联合Atlassian举办DevSecOps研讨会,Jama总监分享Jama与Jira集成经验,助力产品开发复杂性管理

龙智—DevSecOps解决方案

Jira jama

防水堡是什么?各行各业怎么定义?

行云管家

网络安全 防水堡 行云防水堡

云游戏:畅享3A游戏大作的全新时代

Ogcloud

游戏 云游戏 3A游戏 3A云游戏

评估模型效果:深入解读混淆矩阵、精准率、召回率和F1 score

测吧(北京)科技有限公司

测试

训练集、验证集和测试集:区别与应用详解

测吧(北京)科技有限公司

测试

数据挑选技巧:提升模型质量的关键一步

测吧(北京)科技有限公司

测试

TikTok直播:是否需要专线,以及加速的方法有哪些?

Ogcloud

海外直播专线 Tik Tok直播 Tik Tok直播网络 直播加速 海外直播

智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人

汀丶人工智能

人工智能 深度学习 智能机器人

一文了解Lint工具的优缺点,以及它与高级静态分析工具的比较

龙智—DevSecOps解决方案

linter lint

实时数据驱动:API商品数据接口引领业务飞跃

Noah

面试官上来就让手撕HashMap的7种遍历方式,当场愣住,最后只写出了3种

不在线第一只蜗牛

Python 程序员 面试 开发语言

DevChat上新:/commit让你躺平都能写好规范的提交消息

思码逸研发效能

数据与特征:解密模型解决实际问题的关键

测吧(北京)科技有限公司

测试

立即报名Atlassian Team’24,与龙智一同踏上前往数字服务的创新之路

龙智—DevSecOps解决方案

Atlassian

Bored Ape Yacht Club NFT 概览与数据分析

Footprint Analytics

NFT

编程中有哪些好的习惯一开始就值得坚持?

小齐写代码

思码逸获得 InfoQ 2023 年度技术生态构建奖

思码逸研发效能

自学习概念探析:构建稳定模型的核心思想

测吧(北京)科技有限公司

测试

少走弯路 不踩坑 Datadog 的替代品来了

可观测技术

可观测性

聚道云软件连接器2月新增应用/产品更新合集

聚道云软件连接器

功能更新

产品更新 | 思码逸 DevInsight,新增虚拟项目团队的管理与度量

思码逸研发效能

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章