写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005537

评论

发布
暂无评论
发现更多内容

JMM 应用实例:单例模式

朱华

单例模式

标准的开发框架,对企业开发有多重要?

Philips

敏捷开发

iOS touch事件点的获取

teoking

ios

这个应用魔方厉害了,让软件开发者效率提升10倍

华为云开发者联盟

软件开发 代码

架构师训练营第 1 期 - 第 5 周 - 作业

wgl

极客大学架构师训练营

暂存图片

而立

架构师训练第五周 -编程语言实现一致性 hash 算法

郎哲158

算法图解:如何用两个栈实现一个队列?

王磊

Java 数据结构 算法和数据结构

1分钟带你入门 React 生命周期

Leo

react.js 大前端 React 生命周期

mongodb源码实现系列-网络传输层模块实现二

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 高性能 分布式数据库mongodb

让“物”能说会道,揭晓华为云IOT黑科技

华为云开发者联盟

物联网 华为云

云原生2.0时代:开启应用定义基础设施新时代

华为云开发者联盟

容器 云原生

配置企业应用业务流程别头大,有工作流引擎就不怕

Marilyn

敏捷开发

Docker内部组件

混沌畅想

Docker 容器 运维

JVM系列笔记 - 虚拟机栈

朱华

JVM

1024丨奈学教育致敬程序员:‘3+2’战略发布会圆满落幕

奈学教育

程序员 奈学教育

1024丨奈学教育致敬程序员:‘3+2’战略发布会圆满落幕

古月木易

奈学教育

架构师训练营第一期 - 第五周课后作业

卖猪肉的大叔

一文快速入门分库分表中间件 Sharding-JDBC (必修课)

程序员小富

Java 分库分表

独家揭秘 | 京东物流Elasticsearch大规模“迁移上云”实践

京东科技开发者

云计算

使用Hugo和GitHub搭建博客

Felix

GitHub GitHub Pages Blog Hugo

LAXCUS 大数据集群操作系统:一个分布式分时共享 E 级系统软件(五)

陈泽云

人工智能 数据库 大数据 操作系统

iOS性能优化 — 三、安装包瘦身

iOSer

ios 性能优化 编程语言 ios开发 安装包瘦身

架构师训练营第一期 - 第五周学习总结

卖猪肉的大叔

LeetCode题解:46. 全排列,回溯,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

前端科普系列(5):ESLint - 守住优雅的护城河

vivo互联网技术

Java 大前端 代码仓库

两个程序员老友的会面

Learun

敏捷开发

一文带你掌握Redis操作指南

华为云开发者联盟

数据库 存储

马云:数字货币可能会重新定义货币

CECBC

金融

中台架构下的DDD和落地实践

高鹏

业务中台 DDD 领域驱动模型DDD 中台架构 中台架构 DDDplus

文石BOOX Note Air与掌阅iReader Smart2 该怎么选?

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章