【AICon】硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会 >>> 了解详情
写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-01-25 08:005128

评论

发布
暂无评论

强!上线3天获10w浏览量,京东T8纯手码Redis缓存手册,我粉了

Java 数据库 redis 架构 面试

🏆「推荐收藏」【Spring源码专题】彻底让你明白【IOC容器初始化】运行原理和源码流程

洛神灬殇

spring 容器 源码分析 7月日更

Flink知识点总结

五分钟学大数据

flink 7月日更

如何实现跨设备的双向连接? Labo涂鸦鸿蒙亲子版分布式开发技术分享

科技汇

Python协程 & 异步编程(asyncio) 入门介绍

行者AI

#python

将 FeignClient 的请求记录成 cURL 格式

哈德韦

微服务 前后端分离 log4j curl Spring boot Feign

花2个月备战字节,3轮面试拿下总包60W Offer!

Java架构师迁哥

在企业软件中负责任地使用开放源代码

WorkPlus

数字新金融到底是什么样的金融

CECBC

为技术系统打“疫苗”,爱奇艺攻防演练平台的探索实践

爱奇艺技术产品团队

架构 安全攻防 开发 混沌工程

科创人|容联七陌CEO陈光:90后街舞少年的CEO修炼手册

科创人

人工智能 创业 程序员

从特斯拉召回事件,窥探OTA汽车进化真面目

脑极体

网络攻防学习笔记 Day62

穿过生命散发芬芳

网络攻防 7月日更

药以安为先,如何用技术升级助力药品质量升级?

WorkPlus

免费分享入门学习Java的优秀图书

Java入门到架构

Java 书籍 Java入门

模块1

cherrycheek

iOS 15隐私升级及注意事项

阿里巴巴大淘宝技术

ios WWDC21

云原生负载均衡和网关应用实践

火山引擎开发者社区

云原生 后端

新能源车的发展趋势

石云升

学习 新能源汽车 7月日更

CVPR2021竞赛结果出炉,阿里淘系多媒体算法包揽3项国际冠军

阿里巴巴大淘宝技术

CVPR

AQS介绍和原理分析(下)

追风少年

并发编程 AQS

利用 IComparable<T> 以及 IComparer<T> 定义顺序关系

喵叔

7月日更

Linux常用命令-文件操作

正向成长

linux命令

全表遍历并处理数据有点慢?放开!我来!

林一

jpa Stram @QueryHints

字节跳动实习生删库高操作

学神来啦

Linux 程序员 职场搞笑 linux运维

国内市场主流音视频产品主要功能分析

anyRTC开发者

音视频 WebRTC 语音通话 实时通讯 视频通话

IPFS挖矿靠谱吗?IPFS挖矿合法吗?

区块链 IPFS

2022秋春招/提前批面经分享总结(字节、腾讯、阿里)

学无止境的阿奔

腾讯 面试 阿里 字节 校招

Vitalik Buterin眼中的区块链信任模型

CECBC

什么是数据仓库

奔向架构师

数据库 数据仓库 数据架构 话题讨论 7月日更

大专的我,闭关苦学56天,含泪拿下阿里offer,五轮面试,六个小时灵魂拷问

Java架构师迁哥

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章