写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:006011

评论

发布
暂无评论
发现更多内容

qData 数据中台开源版 v1.0.7 发布:新增 SQL Server 支持,快速部署支持达梦与 MySQL 主库切换!

千桐科技

大数据 开源 数据中台 数据治理 qData

听歌母带音质,追剧AI搜片,鸿蒙双11为你的娱乐生活升个级

最新动态

AI智能体与多模态算法系统:您的“全能数字员工”已上线

上海拔俗

Java程序员该如何快速上手LLM应用开发呢?

六边形架构

LLM应用开发 Java应用开发 Java大模型

《Learn Python Programming(4th)》读后感

codists

Python

AI智能体-路由模式

Hernon AI

#LangChain AI 智能体 AI开发框架 AI设计方法论 AI开发方法论

传帮带 人才梯队建设经验总结(16)

万里无云万里天

人才培养 工业 工厂运维

盘点企业级远程控制方案,哪一款最安全?

科技经济

Data engineering at Meta

数新网络官方账号

meta

过程控制 通讯维护经验总结(5)

万里无云万里天

工业 工厂运维 过程控制

AI Compass前沿速览:Cursor 2.0、Firefly Image5、Agent HQ 、LongCat-Video、Kimi-k2 Thinking

汀丶人工智能

把周报写成业务资产:一条指令如何连接数据、流程和管理共识

HuiZhuDev

团队管理 数据驱动 AI应用 国产大模型 工作流自动化

绕过Cloudflare防护实现密码重置投毒攻击的账户接管漏洞分析

qife122

网络安全 Cloudflare

AI替代人工:车企如何用天润融通ZENAVA重塑试驾邀约流程

天润融通

云效「AI 智能评审」,先锋体验官招募活动正式启动,赢取极客专属好礼!

阿里巴巴云原生

阿里云 云效

2026 年RPA全面进化,选型就看这一篇!

Techinsight

AWS CloudFront 可观测最佳实践

观测云

aws cloudfront

过程控制 硬件维护经验总结(8)

万里无云万里天

工业 工厂运维 过程控制

10 月热搜精选

KaiwuDB

数据库 KaiwuDB 分布式多模数据库 KWDB开源数据库

天润融通AI Agent实战营北京站圆满收官,引爆企业AI生产力!

天润融通

AI客服越智能,客户越崩溃?看天润融通怎么说

天润融通

如何提高 SaaS 产品的成功率?

hepingfly【gzh:和平本记】

在CEIC 2025:生态之力,推动全球消费电子产业的风向之变

脑极体

AI

Vibe Coding - 免费使用gpt-5、grok-code-fast-1进行氛围编程

小工匠

vibe coding Claude Code

StarRocks 4.0:FlatJSON,让 JSON 查询像列存一样高效

StarRocks

json sql 数据查询 StarRocks 4.0 FlatJSON

Advantech iView SQL注入漏洞分析:认证绕过与数据泄露

qife122

网络安全 SQL注入

西格电力企业级储能技术线路图制定方法与实践指南

西格电力

高性能存储 智慧储能电站 储能 新能源产业 可再生能源发电

职场中的顶级能力—服务意识

老李说技术

职场 职场发展

等级保护建设方案,等保解决方案

金陵老街

等级保护

储能项目如何落地?— 西格电力从规划到运营的全流程实战指南

西格电力

高性能存储 新能源 智慧储能电站 储能 新能源产业

AI辅助规划编制与智能管理系统:为您的业务装上“导航”与“自动驾驶”

上海拔俗

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章