AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005344

评论

发布
暂无评论

32 岁的我裸辞了,八年 Java 老鸟,只因薪水被应届生倒挂

爱好编程进阶

Java 程序员 后端开发

address list(dynamic)- 通讯录动态版本

爱好编程进阶

Java 程序员 后端开发

nginx配置系列(三)日志配置

乌龟哥哥

4月月更

网站开发进阶(一)Tomcat域名或IP地址访问配置详解

No Silver Bullet

tomcat 网站建设 5月月更

2020最新版Java学习路线图--妈妈再也不用担心我误删数据库被开除了

爱好编程进阶

Java 程序员 后端开发

2020面试官会经常问到的三个并发工具类,你都知道吗?

爱好编程进阶

程序员 后端开发

2021最强面试笔记非它莫属:3000字Java面试核心手册(大厂必备

爱好编程进阶

Java 程序员 后端开发

2021最新一次Java面试,快手三面一轮游,如今已拿意向书

爱好编程进阶

Java 程序员 后端开发

架构训练 模块4作业

小马

「架构实战营」

Java 从一个 List 中删除 null 元素

HoneyMoose

GitOps指南

俞凡

DevOps gitops

2020年底跳槽面试5家大厂,最后收获拼多多Java岗offer,分享三面总结!

爱好编程进阶

Java 程序员 后端开发

2021年九月最新Java面试必背八股文,338道最新大厂架构面试题

爱好编程进阶

Java 程序员 后端开发

7-52 两个有序链表序列的交集 (20 分)(思路加详解尾插法)come Boby!

爱好编程进阶

程序员 后端开发

7点建议助您写出优雅的Java代码

爱好编程进阶

Java 程序员 后端开发

在 ABAP 技术栈里实施 Continuous Integration 的一些挑战

汪子熙

DevOps 持续集成 abap 5月月更 持续优化

决战摸鱼之巅:将vscode撸成可局域网联机对战的moba平台

gamedilong

前端 vscode nodejs Node 摸鱼

11-SpringSecurity:Session共享

爱好编程进阶

Java 程序员 后端开发

ArrayList、HashMap等集合初始容量的大小以及扩容的倍数

爱好编程进阶

Java 程序员 后端开发

架构实战营作业四

库尔斯

#架构实战营

client-go实战之一:准备工作

爱好编程进阶

Java 程序员 后端开发

Dagger2源码分析(三)从源码角度分析注解在Dagger2中的使用

爱好编程进阶

Java 程序员 后端开发

关于人才的招聘的一些看法(31/100)

hackstoic

团队管理 招聘

2021最新分享字节四面成功拿Offer!

爱好编程进阶

Java 程序员 后端开发

4000字,详解Python操作MySQL数据库

爱好编程进阶

程序员 后端开发

PingCode 产品怎么样?产品底层逻辑是什么样的?

爱吃小舅的鱼

Cookie & Session

爱好编程进阶

Java 程序员 后端开发

pinpoint插件开发之二:从零开始新建一个插件

程序员欣宸

Java 分布式 4月月更

C++类设计和实现的十大最佳实践

俞凡

c++ 最佳实践

[Day32]-[二叉树]二叉树中的最大路径和

方勇(gopher)

LeetCode 二叉树 数据结构和算法

2021金三银四必备:“基础-中级-高级

爱好编程进阶

Java 程序员 后端开发

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章