写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005769

评论

发布
暂无评论
发现更多内容

Apache BeanUtils和Spring BeanUtils剖析

Bruce Duan

BeanUtils 浅拷贝和深拷贝

如何保证消息不丢失?处理重复消息?消息有序性?消息堆积处理?

Bruce Duan

消息队列 保证消息不丢失 处理重复消息 消息有序性 消息堆积处理

Mybatis二级缓存,你确定要用么?

xcbeyond

mybatis 二级缓存 一级缓存

LeetCode 565. Array Nesting

liu_liu

算法 LeetCode

性能测试

满山李子

极客大学架构师训练营

自从用完Gradle后,有点嫌弃Maven了!速度贼快!

xcbeyond

maven Gradle

两个指针缩小范围算法,CQRS 命令查询职责分离模式 John 易筋 ARTS 打卡 Week 09

John(易筋)

ARTS 打卡计划

什么?还没有自己的域名?

北漂码农有话说

JVM系列之:详解java object对象在heap中的结构

程序那些事

Java JVM GC JOL

企业架构框架之DoDAF

冯文辉

企业架构

ARTS 05 - 使用 Ecto.Migration 来做数据库迁移

jerry.mei

学习 算法 ARTS 打卡计划 函数式编程 Elixir

Docker容器中一定要避免的10件事

xcbeyond

Docker 避坑

架构师训练营——请简述 CAP 原理

WW

使用HSDB 查看jvm内存

引花眠

JDK1.8新特性(四):函数式接口

xcbeyond

新特性 函数式编程 JDK1.8 JDK1.8新特性

week7 总结 性能测试

Geek_z9dmvw

应届生求职面试真的有那么难吗

xcbeyond

面试 应届生

写一个 web 性能压测工具

WW

MyBatis几种好用的写法

Bruce Duan

MyBatis标签

记一次西安thoughtworks的面试经历

xcbeyond

面试 thoughtworks

分布式锁用 Redis 还是 Zookeeper?

xcbeyond

redis zookeeper 分布式锁

ARTS打卡 第8周

引花眠

ARTS 打卡计划

JDK1.8新特性(五):Stream,集合操作利器,让你好用到飞起来

xcbeyond

stream 集合 新特性 JDK1.8 JDK1.8新特性

技术革新产业变革新动能

CECBC

LeetCode 144. Binary Tree Preorder Traversal

liu_liu

算法 LeetCode

SpringBoot 使用 jasypt 对配置项进行加密

hungxy

Java springboot jasypt

MySQL 大表优化方案

Bruce Duan

MySQL优化

IDEA 插件: EasyCode 一键生成所需代码

Bruce Duan

idea插件 easycode 生成代码

架构师训练营作业 (第七周)

默默

MinIO 简介和搭建一个对象存储服务

耳东@Erdong

Minio store Object store

架构师训练营 -- 第七周学习总结

花花大脸猫

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章