写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005938

评论

发布
暂无评论
发现更多内容

演讲案例|兆翔科技 x TiDB:利用TiDB 助力福建四大机场核心系统高效运营

TiDB 社区干货传送门

物流 / 交通

灵活使用YashanDB实现企业级数据权限管控

数据库砖家

国产化浪潮中如何评估一款国产数据库的真实实力

TiDB 社区干货传送门

技术趋势 国产化替代 TiDB第四届征文-运维开发之旅 TiDB第四届征文-业务场景实战

从 MySQL 到 TiDB:调研、测试、迁移、上线全流程实施方案

TiDB 社区干货传送门

MySQL 迁移

豫见 AI,聚力前行 | 北大明天正式成为和鲸科技河南省总代理

ModelWhale

AI 人工智能+ 科研智能一体机

平凯数据库(TiDB 企业版)敏捷模式数据库试用

TiDB 社区干货传送门

TEM 试用

利用YashanDB数据库构建企业的信息化管理系统

数据库砖家

离线部署tidb-8.5.3

TiDB 社区干货传送门

平凯数据库敏捷模式体验:助力电商行业实现降本增效

TiDB 社区干货传送门

版本测评 性能测评 敏捷模式

社区活动 | TiDB 社区第四届专栏征文大赛联合墨天轮开启,TiDB 业务场景实战、运维开发攻略两大赛道,BOSE 降噪耳机、大疆手持云台、投影仪、运动手环、礼品卡等重磅礼品等你来拿!

TiDB 社区干货传送门

社区活动

利用YashanDB数据库实现多维数据分析

数据库砖家

TiDB + AiOps,迈入智能运维新时代

TiDB 社区干货传送门

TiDB第四届征文-业务场景实战

平凯数据库(TiDB 企业版)敏捷模式在消防管理平台的实践评估报告

TiDB 社区干货传送门

敏捷模式

TEM on 腾讯云试用小结

TiDB 社区干货传送门

管理与运维 TEM 试用

我和 TiDB 的故事,是偶然也是一种必然

TiDB 社区干货传送门

TiDB第四届征文-运维开发之旅

一家“小而杂”的零售SaaS公司,为什么把数据库从 MySQL “搬”上平凯数据库(TiDB 企业版)敏捷模式?

TiDB 社区干货传送门

从 MySQL 到 TiDB:成本详解

TiDB 社区干货传送门

MySQL 迁移

TiDB 多列索引功能:以更快响应速度、最小化表扫描和流畅性能应对大规模场景

TiDB 社区干货传送门

性能调优

“凭什么说你比我先?”——没有上帝时钟,如何判断“谁先谁后”?

poemyang

分布式 分布式系统

关于 decimal 精度问题

TiDB 社区干货传送门

8.x 实践

平凯数据库(TiDB 企业版)敏捷模式部署测试

TiDB 社区干货传送门

利用YashanDB数据库构建稳定可靠的业务系统

数据库砖家

两种 TiDB 备份方案任你选择:NFS or S3(内含操作实践/备份/恢复)

TiDB 社区干货传送门

TiDB第四届征文-运维开发之旅 TiDB第四届征文-业务场景实战

TiDB MCP Server 实践和思考

TiDB 社区干货传送门

TiDB第四届征文-运维开发之旅

TiDB敏捷模式部署测试

TiDB 社区干货传送门

TEM 试用

# 学生视角下平凯数据库敏捷模式的学习与探索体验

TiDB 社区干货传送门

从 1 台服务器起步!TiDB 企业版敏捷模式试用:低成本享分布式数据库核心能力

TiDB 社区干货传送门

集群管理 TEM 试用 部署与初始化

利用YashanDB数据库实现数据生命周期管理最佳实践

数据库砖家

YashanDB在数据治理中的作用与效果评估

数据库砖家

TiDB集群运维管控试用

TiDB 社区干货传送门

TEM 试用

【TiDB 高可用实践】基于Haproxy+keepalived实现负载均衡

TiDB 社区干货传送门

TiDB第四届征文-运维开发之旅 TiDB第四届征文-业务场景实战

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章