50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005874

评论

发布
暂无评论
发现更多内容

观测云产品更新 | 安全监测、监控器、管理、异常追踪、查看器等

观测云

产品迭代

如何使用极限网关实现 Elasticsearch 集群迁移至 Easysearch

极限实验室

elasticsearch Gateway 数据迁移 极限网关 easysearch

基于 eBPF 技术打造的 LightAPM 应用监控,效果如何

乘云数字DataBuff

监控 ebpf LightAPM

区块链Web3系统的开发费用

北京木奇科技有限公司

区块链开发 软件外包公司 web3开发

城市一张网,以数据之桥擎托未来

脑极体

AI

天润融通ZENAVA重磅发布:让AI成为客服和营销的核心生产力

天润融通

盈米基金与阿里云联合发布行业首个理财智能体评测集和投顾智能体模型

盈米AI开放平台

告别复杂代码!用Dify+Bright Data,可视化搭建高可靠AI数据抓取流水线

阿Q说代码

工作流 dify 亮数据

局域网聊天工具,一体化安全办公轻松管理

BeeWorks

即时通讯 IM 私有化部署

WPS 365联手小米芯片:守护百万研发文档安全,评审效率提速77%

极客天地

智慧化商品运营:数据科学与人类创意的完美融合

第七在线

CST软件抗反射超材料SRR涂层 --- 反射系数,反射率,相位, Floquet,THz

思茂信息

cst CST软件 CST Studio Suite

ClkLog埋点分析系统-私有化部署+轻量灵活

ClkLog

开源 鸿蒙 数据分析 埋点 用户画像

云栖2025 | 人工智能平台 PAI 年度发布

阿里云大数据AI技术

人工智能 阿里云 云栖大会 PAI

Parameter ‘**‘ not found. Available parameters are [0, 1, param1, param2]解决办法

刘大猫

人工智能 云计算 大数据 算法 物联网

AI 英语口语 APP 开发费用

北京木奇科技有限公司

软件外包公司 AI英语学习

Pi Network发布Linux节点并宣布协议版本23升级

股市老人

“他她它”深度体验:京东的“万能”工具箱,装进一个有趣的“灵魂”

Alter

出海社交 AI助手

鸿蒙应用开发从入门到实战(十五):线性布局案例

程序员潘Sir

鸿蒙 HarmonyOS

大数据-107 Flink Apache Flink 入门全解:流批一体的实时计算引擎 从起源到技术特点的全面解析

武子康

Java 大数据 flink spark 分布式

哈尔滨等保测评:新兴技术适配下的安全升级

等保测评

TiDB 生态效率神器:dbops 一键搞定 MySQL 部署,测试迁移再也不头疼

TiDB 社区干货传送门

MySQL 迁移

重复对象:媲美Figma旋转复制,让UI设计更出彩!

职场工具箱

效率工具 设计师 figma ui设计 在线设计工具

哈尔滨等保测评:核心知识与实践要点

等保测评

GPU 网络通信基础,Part 1(横向与纵向扩展;训练中的通信环节...)

Baihai IDP

AI gpu LLM GPU网络通信

让GPU更轻盈 让推理更流畅|焱融YRCache双异步技术激活AI新价值

焱融科技

AI 大模型 推理模型 KVCache

新闻速递丨Altair 与美国威奇托州立大学国家航空航天研究所签署战略备忘录,加速航空航天领域创新步伐

Altair RapidMiner

数字孪生 仿真 CAE hyperworks 航空航天

低代码“文档中心”全流程解析:从文件夹管理到文件共享

引迈信息

将AI全面融入零售全渠道流程,而非仅用于销售预测

第七在线

黑龙江二级等保:助力区域网络安全水平整体提升

等保测评

借助人工智能提升工作效率,打造自己的智能体工作流

测试人

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章