【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

信息检索顶会 WSDM CUP 2023 揭榜,腾讯获两项任务冠军,成果基于混元 AI 大模型和太极机器学习平台实现

  • 2023-03-15
    北京
  • 本文字数:1626 字

    阅读完需:约 5 分钟

信息检索顶会WSDM CUP 2023揭榜,腾讯获两项任务冠军,成果基于混元AI大模型和太极机器学习平台实现

近日,信息检索领域国际顶级学术会议 WSDM(Web Search and Data Mining)宣布了 WSDM CUP 2023 竞赛成绩,来自腾讯的研究团队基于大模型预训练、搜索排序以及集成学习等技术上的突破,在无偏排序学习和互联网搜索预训练模型赛道上的两项任务中获得冠军。

  

ACM WSDM(Web Search and Data Mining) 会议是信息检索领域顶级会议之一,由 SIGIR、SIGKDD、SIGMOD 和 SIGWEB 四个专委会协调筹办,在互联网搜索、数据挖掘领域享有较高学术声誉。第 16 届 ACM 国际 WSDM 会议于 2023 年 2 月 27 日至 3 月 3 日在新加坡举行,论文的接收率为 17.8%。

 

WSDM Cup 由 WSDM 会议举办,本届 WSDM Cup 共计 400 余支队伍参加,分别来自中国、美国、新加坡、日本、印度等国家的知名高校和公司,大赛共设置三个赛道:无偏排序学习和互联网搜索预训练模型赛道(Unbiased Learning to Rank and Pre-training for Web Search)、跨语言连续体的多语言信息检索赛道(Multilingual Information Retrieval Across a Continuum of Languages)和视觉问答挑战赛道(Visual Question Answering Challenge)。

 

此次腾讯「参赛队名:腾讯机器学习平台部搜索团队(TMLPS)」参加了无偏排序学习和互联网搜索预训练模型赛道,并在该赛道的两项子任务中(Pre-training for Web Search 和 Unbiased Learning to Rank)获得冠军。

 

目前两项成果代码和论文均已发布到 Github 上(见:GitHub - lixsh6/Tencent_wsdm_cup2023

 

在深度学习领域,数据标注的质量对于模型的效果有着较为显著的影响,但是较高的标注数据成本一直是研究团队的阻碍之一,如何从技术上利用无标注的数据训练模型自然成为了成为学术界和工业界关注的热点。

 


论文:Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation

地址:https://arxiv.org/pdf/2302.13756.pdf

 


本次比赛,针对基于搜索的预训练任务(Pre-training for Web Search),腾讯团队通过大模型训练、用户行为特征去噪等方法,在点击日志上进行基于搜索排序的模型预训练,进而使模型有效地应用到下游相关性排序的检索任务。通过预训练、模型微调、集成学习等多方面的优化,在人工标注的相关性排序任务上取得了较大的领先优势。

 


论文:Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking

地址:https://arxiv.org/pdf/2302.13498.pdf

 

在本次比赛的另一赛道无偏排序学习任务(Unbiased Learning to Rank)中,团队通过深入挖掘点击日志信息,充分利用包括文档媒体类型、文档展示高度和点击后的滑屏次数等特征对文档相关性进行无偏估计,提出了一种能够集成多种偏置因素的多特征集成模型,有效地提升了搜索引擎中文档排序的效果。

 

据了解,夺冠团队的成果均基于腾讯混元 AI 大模型(下文简称“HunYuan”)和太极机器学习平台实现。目前,通过联合微信搜索团队,两项技术已经在微信搜一搜的多个场景落地相关技术,并取得了显著的效果提升。

 

AI 大模型(又称预训练模型)是指预先训练好,具有相对通用性的“一套算法”,具有“巨量数据、巨量算力、巨量模型”等特性。大模型通过学习样本数据的内在规律和表达层次,发展出接近、超越人类水平的“智能”,具备分析推理能力,能够识别文字、图像和声音等。

 

2022 年 4 月,腾讯首次对外披露 HunYuan 大模型研发进展。HunYuan 集 CV(计算机视觉)、NLP(自然语言理解)、多模态理解能力于一体,先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶,实现跨模态领域的大满贯。2022 年 5 月,在国际公认的 CLUE(中文语言理解评测集合)三个榜单同时登顶。近日,HunYuan 又迎来全新进展,推出国内首个低成本、可落地的 NLP 万亿大模型,并再次登顶 CLUE。

 

腾讯太极机器学习平台是集模型训练和在线推理于一身的高性能机器学习平台,具备万亿参数模型的训练和推理能力,为 AI 大模型预训练推理和应用落地提供了完整的端到端工程能力支撑,一站式解决算法工程师在 AI 应用过程中特征处理、模型训练、模型服务等工程问题。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-15 14:234257
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 495.1 次阅读, 收获喜欢 1968 次。

关注

评论

发布
暂无评论
发现更多内容

大数据调度平台Airflow(一):什么是Airflow

Lansonli

9月月更

网络入侵检测系统之Suricata(十)--ICMP实现详解

于顾而言

网络安全 suricata

网络入侵检测系统之Suricata(十三)--网络安全威胁及攻击手段总览

于顾而言

网络安全 suricata

【算法实践】分块查找知多少?手把手带你实现分块查找

迷彩

数据结构 算法 9月月更 分块查找 查找算法

网络入侵检测系统之Suricata(二)--运行模式及数据流图

于顾而言

网络安全 suricata

王者荣耀商城异地多活架构设计

张立奎

网络入侵检测系统之Suricata(七)--DDOS流量检测模型

于顾而言

网络安全 suricata

[Maven进阶]聚合和继承

十八岁讨厌编程

maven 后端开发 9月月更

一文带你快速入门【哈希表】

Fire_Shield

数据结构 哈希表 9月月更

SAP UI5 Form 表单 Column Layout 下的 Column 个数分配问题

Jerry Wang

JavaScript Fiori SAP UI5 ui5 9月月更

【Meetup预告】OpenMLDB+37手游:一键查收实时特征计算场景案例及进阶使用攻略

第四范式开发者社区

机器学习 数据库 实时计算 特征平台 特征工程

网络入侵检测系统之Suricata(四)--初始化模块代码详解

于顾而言

网络安全 suricata

网络入侵检测系统之Suricata(十四)--匹配流程

于顾而言

网络安全 suricata

网络入侵检测系统之Suricata(五)--Worker Model线程调度详解详解

于顾而言

网络安全 suricata

【云原生 | 从零开始学Docker】六、如何写出自己的镜像——Docker file

泡泡

Docker 云计算 容器 云原生 9月月更

网络入侵检测系统之Suricata(一)--概览

于顾而言

网络安全 suricata

2022-09-17:一个字符串s,表示仓库的墙 与 货物,其中‘|‘表示墙,‘*‘表示货物。 给定一个起始下标start和一个终止下标end, 找出子串中 被墙包裹的货物 数量。 比如: s = “

福大大架构师每日一题

算法 福大大

MyBatisPlus(四、代码生成器)

Mybatis-Plus 代码生成 9月月更

网络入侵检测系统之Suricata(六)--规则加载模块代码详解

于顾而言

网络安全 suricata

网络入侵检测系统之Suricata(十一)--TCP重组实现详解

于顾而言

网络安全 suricata

网络入侵检测系统之Suricata(十六)--类suricata/snort规则自动维护工具

于顾而言

网络安全 suricata

网络入侵检测系统之Suricata(九)--Storage实现详解

于顾而言

网络安全 suricata

网络入侵检测系统之Suricata(十二)--TCP重组优化

于顾而言

网络安全 suricata

「趣学前端」Taro实践+踩坑记录第一期

叶一一

taro 前端 框架 9月月更

【云原生 | 从零开始学Docker】七丶实战提交自己的镜像以及docker网络

泡泡

Docker 云计算 容器 云原生 9月月更

网络入侵检测系统之Suricata(八)--Option实现详解

于顾而言

网络安全 suricata

[Maven进阶]属性与版本管理

十八岁讨厌编程

maven 后端开发 9月月更

[极致用户体验] 微信设置大字号后,iOS加载网页时闪动怎么办?

HullQin

CSS JavaScript html 前端 9月月更

网络入侵检测系统之Suricata(三)--日志代码详解

于顾而言

网络安全 suricata

[Maven进阶]多环境配置与应用

十八岁讨厌编程

maven 后端开发 9月月更

网络入侵检测系统之Suricata(十五)--IPOnly/Radix Tree详解

于顾而言

网络安全 suricata

信息检索顶会WSDM CUP 2023揭榜,腾讯获两项任务冠军,成果基于混元AI大模型和太极机器学习平台实现_AI&大模型_刘燕_InfoQ精选文章