最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

微软提出新 AI 框架 MWSS,假新闻识别率优于最先进的基准

  • 2020-04-17
  • 本文字数:1655 字

    阅读完需:约 5 分钟

微软提出新AI框架MWSS,假新闻识别率优于最先进的基准

不久前,微软和亚利桑那州立大学的研究人员在预印本平台 arxiv.org 上发表了一项研究论文,他们提出了一种人工智能框架: Multiple sources of Weak Social Supervision(MWSS),利用参与度和社交媒体信号来检测假新闻。他们声称,经过在真实数据集上训练和测试,该模型在假新闻早期检测方面的表现优于一些最先进的基准。


如果该系统的正确率真的如作者声称的那样,并投入生产,它将有助于阻断虚假和误导性信息的传播,这些信息涉及美国总统候选人和其他有争议的话题。布鲁金斯学会(Brookings Institute)在 2018 年进行的一项调查发现,57% 的美国成年人在 2018 年大选期间曾遇到假新闻,19% 的人认为假新闻影响了他们的投票决定。


该论文的共同作者解释说,学术文献中的许多假新闻分类器依赖的信号需要很长时间才能聚合,这使得它们不适用于假新闻的早期检测。此外,有些分类器仅仅依赖于信号,而这些信号容易受到有偏见或不真实的用户反馈的影响。


相比之下,他们的新系统从多个来源进行监督,包括用户和他们各自的社交活动。具体来说,它利用少量手动标签的数据和大量弱标签的数据(即带有大量噪声的数据),用于元学习人工智能框架中的联合训练。


一个名为 Label Weighting Network(LWN)的模块,对调节假新闻分类学习过程的弱标签的权重进行建模,将研究人员所指的内容作为一个实例——例如(新闻片段)以及标签作为“输入”。它为“表示对”输出一个代表重要性权重的值,该值决定了该实例在训练假新闻分类器时的影响。为了在不同的弱信号之间共享信息,共享特征提取器与 LWN 一起工作,来学习共同的表示方法,并使用函数将特征映射到不同的弱标签源。



微软人工智能框架与各种基准模型的性能对比图


微软研究人员利用开源的 FakeNewsNet 数据集对他们的系统进行了基准测试,该数据集包含新闻内容(包括正文等元属性),并带有来自事实核查网站 GossipCop 和 PolitiFact 的专家注释的标签,同时还包含了社交背景信息,如有关该新闻文章的推文。他们使用 13 个来源的语料库对系统进行增强,其中包括英国主流新闻媒体,如英国广播公司(BBC)和天空新闻(Sky News),以及俄罗斯新闻媒体的英文版,如 RT 和 Sputnik,内容大多与政治有关。


为了生成弱标签,研究人员测量了分享新闻的用户的情感评分,然后确定这些得分之间的差异,这样,情绪差异很大的文章就会被注释为假新闻。他们还生成了一组具有已知公众偏见的人群的数据,并根据用户的兴趣与这些人群的匹配程度来计算得分,其背后的理论是,有偏见的用户分享的新闻更有可能是假新闻。最后,他们根据社交媒体上的元信息对用户进行聚类,以此来衡量用户的可信度。这样一来,那些形成大型聚类的用户(这可能表明是僵尸网络或恶意活动)的用户就被认为可信度较低。


在测试中,研究人员表示,性能最好的模型结合了 Facebook 和 RoBERTA 自然语言处理算法,并针对干净和弱数据的组合进行了训练,在 GossipCop 和 PolitiFact 中检测出假新闻的正确率分别为 80% 和 82% 。


该团队计划在未来的工作中探索其他技术,如获得高质量的弱标签的标签校正方法。他们还希望对这个框架进行扩展,以考虑来自社交网络的其他类型的弱监督信号,利用参与的时间戳。


当然,这些研究人员并非唯一试图利用人工智能来阻断假新闻传播的人。


在最近的一项研究中,麻省理工学院计算机科学与人工智能实验室开发了一种人工智能系统,可以识别误导性的新闻文章。去年年底,Jigsaw 发布了 Assembler,这是一款为媒体机构提供的人工智能假新闻识别工具套件。AdVerif.ai 是一个软件即服务的平台,去年推出了 Beta 测试版,它分析文章中的错误信息、成人内容、恶意软件和其他有问题的内容,并交叉引用一个定期更新的数据库,其中包含数千条假新闻和合法新闻。就 Facebook 而言,它已经试验了部署人工智能工具来“识别账户和假新闻”。

作者简介:

Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2020/04/10/ai-training-helps-remote-controlled-buggy-negotiate-rugged-terrain/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-04-17 07:001422
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.2 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

来自大佬的洗礼!全网独家的SpringBoot核心文档,讲的太清晰了

做梦都在改BUG

Java Spring Boot

“变脸的秘密”!直播源码app开发技术特效功能的实现

山东布谷科技

源码剖析 APP开发 软件开发、 源码搭建 直播源码

探究核心技术&最佳实践,云原生OLAP论坛火热开启!

阿里云大数据AI技术

云原生

浅谈微服务异步解决方案

做梦都在改BUG

Java 微服务 异步

深入探究Flink:实时处理与批量处理的完美结合

xfgg

Java flink 6 月 优质更文活动

阿里P8现身说法,解密“架构”原理与实战笔记:从分布式到微服务

做梦都在改BUG

Java 架构 分布式 微服务

Jogger慢跑者链游系统开发NFT技术

薇電13242772558

NFT 链游

打造高可用的微服务架构:Spring Cloud 的优化与实践

xfgg

Java 微服务 SpringCloud 6 月 优质更文活动

百度离线资源治理

百度Geek说

数据库 大数据 离线 企业号 6 月 PK 榜 6 月 优质更文活动

什么是双机热备技术?华为和思科如何实现双机热备?

做梦都在改BUG

Java 网络 双机热备

深入了解mock.js,打造出类似真实数据的模拟数据

Apifox

程序员 前端 前端开发 API Mock

赋能生态合作 共话数字创新 | 2023开放原子全球开源峰会软硬协同开源分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 软硬协同开源

咸阳有没有等保测评机构?在哪里?怎么联系?

行云管家

等保 等保测评 等保测评机构 咸阳

让ChatGPT来写今年的高考作文,能得几分?

楚少AI

ChatGPT4 2023高考 ChatGPT写作

Openjob 1.0.2 重磅发布,新一代分布式任务调度框架

stelin

分布式架构 Java 分布式

2023世界人工智能大会“AI生成与垂直大语言模型”论坛重磅来袭!

NLP资深玩家

深度学习应用篇-计算机视觉-目标检测[4]:综述、边界框bounding box、锚框(Anchor box)、交并比、非极大值抑制NMS、SoftNMS

汀丶人工智能

人工智能 深度学习 计算机视觉 目标检测 6 月 优质更文活动

OpenHarmony 4.0 Beta1发布,邀您体验

OpenHarmony开发者

OpenHarmony

10分钟了解Kubernetes网络

俞凡

架构 Kubernetes 云原生

AI老师的作者:17岁的高中生,可能是你想要孩子成为的样子

无人之路

AI 教育 ChatGPT

深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍

汀丶人工智能

人工智能 深度学习 计算机视觉 图像分类 6 月 优质更文活动

等待还是转行?GitHub爆赞的10W字Java八股文,你没得选择

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

最强AIGC实战应用速成指南来了!14天掌握核心技术

飞桨PaddlePaddle

人工智能 深度学习 百度飞桨

来了解Amazon CodeWhisperer的强大吧

初学者

云计算 亚马逊 亚马逊云

Amazon CodeWhisperer代码提示体验本文带你了解

我叫于豆豆吖.

云计算 亚马逊 亚马逊云

【体验有奖】玩转 AIGC,函数计算 x 通义千问预体验,一键部署AI应用赢Airpods

Serverless Devs

函数计算FC AIGC

瞄准“量效”难题,百度营销创新推出大健康线索营销解决方案-医效通

说山水

2022百度ESG报告发布:年度答卷展现安全信任承诺

百度安全

问道价值互联网,区块链的下一个十年 | 2023开放原子全球开源峰会区块链分论坛即将启幕

开放原子开源基金会

区块链 开源 开放原子全球开源峰会

大厂面试必备!字节大佬刷Leetcode总结的算法笔记

做梦都在改BUG

Java 数据结构 算法 LeetCode

用户组是什么意思?怎么容易理解?有什么作用?

行云管家

运维 权限 用户组

微软提出新AI框架MWSS,假新闻识别率优于最先进的基准_AI&大模型_Kyle Wiggers_InfoQ精选文章