微软提出新AI框架MWSS，假新闻识别率优于最先进的基准_AI&大模型_Kyle Wiggers



 写点什么

不久前，微软和亚利桑那州立大学的研究人员在预印本平台 arxiv.org 上发表了一项研究论文，他们提出了一种人工智能框架： Multiple sources of Weak Social Supervision（MWSS），利用参与度和社交媒体信号来检测假新闻。他们声称，经过在真实数据集上训练和测试，该模型在假新闻早期检测方面的表现优于一些最先进的基准。

如果该系统的正确率真的如作者声称的那样，并投入生产，它将有助于阻断虚假和误导性信息的传播，这些信息涉及美国总统候选人和其他有争议的话题。布鲁金斯学会（Brookings Institute）在 2018 年进行的一项调查发现，57% 的美国成年人在 2018 年大选期间曾遇到假新闻，19% 的人认为假新闻影响了他们的投票决定。

该论文的共同作者解释说，学术文献中的许多假新闻分类器依赖的信号需要很长时间才能聚合，这使得它们不适用于假新闻的早期检测。此外，有些分类器仅仅依赖于信号，而这些信号容易受到有偏见或不真实的用户反馈的影响。

相比之下，他们的新系统从多个来源进行监督，包括用户和他们各自的社交活动。具体来说，它利用少量手动标签的数据和大量弱标签的数据（即带有大量噪声的数据），用于元学习人工智能框架中的联合训练。

一个名为 Label Weighting Network（LWN）的模块，对调节假新闻分类学习过程的弱标签的权重进行建模，将研究人员所指的内容作为一个实例——例如(新闻片段）以及标签作为“输入”。它为“表示对”输出一个代表重要性权重的值，该值决定了该实例在训练假新闻分类器时的影响。为了在不同的弱信号之间共享信息，共享特征提取器与 LWN 一起工作，来学习共同的表示方法，并使用函数将特征映射到不同的弱标签源。

微软人工智能框架与各种基准模型的性能对比图

微软研究人员利用开源的 FakeNewsNet 数据集对他们的系统进行了基准测试，该数据集包含新闻内容（包括正文等元属性），并带有来自事实核查网站 GossipCop 和 PolitiFact 的专家注释的标签，同时还包含了社交背景信息，如有关该新闻文章的推文。他们使用 13 个来源的语料库对系统进行增强，其中包括英国主流新闻媒体，如英国广播公司（BBC）和天空新闻（Sky News），以及俄罗斯新闻媒体的英文版，如 RT 和 Sputnik，内容大多与政治有关。

为了生成弱标签，研究人员测量了分享新闻的用户的情感评分，然后确定这些得分之间的差异，这样，情绪差异很大的文章就会被注释为假新闻。他们还生成了一组具有已知公众偏见的人群的数据，并根据用户的兴趣与这些人群的匹配程度来计算得分，其背后的理论是，有偏见的用户分享的新闻更有可能是假新闻。最后，他们根据社交媒体上的元信息对用户进行聚类，以此来衡量用户的可信度。这样一来，那些形成大型聚类的用户（这可能表明是僵尸网络或恶意活动）的用户就被认为可信度较低。

在测试中，研究人员表示，性能最好的模型结合了 Facebook 和 RoBERTA 自然语言处理算法，并针对干净和弱数据的组合进行了训练，在 GossipCop 和 PolitiFact 中检测出假新闻的正确率分别为 80% 和 82% 。

该团队计划在未来的工作中探索其他技术，如获得高质量的弱标签的标签校正方法。他们还希望对这个框架进行扩展，以考虑来自社交网络的其他类型的弱监督信号，利用参与的时间戳。

当然，这些研究人员并非唯一试图利用人工智能来阻断假新闻传播的人。

在最近的一项研究中，麻省理工学院计算机科学与人工智能实验室开发了一种人工智能系统，可以识别误导性的新闻文章。去年年底，Jigsaw 发布了 Assembler，这是一款为媒体机构提供的人工智能假新闻识别工具套件。AdVerif.ai 是一个软件即服务的平台，去年推出了 Beta 测试版，它分析文章中的错误信息、成人内容、恶意软件和其他有问题的内容，并交叉引用一个定期更新的数据库，其中包含数千条假新闻和合法新闻。就 Facebook 而言，它已经试验了部署人工智能工具来“识别账户和假新闻”。

作者简介：

Kyle Wiggers，技术记者，现居美国纽约市，为 VentureBeat 撰写有关人工智能的文章。

原文链接：

https://venturebeat.com/2020/04/10/ai-training-helps-remote-controlled-buggy-negotiate-rugged-terrain/

发布

暂无评论

创作场景

微软提出新 AI 框架 MWSS，假新闻识别率优于最先进的基准

作者简介：

评论

云效 MCP Server：AI 驱动的研发协作新范式

72小时AI生存挑战 After Party，喊你一起来玩儿！

上班摸鱼远程打游戏，哪款远控软件好用点？

阿里云 SLS 多云日志接入最佳实践：链路、成本与高可用性优化

阿里Java开发手册：编程规约、异常日志、单元测试、安全规约、MySQL 数据库、工程结构、设计规约！

闺蜜机行业市场销量涨超42%，小度科技持续领跑行业

Nacos源码—Nacos配置中心实现分析

历数Java虚拟机GC的种种缺点

什么是API安全

YashanDB 知识库|STATISTICS_LEVEL 设置为 ALL，性能掉到冰点?一条参数搞清楚根因

需求分析不好做？这门华为新课免费试听！

淘宝天猫商品列表API接口（附代码示例）

如何选择适合企业的财税自动化解决方案

为什么说企业办公最好使用私有化部署的im即时通讯？

BeeWorks企业即时通讯平台，支持国产化生态

什么是DDoS攻击？

AI工具如何一键生成图表？5个流行的图表生成软件盘点！

天翼云出席DCIC2025，“翼立方”创新力拉满！

从 OpenAPI 到 MCP：让企业 API 在 AI 助手中焕发新生

PMC必须要懂的四个关键流程：生产、库存、交期全过程解析！

破茧成蝶：阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代

突破Excel百万数据导出瓶颈：全链路优化实战指南

Ava：6 分钟语音聊天免费生成 MBTI 报告；字节发布图像理解与生成统一模型 Mogao丨日报

头部 ERP 厂商如何快速切入 AI 赛道？YMatrix 落地实录

Apollo 可观测性最佳实践

11.多用组合和少继承

连锁药店如何安全访问总部运营系统？贝锐花生壳带来解决方案

Nacos源码—Nacos配置中心实现分析（二）

越来越多企业为AI焦虑，联想的“超级智能体”来得正是时候

常见应用层DDoS攻击

uniapp跨平台开发HarmonyOS NEXT应用初体验

创作场景

微软提出新 AI 框架 MWSS，假新闻识别率优于最先进的基准

作者简介：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载