对抗铺天盖地的假新闻，MIT开发AI检测系统自动识别虚假消息_AI&大模型_Kyle Wiggers

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

互联网时代，假新闻铺天盖地，而且极具迷惑性，Facebook 一度深陷虚假新闻的泥淖，不但被控影响了美国总统大选结果，甚至引发了德国政府的巨额罚款。我们不禁想到，能否利用人工智能强大的能力，来对抗假新闻呢？麻省理工学院计算机科学与人工智能实验室就为此做出了尝试。

假新闻是一种威胁，假新闻的大致定义为，通过传统媒体或社交媒体故意散布虚假信息的一种宣传。皮尤研究中心（Pew Research Center）在 2016 年 12 月的一项调查显示，有 23% 的美国成年人有意无意地与朋友和其他人分享过假新闻。研究显示，假新闻已经开始削弱公众对主要电视和报纸媒体的信任。Monmouth University 的一项调查显示，77% 的受访者称，他们认为媒体报道的全都是假新闻。在一个特别令人震惊的例子中，关于华盛顿特区一家披萨店的一则不真实的报道（但像病毒一样广为传播），导致在一项 1244 人参与的民意调查中，有 9% 的美国选民表示，他们认为前国务卿 Hillary Clinton 与一个儿童色情团伙有牵连。

为了引起人们对这一问题的关注，最近，麻省理工学院计算机科学与人工智能实验室（Computer Science and Artificial Intelligence Laboratory，CSAIL）的研究人员调查了所谓的假新闻探测器被真实文章愚弄的方式。与这项工作同时进行的是，同一个团队还使用了世界上最大的事实核查数据集之一来开发能够检测虚假陈述的自动化系统。

它是建立在麻省理工学院计算机科学与人工智能实验室去年进行的一项研究的基础上，该研究开发了一种人工智能系统，可以判断消息来源是准确的，还是带有政治偏见的。

研究人员的两篇预印论文中的第一篇《我们安全了吗？假新闻检测中分布特征的局限性》（Are We Safe Yet? The Limitations of Distributional Features for Fake News Detection），描述了基于 OpenAI 的 GPT-2 的框架，这是一种人工智能模型，他们在将人工书写的文本提供给假新闻探测器之前，先用人工智能模型“破坏”这个文本的含义。在一次实验中，他们利用类似于可靠来源的自动完成工具来生成有关合法新闻的信息。生成器（Generator）提供了一个有关 NASA 如何收集日冕物质抛射数据的报道，并就这些数据如何帮助科学家研究地球磁场发表了翔实且正确的解释。尽管如此，它还是被识别为“假新闻”，这表明，如果假新闻探测器是机器生成的，它就无法区分真假文本。

该研究的贡献者、麻省理工学院教授 Regina Barzilay 表示：“我们的这一发现对当前分类器的可信度提出了质疑，这些分类器被用来帮助检测其他新闻来源中的错误信息方面。”

在第二篇论文《经过去偏的事实核查模型的探讨》（Towards Debiasing Fact Verification Models）中，该团队获取了事实提取和验证（Fact Extraction and VERification，FEVER），这是一个虚假陈诉的存储库，与 Wikipedia 的文章中的证据进行交叉核查，以开发出一种同类最佳的事实检查算法。

问题在于，接受过 FEVER 训练的系统往往侧重于陈述的语言，而不考虑外部证据。（例如，像“Adam Lambert does not publicly hide his homosexuality”（亚当·兰伯特并没有公开隐藏自己的同性恋身份）这样的陈述，即使是真正的事实，并且可以从语料库中推断出来，它也有可能被事实核查人工智能判定为假新闻。当目标语句包含的信息在今天是正确的，但在将来却有可能被认为是错误的信息，这种影响会加剧。

为解决这一问题，合著者创建了一个数据集来消除 FEVER 的偏见，但此举并没有完全解决这一难题。模型在无偏评估集上表现不佳，研究人员将这一结果归因于这些模型过度依赖于它们最初接触到的偏见。最终的解决方案是设计一种全新的算法：当在经过去偏的数据集上进行训练时，该算法在所有指标上的表现都优于之前的事实核查 AI。

该团队希望将事实核查和现有防御相结合，使模型对抵御攻击的能力更加健壮。未来，他们希望能够通过开发新的算法和构建涵盖更多类型错误信息的数据集来进一步改进现有模型。

他们并不是唯一试图与人工智能对抗假新闻转播的人。总部位于印度德里的初创公司 MetaFact 利用自然语言处理算法来标记新闻报道和社交媒体帖子中的错误信息和偏见。AdVerif.ai 是一个软件即服务的平台，去年发布了测试版，它用于分析错误信息、裸体、恶意软件和其他有问题的内容，并交叉引用一个定期更新的数据库，其中包含数以千计的虚假和合法的新闻条目。就 Facebook 而言，它已经尝试部署人工智能工具来“识别账户和假新闻”。

无论最终的解决方案是人工智能、人类管理还是两者兼而有之，都不可能很快就会实现。Gartner 预测，如果目前的趋势持续下去的话，到 2022 年，发达国家的大多数人将会看到更多的虚假信息，而不是真实信息。

作者介绍

Kyle Wiggers 居住在美国纽约市，是 VentureBeat 的人工智能专栏作者。

原文链接：

https://venturebeat.com/2019/10/15/mit-csail-fights-fake-news-with-ai/

发布

暂无评论

创作场景

对抗铺天盖地的假新闻，MIT 开发 AI 检测系统自动识别虚假消息

作者介绍

评论

万字心路历程：从十年老架构决定重构开始

原理剖析：AutoMQ 如何基于裸设备实现高性能的 WAL

技术领导力之路 - 正反馈

【稳定性】从项目风险管理角度探讨系统稳定性

月活超 1.1 亿，用户超 4 亿，你也在用的「知乎」是如何在超大规模 TiDB 集群上玩转多云多活的？

GPU云服务器与自建GPU服务器的对比

港美股招商一手票方是什么？

稳定性方法论：可灰度 & 可监控 & 可回滚

京东流水线——满足你对工作流编排的一切幻想

企业异地组网的挑战与解决方案

异地组网有哪些实现方式？为什么要选择SD-WAN？

微隔离，做到真正零信任

不再等待直接上答案，百度智能云推出数据库 Copilot

MYSQL 同步到ES 如何设计架构保持一致性

金三银四 | 测试开发岗求职攻略来袭，快来抢先一步！

绕过 MVCC 影响的 TiDB Delete 数据方法

TiKV 状态变化

外包服务 | 从人员外包到测试工具、测试平台，提供全方位的测试解决方案~

AI力量：如何让测试更智能更高效

OPPO案例 | Alluxio在Data&AI湖仓一体的实践

ETL的全量和增量模式

创作场景

对抗铺天盖地的假新闻，MIT 开发 AI 检测系统自动识别虚假消息

作者介绍

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载