写点什么

谷歌 DeepMind 开源了 Aeneas,一个用于分析古代文本的 AI 模型

作者:Anthony Alford

  • 2025-08-17
    北京
  • 本文字数:1167 字

    阅读完需:约 4 分钟

大小:560.61K时长:03:11
谷歌DeepMind开源了Aeneas,一个用于分析古代文本的AI模型

谷歌DeepMind开源了Aeneas,这是一个用于理解古代铭文的生成式 AI 模型。Aeneas 能够处理文本和图像输入,并在修复受损铭文中缺失字符方面超越了其他最先进的模型。

 

Aeneas 旨在帮助历史学家进行碑文研究,即研究古代铭文。它有助于自动化几个关键任务:确定铭文的年代;识别铭文的起源地区;重建部分铭文;以及识别相似铭文,即具有相似词汇或措辞的铭文。Aeneas 使用多模态 transformer 架构作为其核心,每个任务都有专门的头部。在几个碑文任务的评估中,Aeneas 超越了最先进的 AI 模型和人类历史学家。当人类历史学家使用 Aeneas 作为这些相同任务的工具时,综合表现甚至更好。根据 DeepMind 的说法,

 

我们的模型也可以适应其他古代语言、文字和媒介,从纸莎草纸到硬币,扩展了其能力,以帮助在更广泛的历史证据中建立联系……这项工作是探索生成性 AI 如何帮助历史学家更好地识别和解释大规模相似之处的更广泛努力的一部分。我们希望这项研究能够惠及尽可能多的人,因此我们正在为研究人员、学生、教育工作者、博物馆专业人士等提供免费的 Aeneas 互动版本……

 

Aeneas 基于 DeepMind 的Ithaca项目构建,Ithaca 是一个纯文本模型,训练用于对古希腊文本进行碑文研究。Aeneas 增加了对图像输入的支持。Aeneas 还可以恢复未知数量缺失字符的铭文以及输出相似之处,这些是 Ithaca 所缺乏的。

 

为了训练模型,DeepMind 组装了拉丁铭文数据集(LED),一个包含 176,861 个铭文的语料库。他们从现有的源数据集开始,然后创建了一个“复杂的流程”来清理记录,并将它们合并为单一格式。这些数据包含从公元前 7 世纪到公元 8 世纪的铭文,来自从英国到美索不达米亚到罗马世界的各个地区。

 

为了评估其作为研究工具的有效性,DeepMind 与 23 位碑文专家开展了一项研究,这些专家在有时间限制的情况下使用 Aeneas“模拟现实世界的研究工作流程”。人类专家手动选择了相似的铭文,但通常也会至少包含一个由 Aeneas 建议的额外选项。一位研究人员声称:

 

Aeneas 检索到的相似之处完全改变了我对历史的关注……如果让我自己找这些文本,可能需要几天时间,而不是 15 分钟。如果我根据这些铭文的解读来进行历史解读,现在我将有几天的时间来撰写和构建研究问题,而不是寻找相似之处。

 

在 Hacker News 上关于Aeneas的讨论中,一位用户写道:

 

对我来说,这些只是基于现有信息的合理推测,因此无论何时使用这个工具,都需要加上免责声明。话虽如此,许多(古代)历史都是基于部分信息的合理推测。即使我们拥有大量可用的文字资料,比如西塞罗的作品,我们也必须承认,我们是从某个特定视角来看待这些事件的,而这个视角是由个人偏见和动机决定的。因此,我们试图根据存在一定“数据质量问题”的数据来推断历史上发生的事情。

 

Aeneas的代码可以在 GitHub 上找到。还有一个Aeneas互动演示网站

 

原文链接:

https://www.infoq.com/news/2025/08/google-deepmind-aeneas/

2025-08-17 16:001

评论

发布
暂无评论
发现更多内容

成为Flask专家:利用蓝图实现功能模块化管理的关键路径

测吧(北京)科技有限公司

测试

Python教程:生成Excel并更改表头

霍格沃兹测试开发学社

Vue路由守卫:是破解安全漏洞的关键还是新的安全风险?

测吧(北京)科技有限公司

测试

万界星空科技MES系统在智能生产中的重要作用

万界星空科技

工业互联网 制造业 智能制造 mes 万界星空科技

助力客户效益增长近10倍!即构宝藏算法是如何做到的?

ZEGO即构

人工智能 AI 算法 直播技术 虚拟背景

Docker Kill/Pause/Unpause命令详细使用指南

霍格沃兹测试开发学社

如何快速运用iPaas与协议进行接口对接

RestCloud

ipaas 接口对接 协议对接

Python教程:如何向Word中添加表格

霍格沃兹测试开发学社

Flask蓝图与ORM技术:神奇的组合还是无用功?

测吧(北京)科技有限公司

测试

Axios拦截器:优化前后端交互的利器还是纸老虎?

测吧(北京)科技有限公司

测试

看你能解锁哪些新身份?OpenHarmony大使、MVP、金码达人在线申报

OpenHarmony开发者

云手机为企业出海提供多元化解决方案

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

架构实战营 - 模块三作业

满心

架构实战营

Python如何接收键盘按键

霍格沃兹测试开发学社

使用Python爬取豆瓣电影影评:从数据收集到情感分析

霍格沃兹测试开发学社

最全参赛指南!2024 年(第 17 届)中国大学生计算机设计大赛大数据主题赛现已开赛

ModelWhale

大数据 数据分析 交叉学科 中国大学生计算机设计大赛 乡村发展

低代码开发与数据可视化

不在线第一只蜗牛

低代码 数据可视化

云手机在海外电商中的应用优势

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机

1688API接口推荐:1688口令转换真实链接接口 审核中

tbapi

1688API接口 1688口令接口 1688淘口令接口

海外社交营销为什么用云手机?不用普通手机?

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

直播预约丨《袋鼠云大数据实操指南》No.1:从理论到实践,离线开发全流程解析

袋鼠云数栈

大数据 离线开发 离线开发离线计算 数据实操

探索ORM技术:如何轻松管理数据库并提高操作效率?

测吧(北京)科技有限公司

测试

打造安全壁垒:JWT鉴权提升应用的访问安全性

测吧(北京)科技有限公司

测试

Axios拦截器:是前端优化的利器还是不可忽视的安全漏洞源?

测吧(北京)科技有限公司

测试

安全护卫联手:JWT鉴权与Vue路由守卫,确保敏感资源访问权限完全掌控

测吧(北京)科技有限公司

测试

阿里云 SelectDB 联合 DTS ,一键实现 TP 数据实时入仓

SelectDB

大数据 阿里云 云数据库 数据迁移 #数据库

谷歌DeepMind开源了Aeneas,一个用于分析古代文本的AI模型_Google_InfoQ精选文章