硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

谷歌 DeepMind 开源了 Aeneas,一个用于分析古代文本的 AI 模型

作者:Anthony Alford

  • 2025-08-17
    北京
  • 本文字数:1167 字

    阅读完需:约 4 分钟

大小:560.61K时长:03:11
谷歌DeepMind开源了Aeneas,一个用于分析古代文本的AI模型

谷歌DeepMind开源了Aeneas,这是一个用于理解古代铭文的生成式 AI 模型。Aeneas 能够处理文本和图像输入,并在修复受损铭文中缺失字符方面超越了其他最先进的模型。

 

Aeneas 旨在帮助历史学家进行碑文研究,即研究古代铭文。它有助于自动化几个关键任务:确定铭文的年代;识别铭文的起源地区;重建部分铭文;以及识别相似铭文,即具有相似词汇或措辞的铭文。Aeneas 使用多模态 transformer 架构作为其核心,每个任务都有专门的头部。在几个碑文任务的评估中,Aeneas 超越了最先进的 AI 模型和人类历史学家。当人类历史学家使用 Aeneas 作为这些相同任务的工具时,综合表现甚至更好。根据 DeepMind 的说法,

 

我们的模型也可以适应其他古代语言、文字和媒介,从纸莎草纸到硬币,扩展了其能力,以帮助在更广泛的历史证据中建立联系……这项工作是探索生成性 AI 如何帮助历史学家更好地识别和解释大规模相似之处的更广泛努力的一部分。我们希望这项研究能够惠及尽可能多的人,因此我们正在为研究人员、学生、教育工作者、博物馆专业人士等提供免费的 Aeneas 互动版本……

 

Aeneas 基于 DeepMind 的Ithaca项目构建,Ithaca 是一个纯文本模型,训练用于对古希腊文本进行碑文研究。Aeneas 增加了对图像输入的支持。Aeneas 还可以恢复未知数量缺失字符的铭文以及输出相似之处,这些是 Ithaca 所缺乏的。

 

为了训练模型,DeepMind 组装了拉丁铭文数据集(LED),一个包含 176,861 个铭文的语料库。他们从现有的源数据集开始,然后创建了一个“复杂的流程”来清理记录,并将它们合并为单一格式。这些数据包含从公元前 7 世纪到公元 8 世纪的铭文,来自从英国到美索不达米亚到罗马世界的各个地区。

 

为了评估其作为研究工具的有效性,DeepMind 与 23 位碑文专家开展了一项研究,这些专家在有时间限制的情况下使用 Aeneas“模拟现实世界的研究工作流程”。人类专家手动选择了相似的铭文,但通常也会至少包含一个由 Aeneas 建议的额外选项。一位研究人员声称:

 

Aeneas 检索到的相似之处完全改变了我对历史的关注……如果让我自己找这些文本,可能需要几天时间,而不是 15 分钟。如果我根据这些铭文的解读来进行历史解读,现在我将有几天的时间来撰写和构建研究问题,而不是寻找相似之处。

 

在 Hacker News 上关于Aeneas的讨论中,一位用户写道:

 

对我来说,这些只是基于现有信息的合理推测,因此无论何时使用这个工具,都需要加上免责声明。话虽如此,许多(古代)历史都是基于部分信息的合理推测。即使我们拥有大量可用的文字资料,比如西塞罗的作品,我们也必须承认,我们是从某个特定视角来看待这些事件的,而这个视角是由个人偏见和动机决定的。因此,我们试图根据存在一定“数据质量问题”的数据来推断历史上发生的事情。

 

Aeneas的代码可以在 GitHub 上找到。还有一个Aeneas互动演示网站

 

原文链接:

https://www.infoq.com/news/2025/08/google-deepmind-aeneas/

2025-08-17 16:006055

评论

发布
暂无评论
发现更多内容

Pencil 积分:打开 Pencils Protocol 生态权益大门的钥匙

石头财经

一文读懂 Pencil 积分,打开 Pencils Protocol 生态权益大门

BlockChain先知

一文读懂Pencils Protocol Valut的收益叙事:一鱼多吃

加密眼界

Pencils Protocol Valut 板块:实现杠杆挖矿收益&一鱼多吃

石头财经

大模型一体机是在“卖盒子”吗?

脑极体

AI

经验分享:春招零Offer,5月份还有机会吗?

王磊

Java 面试

仿真云技术的5个应用场景

3DCAT实时渲染

实时渲染 云仿真 仿真云

开源之夏又有新项目发布!快来认领!¥12,000 奖金等你来!

小猿姐

开源 开源项目

一文读懂Pencils Protocol Valut的收益叙事:一鱼多吃

股市老人

Intel HDSLB 高性能四层负载均衡器 — 快速入门和应用场景

云物互联

云计算 负载均衡 网络

今日分享丨从简单传输到大文件分片上传

inBuilder低代码平台

文件传输 传输工具

一文读懂Pencils Protocol Valut的收益叙事:一鱼多吃

BlockChain先知

一文读懂 Pencil 积分,打开 Pencils Protocol 生态权益大门

股市老人

如何通过ETL工具对数据进行去重

谷云科技RestCloud

数据处理 ETL 数据去重 ETLCloud

鸿蒙HarmonyOS实战-ArkUI组件(Canvas)

蜀道山

鸿蒙 架构 HarmonyOS 鸿蒙系统 鸿蒙 Ability

Databend 开源周报第 144 期

Databend

数据仓库

【IoTDB 线上小课 03】时序数据库 VS 实时数据库,区别是?

Apache IoTDB

[版本更新] PolarDB-X V2.4 列存引擎开源正式发布

阿里云数据库开源

数据库 阿里云 PolarDB-X

明道云HAP成功通过了AWS 的 FTR 认证

明道云

鸿蒙HarmonyOS实战-ArkUI动画(布局更新动画)

蜀道山

鸿蒙 架构 HarmonyOS 鸿蒙系统 鸿蒙 Ability

高并发-1-压力预估

Jxin

高并发 流量预测 容量规划

我是学生,申请加入!KubeBlocks 首次参与开源之夏,前沿技术、丰厚奖金、大牛导师等你来!

小猿姐

开源

AWS ECS On Fargate 监控可观测最佳实践

观测云

AWS

谷歌DeepMind开源了Aeneas,一个用于分析古代文本的AI模型_Google_InfoQ精选文章