2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌 DeepMind 开源了 Aeneas,一个用于分析古代文本的 AI 模型

作者:Anthony Alford

  • 2025-08-17
    北京
  • 本文字数:1167 字

    阅读完需:约 4 分钟

大小:560.61K时长:03:11
谷歌DeepMind开源了Aeneas,一个用于分析古代文本的AI模型

谷歌DeepMind开源了Aeneas,这是一个用于理解古代铭文的生成式 AI 模型。Aeneas 能够处理文本和图像输入,并在修复受损铭文中缺失字符方面超越了其他最先进的模型。

 

Aeneas 旨在帮助历史学家进行碑文研究,即研究古代铭文。它有助于自动化几个关键任务:确定铭文的年代;识别铭文的起源地区;重建部分铭文;以及识别相似铭文,即具有相似词汇或措辞的铭文。Aeneas 使用多模态 transformer 架构作为其核心,每个任务都有专门的头部。在几个碑文任务的评估中,Aeneas 超越了最先进的 AI 模型和人类历史学家。当人类历史学家使用 Aeneas 作为这些相同任务的工具时,综合表现甚至更好。根据 DeepMind 的说法,

 

我们的模型也可以适应其他古代语言、文字和媒介,从纸莎草纸到硬币,扩展了其能力,以帮助在更广泛的历史证据中建立联系……这项工作是探索生成性 AI 如何帮助历史学家更好地识别和解释大规模相似之处的更广泛努力的一部分。我们希望这项研究能够惠及尽可能多的人,因此我们正在为研究人员、学生、教育工作者、博物馆专业人士等提供免费的 Aeneas 互动版本……

 

Aeneas 基于 DeepMind 的Ithaca项目构建,Ithaca 是一个纯文本模型,训练用于对古希腊文本进行碑文研究。Aeneas 增加了对图像输入的支持。Aeneas 还可以恢复未知数量缺失字符的铭文以及输出相似之处,这些是 Ithaca 所缺乏的。

 

为了训练模型,DeepMind 组装了拉丁铭文数据集(LED),一个包含 176,861 个铭文的语料库。他们从现有的源数据集开始,然后创建了一个“复杂的流程”来清理记录,并将它们合并为单一格式。这些数据包含从公元前 7 世纪到公元 8 世纪的铭文,来自从英国到美索不达米亚到罗马世界的各个地区。

 

为了评估其作为研究工具的有效性,DeepMind 与 23 位碑文专家开展了一项研究,这些专家在有时间限制的情况下使用 Aeneas“模拟现实世界的研究工作流程”。人类专家手动选择了相似的铭文,但通常也会至少包含一个由 Aeneas 建议的额外选项。一位研究人员声称:

 

Aeneas 检索到的相似之处完全改变了我对历史的关注……如果让我自己找这些文本,可能需要几天时间,而不是 15 分钟。如果我根据这些铭文的解读来进行历史解读,现在我将有几天的时间来撰写和构建研究问题,而不是寻找相似之处。

 

在 Hacker News 上关于Aeneas的讨论中,一位用户写道:

 

对我来说,这些只是基于现有信息的合理推测,因此无论何时使用这个工具,都需要加上免责声明。话虽如此,许多(古代)历史都是基于部分信息的合理推测。即使我们拥有大量可用的文字资料,比如西塞罗的作品,我们也必须承认,我们是从某个特定视角来看待这些事件的,而这个视角是由个人偏见和动机决定的。因此,我们试图根据存在一定“数据质量问题”的数据来推断历史上发生的事情。

 

Aeneas的代码可以在 GitHub 上找到。还有一个Aeneas互动演示网站

 

原文链接:

https://www.infoq.com/news/2025/08/google-deepmind-aeneas/

2025-08-17 16:006189

评论

发布
暂无评论

Android C/C++层hook和java层hook原理以及比较

云智慧AIOps社区

Java android 开发技能 hook

如何做好任务管理,手把手教你怎么做最高效的任务管理

阿里云云效

云计算 阿里云 云原生 研发团队 项目协作

以OceanBase为例,分析事务型评测基准对分布式数据库的适用性

OceanBase 数据库

分布式数据库 oceanbase

阿里云代码托管平台,不限容量,免费使用

阿里云云效

云计算 阿里云 代码管理 代码托管 阿里云代码托管

HLP分词后的文本如何在web端高亮显示

lo

前端 4月月更

物联网低代码平台常用《组件介绍》

AIRIOT

开发 物联网 平台搭建、

Serverless 让我们的运维更轻松

领创集团Advance Intelligence Group

#Serverless

博云 BeyondCMP 云管理平台 5.6 版本发布

BoCloud博云

云管理平台

Apache Doris (incubating) 1.0 Release 版本正式发布!

ApacheDoris

数据库 大数据 开源 OLAP apache doris

Java 操作 Office:POI word 之文档信息提取

程序员架构进阶

内容审核 4月日更 文档识别 4月月更

什么是代码加密?基于云效 Codeup的代码仓库加密是如何实现的

阿里云云效

云计算 阿里云 代码管理 Codeup 代码加密

TDesign 更新周报(2022 年 4 月第 3 周)

TDesign

国产化云平台如何实现多云管控,黄河云来“打样儿”

BoCloud博云

国产化 云管理平台

易周金融观点:遏制NFT金融化等打下监管良基

易观分析

NFT

豆瓣评分9.0,时隔6年,“Linux命令行圣经”新版终于来了!

图灵教育

Linux shell脚本编程

用css制作旋转的立方体

云智慧AIOps社区

CSS 前端 大前端 3D css特效

深圳助力建设全国「数据交易」大市场,「隐私计算」技术赋能数据要素安全流通

洞见科技

OceanBase 杨传辉参与数据库技术与应用发展研讨会

OceanBase 数据库

oceanbase

安全之花如何盛开在华为云空间的每个角落?

脑极体

【数据安全与流通专题】星环科技春季新品发布周

星环科技

书单 | “阿里云数字新基建”系列丛书全家福来啦!

博文视点Broadview

图数据库|正反向边的最终一致性——TOSS 介绍

NebulaGraph

图数据库 知识图谱

TASKCTL 连接不到服务器的4种情况

敏捷调度TASKCTL

分布式 调度引擎 ETL 自动化运维 调度任务

过去一周热点回顾|Hoo虎符研究院 区块链简报 20220418期

区块链前沿News

虎符交易所

优秀程序员的30种思维(29/100)

hackstoic

技术思维

【愚公系列】2022年04月 二十三种设计模式(零)-简单工厂模式(Simple Factory Pattern)

愚公搬代码

4月月更

火遍全网的MBTI人格测试,为什么会有那么多人相信?

小炮

MBTI

【ELT.ZIP】OpenHarmony啃论文俱乐部——浅析稀疏表示医学图像

ELT.ZIP

OpenHarmony 医学影像 稀疏矩阵 ELT.ZIP

高效进行接口测试,简单易懂!

Liam

测试 Jmeter Postman swagger 测试工具

移动端日历组件设计与实现

CRMEB

【ELT.ZIP】OpenHarmony啃论文俱乐部——这些小风景你不应该错过

ELT.ZIP

神经网络 OpenHarmony ELT.ZIP

谷歌DeepMind开源了Aeneas,一个用于分析古代文本的AI模型_Google_InfoQ精选文章