
谷歌发布了一种名为 DolphinGemma 的新型人工智能模型,它可以帮助研究人员分析和解读海豚的声音。该项目是谷歌与野生海豚项目(Wild Dolphin Project,WDP)以及乔治亚理工学院研究人员持续合作的一部分,专注于识别大西洋斑点海豚自然交流中的模式。
DolphinGemma 基于谷歌的 Gemma 语言模型架构,并针对音频数据进行了专门调整。它使用 SoundStream 分词器将海豚的声音转换为机器可读的序列,使模型能够检测重复的模式并预测序列中可能出现的下一个声音。该模型大约 4 亿参数,足够小,可以在智能手机上本地运行,包括 WDP 在野外使用的谷歌 Pixel 设备。
WDP 已经编制了一份最全面的野生海豚行为和声音数据集,这些数据收集自近四十年的观察。该数据集包括与已知个体海豚、它们的社会关系以及观察到的行为相关联的音频和视频记录。研究者利用它发出一些类似海豚的声音,并将这些词汇与特地的物品联系起来(比如海藻、研究者的围巾)。
DolphinGemma 可以分析这些数据,帮助研究人员发现海豚自然交流中的隐藏结构和潜在含义。
除了分析自然交流外,DolphinGemma 还被整合到乔治亚理工学院开发的 CHAT(鲸类听觉增强遥测)系统中。CHAT 通过使用与海豚互动的物体(如海藻或研究者的围巾)相关联的合成哨声,实现了一种与海豚的基本符号互动。如果海豚模仿这些声音,研究人员可以将其解释为对物体的请求。
DolphinGemma 通过提高声音识别的准确性和响应速度来支持该系统,这两者在水下互动中至关重要。
该模型可以在最新的智能手机上运行,如谷歌 Pixel 9,减少了对定制硬件的需求。这简化了在野外条件下的部署,并有助于降低系统的成本和体积。手机的内置处理能力使 DolphinGemma 在实地考察中能够实时运行,协助研究人员追踪和响应海豚的叫声。
谷歌表示计划在 2025 年晚些时候将 DolphinGemma 作为开源模型发布。尽管该模型目前是基于大西洋斑点海豚的叫声进行训练的,但可以针对其他物种进行微调。这会支持更广泛的鲸类交流研究,实际应用将取决于每个物种是否有足够标注良好的数据集。
尽管该模型无法直接解读海豚交流的具体含义,但它可以帮助研究人员识别出一些结构特征,从而为后续研究提供方向。这一消息在人工智能研究界引起了广泛关注,许多人认为这可能是理解非人类交流的一个潜在转折点。
原文链接:
Google Introduces DolphinGemma to Support Dolphin Communication Research
评论