谷歌推出 DolphinGemma：探索海豚语言的 AI 工具_自然语言处理_InfoQ精选文章



大小：472.02K时长：02:41

谷歌推出 DolphinGemma：探索海豚语言的 AI 工具

谷歌发布了一种名为 DolphinGemma 的新型人工智能模型，它可以帮助研究人员分析和解读海豚的声音。该项目是谷歌与野生海豚项目（Wild Dolphin Project，WDP）以及乔治亚理工学院研究人员持续合作的一部分，专注于识别大西洋斑点海豚自然交流中的模式。

DolphinGemma 基于谷歌的 Gemma 语言模型架构，并针对音频数据进行了专门调整。它使用 SoundStream 分词器将海豚的声音转换为机器可读的序列，使模型能够检测重复的模式并预测序列中可能出现的下一个声音。该模型大约 4 亿参数，足够小，可以在智能手机上本地运行，包括 WDP 在野外使用的谷歌 Pixel 设备。

WDP 已经编制了一份最全面的野生海豚行为和声音数据集，这些数据收集自近四十年的观察。该数据集包括与已知个体海豚、它们的社会关系以及观察到的行为相关联的音频和视频记录。研究者利用它发出一些类似海豚的声音，并将这些词汇与特地的物品联系起来（比如海藻、研究者的围巾）。

DolphinGemma 可以分析这些数据，帮助研究人员发现海豚自然交流中的隐藏结构和潜在含义。

除了分析自然交流外，DolphinGemma 还被整合到乔治亚理工学院开发的 CHAT（鲸类听觉增强遥测）系统中。CHAT 通过使用与海豚互动的物体（如海藻或研究者的围巾）相关联的合成哨声，实现了一种与海豚的基本符号互动。如果海豚模仿这些声音，研究人员可以将其解释为对物体的请求。

DolphinGemma 通过提高声音识别的准确性和响应速度来支持该系统，这两者在水下互动中至关重要。

该模型可以在最新的智能手机上运行，如谷歌 Pixel 9，减少了对定制硬件的需求。这简化了在野外条件下的部署，并有助于降低系统的成本和体积。手机的内置处理能力使 DolphinGemma 在实地考察中能够实时运行，协助研究人员追踪和响应海豚的叫声。

谷歌表示计划在 2025 年晚些时候将 DolphinGemma 作为开源模型发布。尽管该模型目前是基于大西洋斑点海豚的叫声进行训练的，但可以针对其他物种进行微调。这会支持更广泛的鲸类交流研究，实际应用将取决于每个物种是否有足够标注良好的数据集。

尽管该模型无法直接解读海豚交流的具体含义，但它可以帮助研究人员识别出一些结构特征，从而为后续研究提供方向。这一消息在人工智能研究界引起了广泛关注，许多人认为这可能是理解非人类交流的一个潜在转折点。

原文链接：

Google Introduces DolphinGemma to Support Dolphin Communication Research

评论

发布

暂无评论

Go编程(一) 怎么写Go代码

编程开发 Go 语言

比曲婉婷云尽孝更可怕的是：2020年，低收入家庭仍然在被收割

心理学教育培训维权曲婉婷

点对点音视频应用场景及优势

anyRTC开发者

音视频 WebRTC 直播 RTC 安卓

倒计时！Pulsar Summit Asia 2020 演讲征集

开源云原生 pulsar Apache Pulsar 消息中间件

Go编程(二) 多线程简单斗地主

编程开发 Go 语言

一篇文章搞定 Nginx 反向代理与负载均衡

哈喽沃德先生

nginx 负载均衡反向代理服务器正向代理与反向代理

Spring 5 中文解析数据存储篇-JDBC数据存储(下)

java安全编码指南之:异常处理

程序那些事

java安全编码 java安全 java安全编码指南

DàYé玩转数据战略Step By Step

曲水流觞TechRill

数据中台数字化

初学源码之——Spring IOC 应用

Java架构师迁哥

2020年行摄回忆录(上)

穿过生命散发芬芳

国庆假期快来了，打开8天长假的正确方式是...

老胡爱分享

读书书籍推荐随笔杂谈

奈学：Java 和 JavaScript 是什么关系？

聊一下《技术力量-一线技术团队成功启示录》

中台研发管理

JAVA集合之ConcurrentHashMap

Java JAVA集合

架构1期第三周作业二

极客大学架构师训练营

Java源码系列1——ArrayList

超超不会飞

图解 K8S 源码 - Deployment Controller 篇

Kubernetes Kubernetes源码

奈学：Java 和 JavaScript 是什么关系？

浅谈滴滴需求响应式公交背后的技术

滴滴技术创新公交路径优化

看看别人是怎么面试蚂蚁金服的！社招Java面经分享

Java架构师迁哥

Java 阿里巴巴面试蚂蚁金服

linux 文件权限控制

linux 文件权限控制 acl

甲方日常 24

工作随笔杂谈日常

不一样的面向对象（三）

php 面向对象面向对象编程

数据挖掘技术在轨迹数据上的应用实践

人工智能数据挖掘滴滴技术轨道技术创新公交

2020面试阿里字节跳动90%被问到的JVM面试题附答案

Java架构师迁哥

一次注定失败的裸面

ruby 程序员面试面经

融云技术分享：基于WebRTC的实时音视频首帧显示时间优化实践

音视频即时通讯实时通信

10多家公司的Java开发面试常见问题合集

Java架构师迁哥

信息公交服务在滴滴的应用实践

滴滴技术人工只能信息公交路径优化

StreamNative 宣布开源 MoP：Apache Pulsar 支持原生 MQTT 协议

开源云原生 mqtt Apache Pulsar 消息中间件