时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

谷歌推出 DolphinGemma:探索海豚语言的 AI 工具

作者:Robert Krzaczyński

  • 2025-05-18
    北京
  • 本文字数:969 字

    阅读完需:约 3 分钟

大小:472.02K时长:02:41
谷歌推出 DolphinGemma:探索海豚语言的 AI 工具

谷歌发布了一种名为 DolphinGemma 的新型人工智能模型,它可以帮助研究人员分析和解读海豚的声音。该项目是谷歌与野生海豚项目(Wild Dolphin Project,WDP)以及乔治亚理工学院研究人员持续合作的一部分,专注于识别大西洋斑点海豚自然交流中的模式。


DolphinGemma 基于谷歌的 Gemma 语言模型架构,并针对音频数据进行了专门调整。它使用 SoundStream 分词器将海豚的声音转换为机器可读的序列,使模型能够检测重复的模式并预测序列中可能出现的下一个声音。该模型大约 4 亿参数,足够小,可以在智能手机上本地运行,包括 WDP 在野外使用的谷歌 Pixel 设备。


WDP 已经编制了一份最全面的野生海豚行为和声音数据集,这些数据收集自近四十年的观察。该数据集包括与已知个体海豚、它们的社会关系以及观察到的行为相关联的音频和视频记录。研究者利用它发出一些类似海豚的声音,并将这些词汇与特地的物品联系起来(比如海藻、研究者的围巾)。


DolphinGemma 可以分析这些数据,帮助研究人员发现海豚自然交流中的隐藏结构和潜在含义。


除了分析自然交流外,DolphinGemma 还被整合到乔治亚理工学院开发的 CHAT(鲸类听觉增强遥测)系统中。CHAT 通过使用与海豚互动的物体(如海藻或研究者的围巾)相关联的合成哨声,实现了一种与海豚的基本符号互动。如果海豚模仿这些声音,研究人员可以将其解释为对物体的请求。


DolphinGemma 通过提高声音识别的准确性和响应速度来支持该系统,这两者在水下互动中至关重要。

该模型可以在最新的智能手机上运行,如谷歌 Pixel 9,减少了对定制硬件的需求。这简化了在野外条件下的部署,并有助于降低系统的成本和体积。手机的内置处理能力使 DolphinGemma 在实地考察中能够实时运行,协助研究人员追踪和响应海豚的叫声。


谷歌表示计划在 2025 年晚些时候将 DolphinGemma 作为开源模型发布。尽管该模型目前是基于大西洋斑点海豚的叫声进行训练的,但可以针对其他物种进行微调。这会支持更广泛的鲸类交流研究,实际应用将取决于每个物种是否有足够标注良好的数据集。


尽管该模型无法直接解读海豚交流的具体含义,但它可以帮助研究人员识别出一些结构特征,从而为后续研究提供方向。这一消息在人工智能研究界引起了广泛关注,许多人认为这可能是理解非人类交流的一个潜在转折点。


原文链接:

Google Introduces DolphinGemma to Support Dolphin Communication Research

2025-05-18 13:004079

评论

发布
暂无评论

走出回归测试困境,爱奇艺精准测试体系建设

爱奇艺技术产品团队

测试 开发 精准测试 i技术会

Drools 基础语法

LeifChen

drools 规则引擎 8月日更

JVM运行时数据区域

W🌥

Java JVM 8月日更

闭关修炼21天,“啃完”283页pdf,我终于4面拿下字节跳动offer

Java 程序员 面试 计算机

Spring

ltc

spring

更智能更高效,区块链打造更美服装行业

CECBC

浅谈云上攻防——对象存储服务访问策略评估机制研究

腾讯安全云鼎实验室

云原生 对象存储 数据安全 云上安全攻防

抢占风口,赢得先机——中国PaaS市场风口深度分析

海比研究院

云太多了怎么管?你需要一个中立开放的云管平台

BeeWorks

基于 Web 端的屏幕共享实践

ZEGO即构

大前端 音视频 web端屏幕共享

linux服务器网络编程之线程模型

Linux服务器开发

reactor 线程模型 Linux服务器开发 Linux网络编程 服务器模型

如何查看github和gitee评论消息

Albert

GitHub

无服务框架-OpenFaas

QiLab

投资ipfs挖矿有风险吗?投资ipfs挖矿要多少钱?

投资ipfs挖矿有风险吗 投资ipfs挖矿要多少钱

实时音视频,是一门好的ToB生意吗?

ToB行业头条

中国如何应对中美科技博弈?

石云升

科技革命 8月日更 启发 中美博弈

音频技术及行业的发展

声网

音频技术

极客星球|基于加权DBSCAN的工作地居住地计算方法

MobTech袤博科技

为什么VR视频的清晰度不高?

爱奇艺技术产品团队

编码 vr 编解码 8k 解码

决定论:区块链的哲学

CECBC

开源应用中心 | 快来一键体验,这款仅有400KB的开源博客程序!

开源

HarmonyOS学习路之开发篇—— Java UI框架(组件与布局说明)

爱吃土豆丝的打工人

HarmonyOS 布局与组件 java UI

教你用python爬虫下载1w+『ppt模板』,再也不用付费去购买啦!

Python研究者

8月日更

Dubbo No provider问题排查思路

捉虫大师

dubbo no provider

JavaScript 正则表达式的 5 个方法

devpoint

regex match 8月日更

mPaaS 月度小报|为采购而生,全新资源包上架;前端 2D 游戏化互动入门指南

蚂蚁集团移动开发平台 mPaaS

mPaaS 小程序市场

智能合约系统开发|智能合约DAPP搭建

Geek_23f0c3

DeFi去中心化系统开发 DAPP智能合约交易系统开发

夯实基础,踏步云升 | 云原生 DevOps 入门必读

CODING DevOps

DevOps 云原生 CODING

云原生的数据云,下一个十年的数字化转型趋势

星环科技

数字化转型 云数据库

信息过载,加班无度的时代,我们需要「洞穴空间」

非著名程序员

个人成长 提升认知 思维 8月日更

在云中进行灾难恢复的5种有效方式

云计算

谷歌推出 DolphinGemma:探索海豚语言的 AI 工具_自然语言处理_InfoQ精选文章