写点什么

动物语言翻译器,是打着 AI 幌子的伪需求?

  • 2022-09-11
    北京
  • 本文字数:1998 字

    阅读完需:约 7 分钟

动物语言翻译器,是打着AI幌子的伪需求?

早在 2013 年时,就有国外动物行为专家表示,未来 5 到 10 年间,动物语言翻译器或将面市,人类与动物沟通从此不成问题。据记者调查发现,目前手机 APP 和网购平台上已有多款动物语言翻译器 APP,其中更是有付费产品,售价可达 388 元。


远在非洲南部的津巴布韦的一位程序员 Ege Kuzubasioglu,就造出了一款可以听懂猫叫的 App,并通过该 App 赚取了百万津巴布韦元。以下,就是 Ege 和他的 App 的故事:


这个故事要从那个“企业家”老兄在领英上给这位程序员发的信息开始说起。


“你只管编程吧,兄弟,我给你 20%的股份,只要你给我做一个能自动驾驶我的车的应用......”


Ege Kuzubasioglu 拒绝异想天开先生的慷慨提议之前,他暗暗下定决心,有一天要做出一个听起来很时髦的应用,而且它不会涉及区块链技术,或 NFT 之类的东西(可能 Ege Kuzubasioglu 还不知道 NFT 到底是个啥)。

 

情人节来临之前,Ege Kuzubasioglu 的女朋友给他发消息询问:


“如果你能为我做一个情人节的应用,岂不是很酷?”


这听起来是个非常棒的主意,原因有二;第一,这样他就用不上发愁礼物的事儿了,第二,他终于可以做前面要做的那个应用了。


Ege Kuzubasioglu 有一只猫咪叫做 Gilbert,它什么都挺好的,就是喵喵叫得太厉害了......真的非常烦人。因为 Gilbert 太能叫了,Ege 只好翻阅以前的机器学习笔记,然后做了一个应用来理解它到底在说什么。这是一个能把喵星人语言翻译成英语的应用。

超级复杂的机器学习内容

Ege 认为,要想翻译猫的语言,首先你应该能分辨出一段声音是否是猫的叫声。听起来很合乎逻辑对不对?为此 Ege 设计了一个非常复杂的深度学习算法,可以分辨出各种声音——开个玩笑。其实他只是用了华为技术公司ML套件中的声音检测器。它可以检测出多达 12 种不同的声音,其中之一就是猫叫。

于是 Ege 认为通过上面的声音检测器,就可以区分出喵喵叫和放屁声了,那么接下来该怎么办?在下面这个阶段,Ege 需要一堆猫叫声的样本,还要有附带的注释标注对应的猫行为类型。


在这个阶段,Ege 沿用了 Yagya Raj Pandeya 和 Joonwhoan Lee 所做的工作,《使用迁移学习分类家猫叫声》。当它们说话时,内容几乎都是与特定情况或行为相关的。

 

  • 饿了

  • 想玩/想打猎/想出门

  • 恼火/有危险

  • 困了

  • 快乐/舒适

  • 饥渴

  • 愤怒

 

既然已经有了分类好的行为,现在是时候收集一些样本了。好消息是有很多人在猫叫的时候录了下来,坏消息是 Ege 的 Youtube 历史上有了一大堆这样的搜索记录:


“性感的猫叫声——1 小时高质量”



也许有人会好奇,不过上面就是性感的猫叫声的频谱图像。

 

Ege 把所有原始的样本数据收集成 MP3 格式后,就该把它与 Gilbert 发出的声音做对比了。请记住,因为这个应用是专门针对 Gilbert 的,所以所有用到的数据都来自 1 岁的公猫。

 

在这个阶段,Ege 必须将应用记录的声音与样本数据做比较,并决定它属于哪种猫叫声类型。


现在有了 Gilbert 的原始音频和用于预训练的样本,是时候对比音频频谱,找出它属于 7 种行为中的哪一种了。为此,Ege 使用了一个从谷歌的音频分析器分叉出来的分析器。

Ege 知道它是哪种类型的猫叫声后,就从行为列表中随机显示一段话。比方说,叫声对应的行为类型是“饥饿”,而当时的时间是在中午 12 点之前,这种情况下可能会看到应用显示一句话:“我饿了,把我的早餐给我!”

应用

这个应用叫 WDGS,意思是“Gilbert 在说什么?”,Ege 表示还不打算将这个应用开源,因为它仍处于学习阶段:ML 套件的声音检测器是不稳定的,代码也写得很粗糙,所以它看起来像意大利面条……

 

是的,这就是 Ege 在空闲时间制作的应用。

资源

https://developer.huawei.com/consumer/en/hms/huawei-mlkit

https://www.ijfis.org/journal/view.html?uid=827&&vmd=Full

https://github.com/bewantbe/audio-analyzer-for-android

https://developer.android.google.cn/jetpack/compose?hl=en

猫狗语言翻译并非新鲜事


狗语翻译器其实并不是新事物,它最早是由日本玩具制造商 Takara 公司在 2001 年 8 月推出的,因其能够翻译“狗语”给人们带来欢乐,获得了 2002 年度的“搞笑诺贝尔奖”。


2013 年,一个名为北欧发明与发现协会(NCID)的团体在 Indiegogo 上为一款名为“No More Woof”的宠物狗穿戴设备发起众筹活动,这款设备可以通过分析小狗在情绪变动时的想法,并经过电脑分析后处理成人类可以理解的语音。不过这个项目最终在 2017 年流产,团队负责人 NCID 曾表示:“我们花了两年多时间,在我们的空闲时间及没有薪水的情况下参与到这个项目中,但这事实证明这仅仅是一个梦想。”


但其实,一些专门训练宠物的驯犬师认为,当人类与猫和狗这类宠物相处时间久了,自然能通过他们的行为猜测到宠物们的意图,也能“听懂”他们所表达的情绪,况且每个宠物表达情绪的方式也不尽相同,与其这样耗时耗力开发出一款应用弄清楚宠物们到底在“说”什么,不如花些时间陪伴。

 

参考链接:


https://www.sohu.com/a/335429112_161795


https://medium.com/@egek92/how-i-made-an-app-that-translates-cat-sounds-to-human-language-9c40c487a2d4

2022-09-11 20:222623
用户头像
李冬梅 加V:busulishang4668

发布了 578 篇内容, 共 214.3 次阅读, 收获喜欢 752 次。

关注

评论

发布
暂无评论
发现更多内容

设计消息队列存储消息数据的 MySQL 表格

胡颖

Redis持久化策略——AOF

蝉沐风

redis 持久化 aof

Android Lottie 中秋月饼变明月动画特效

阿策小和尚

28天写作 Android 小菜鸟 12月日更

「如何从0到1实现一个基于vite的前端基础库👾」

速冻鱼

前端 Node 签约计划第二季 12月日更

你不得不掌握的前端提交规范(git cz)

你好bk

JavaScript 前端 代码注释 代码规范 12月日更

解决:standard_init_linux.go:219: exec user process caused

liuzhen007

28天写作 12月日更

在线将JS/JavaScript-Object转JSON工具

入门小站

工具

【分布式技术专题】「分布式ID系列」百度开源的分布式高性能的唯一ID生成器UidGenerator

洛神灬殇

唯一ID 12月日更 UidGenerator 服务ID 百度技术

团队基建系列 - 组织知识传承 5 底层逻辑

搬砖的周狮傅

团队 团队成长

RPC学习笔记

风翱

RPC 12月日更

设计模式【5】-- 原型模式

秦怀杂货店

Java 编程 设计模式 原型模式

想象与实践的过程

Nydia

设计电商秒杀系统

Rabbit

中小型研发团队的一种考核思路

wood

团队管理 28天写作 研发考核

Helm 快速入门

xcbeyond

Helm 28天写作 12月日更

9.《重学 JAVA》-- 控制语句(一)

杨鹏Geek

Java 25 周年 28天写作 12月日更

hmily学习笔记

风翱

12月日更 Hmily

.NET内存管理必备知识

喵叔

28天写作 12月日更

[Pulsar] Batch message的确认

Zike Yang

Apache Pulsar 12月日更

Maven进阶(四):Maven 常用命令

No Silver Bullet

maven 12月日更

Redis 实战:巧用 Bitmap 实现亿级数据统计

码哥字节

redis BitMap 签约计划第二季

zookeeper的数据同步是如何完成的?

卢卡多多

zookeeper 28天写作 12月日更

聊聊今天 log4j 的大瓜

Justin

漏洞 闲聊 28天写作

Prometheus Exporter (二十二)Infiniband Exporter

耳东@Erdong

Prometheus 28天写作 exporter 12月日更 Infiniband

升级你的高手秘籍,在找到规律的同时,你需要把时间整个明白。

叶小鍵

给弟弟的信第9封|初入职场攻略

大菠萝

28天写作

Eureka基础

李子捌

微服务 28天写作 12月日更

《PyTorch 深度学习实战》复习5

IT蜗壳-Tango

28天写作 12月日更

你只认识大众汽车的车标怎么能行?赶紧用python采集所有车标学习一下

梦想橡皮擦

12月日更

Java代理设计模式(Proxy)的四种具体实现:静态代理和动态代理

Jerry Wang

Java 设计模式 代理模式 28天写作 12月日更

100+行业大牛,Qcon全球软件开发者大会参会记录

看点代码再上班

技术 互联网 软件开发 Qcon

动物语言翻译器,是打着AI幌子的伪需求?_文化 & 方法_李冬梅_InfoQ精选文章