大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

Otter.ai 创始人 Sam Liang:智能记录你的生活对话

  • 2019-04-28
  • 本文字数:2836 字

    阅读完需:约 9 分钟

Otter.ai创始人Sam Liang:智能记录你的生活对话

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


本期 Robin.ly 创业专访邀请到语音识别和转录初创公司 Otter.ai 的 CEO 和创始人 Sam Liang(梁松)和大家分享他的创业经历和对自然语言处理的见解。


Sam Liang 于 2003 年取得斯坦福大学的电子工程博士学位,并曾经是谷歌地图定位服务的核心团队成员。他的第一家创业公司移动定位平台 Alohar 在 2013 年被阿里巴巴收购。

早年经历

Wenli: 您在斯坦福获得了电子工程的博士学位。入学的那一年,您的校友 Marc Randolph 创办了 Netflix。您有没有想过有一天也会像他一样成为一名企业家?


Sam Liang:我在斯坦福主要是从事软件方面的研究。我的导师是计算机科学领域的知名教授,叫 David Cheriton。他为 Larry Page 和 Sergey Brin 写了第一张十万美元的支票,帮助他们在 1997 年创办了谷歌。后来这十万美元变成了几十亿美元,造就了历史上最成功的天使投资之一。


刚去斯坦福的时候我并没有创业的念头,但接下来的几年在创业环境中受到熏陶,也开始有了创业的想法。于是毕业后我加入了一家创业公司,想要了解和学习创业公司是如何运作的,想着有一天能创办自己的公司。



Sam Liang 与导师 David Cheriton (图片来源:Sam Liang)


Wenli Zhou: 您曾经在 Google 担任过平台架构师。您觉得在 Google 的那几年最大成就是什么?


Sam Liang:我在 2006 年加入 Google,负责打造一个城域 WiFi 系统。那时候还没有 3G,使用移动设备连网十分困难。Google 决定在市内的路灯上安装路由器来提供 WiFi 服务,这也是我加入 Google 后参与的第一个项目。后来 Google 又推出了定位服务,我编写了这个项目的第一行代码,还设计了整体的架构。


2007 年,Steve Jobs 推出的第一款 iPhone 其实并没有任何 GPS 功能,于是我们最先为 iPhone 建立了定位服务,并得到了 Jobs 本人的肯定。当这款服务在旧金山推出时,乔布斯亲自在 iPhone 上进行了演示,而我在后台全程负责确保演示的顺利进行。这是一段很难忘的经历,对我后续的创业也很有帮助。



Sam Liang 在 Google Maps 时期 (图片来源:Sam Liang)

Otter.ai 的特点和优势

Wenli Zho:能介绍一下 Otter.ai 吗?它跟其他语音识别产品有什么差别?


Sam Liang:我们打造出 Otter.ai 只花了三年时间,这是一个基于人工智能和深度学习的语音识别产品。一开始很多人会好奇,已经有了 Siri 和 Alexa,我们为什么还要打造一个类似的产品。实际上,我们的产品有自己的特点,针对的是一个完全不同的市场,满足的是不同的需求。因为我们知道,用同样的产品跟那些大公司直接竞争几乎没有什么胜算。


多数人每天与 Siri 或者 Alexa 对话的次数和时间都很短,而市场上也没有记录和分析这些对话的工具。然而,谈话是人们日常沟通最常见的方式。如果有一种方式可以记录人们生活中的所有对话,是不是很有意思呢?比如如果我与风险投资人,潜在客户以及求职者的对话能够被记录下来,对我来说是很有帮助的。但最重要的是,人工智能可以分析对话的内容,并提供一些建议。这就是我们打造 Otter 的目的。


Otter 是一款可以在 iPhone 上使用的免费产品,也可以在浏览器上使用。不到一年前,我们推出了 Otter 的语音识别服务,随后这个产品很快流行起来,几个月前还被 Google 评选为 2018 年最佳应用程序。最近的一次 TechCrunch Disrupt San Francisco 大会也使用 Otter 作为整个会议的官方语音应用程序,实时转录所有演讲和谈话的文本,并在会场及通过直播进行展示。这是该会议的语音技术十几年来第一次得到更新。



Sam Liang 在 TechCrunch 大会 (图片来源:Sam Liang)


Otter 的 AI 技术包括语言识别和声音识别两部分。语言识别能够将歌曲和谈话转换为文本;声音识别,或说话人识别,能够识别是谁在说话。其中还包括了一个叫做人声分离(diarization)的技术。人声分离是一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音。


Wenli Zhou:目前语音识别的准确度是多少?您觉得这个技术将来还会有哪些应用?


Sam Liang:对于母语人士来说,准确率可能会达到 95%,如果背景噪音比较大就会低一些。


能够识别不同人的声音实际上可以帮助我们更好的理解对话。因为即使是相同的句子,不同的人想表达的意思很可能也不一样。通过查看历史记录就有可能理解同一个人的说话习惯,并分析出以后各种表达的真实含义。会议笔记之类的活动记录将来也可以由 Otter 或其他类似的 AI 系统完成。我们的所有语音记录都会加密保存,也可以有选择的进行分享。我们还可以通过关键词搜索历史记录,比如说话人的姓名和“自动驾驶汽车”这样的话题。

Otter 的主要合作伙伴

Wenli Zhou: 我知道 Otter 目前是 Zoom 的唯一合作伙伴,帮助他们转录所有的视频会议文本。你们现在还在跟其他企业合作吗?


Sam Liang:首先,Zoom 是一个很好的合作伙伴,他们专门授权我们的系统提供自动转录服务。Zoom 是目前世界上最热门的视频会议系统,实际上也是第一个提供自动语音识别,自动转录的会议系统——没错,不是 Google,不是微软,也不是 WebEx。所以这给我们的产品和服务质量加分不少。



Sam Liang 与 Zoom 创始人 Eric Yuan (图片来源:Sam Liang)


除了 Zoom,我们还有很多其他合作伙伴。其中一个可以公开介绍的是由 Ray Dalio 创建的桥水基金。它是世界上最大的孵化基金,管理着 1600 亿美元。Ray Dalio 非常提倡公司运作要保持较高的透明度。桥水基金记录了过去近 20 年的所有会议内容,在观看了我们的产品演示之后就决定使用 Otter 进行会议记录和分析。


我们还有一部分合作伙伴是大学。很多学生和老师用 Otter 记录讲义或教师会议。比如加州大学洛杉矶分校正在考虑开展一种针对国际学生的服务,帮助他们记录课堂笔记。实际上我早年来美国的时候也经常听不懂教授讲课,只能使用录音笔把整堂课录下来,课后还要反复听才能理解授课内容。有了 Otter 这样的工具,可以为留学生带来很多方便。

Otter 的发展前景

Wenli Zhou: Otter 在 2016 年从几家风险投资公司筹集了 A 轮融资。您会经常跟投资者沟通吗?他们会影响公司决策吗?


Sam Liang:我们经常跟投资者交流,比如 Tim Draper 和 Horizons Ventures。他们是打造了 AlphaGo 的 DeepMind 公司的早期投资者,也投资了 Waze 和 Spotify 这样的炙手可热的公司。



Sam Liang(右)与 Robin.ly 主持人 Wenli(左)


我们会跟投资者开诚布公的讨论,让他们充分了解我们的想法。他们通常相信我们会做出最好的决定,也会在适当的时候提供建议。他们对我们的技术,我们的团队和整个市场都充满信心。这些投资人往往经验丰富,能够对未来 5-10 年的市场状况做出合理的预测。这样的判断可以帮助我们提早行动,甚至赶在 Google,Amazon 和苹果等大公司意识到之前就抢占新市场。新的创业公司往往就是这么诞生的。当然,可能其中 99%最终都会失败,但幸存的那 1%就会变得非常成功。


查看原文链接https://www.robinly.info/blog/sam-liang-otter-ai


2019-04-28 08:0014823
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 20.2 次阅读, 收获喜欢 60 次。

关注

评论

发布
暂无评论
发现更多内容

五脏俱全,搭建部署多人语音厅源码功能分析

山东布谷网络科技

直播源码

JMeter 接口自动化测试的使用技巧

Liam

测试 Jmeter 性能测试 自动化测试 测试工具

ARTS打卡第一天

请务必优秀

私有化部署即时通讯平台,30分钟替换钉钉和企业微信

BeeWorks

智能窗帘展-2023广州国际智能晾衣架展会

秋硕展览

展会

2023年徐州等级保护测评公司还是只有一家吗?电话多少?

行云管家

等保 徐州

对话英特尔院士Tom Petersen:持续优化锐炫驱动,游戏性能强劲提升

E科讯

前端开发进阶:前端开发中如何高效渲染大数据量?

袋鼠云数栈

大数据 前端

私密信息管理工具 Vault 快速入门

极限实验室

加密 valut 安全工具

文心一言 VS 讯飞星火 VS chatgpt (80)-- 算法导论7.4 5题

福大大架构师每日一题

福大大架构师每日一题

PolygonStore,一款“业务驱动”而生的 NoSQL 多模数据库产品

TRaaS

如何使用NLP库解析Python中的文本

互联网工科生

Python nlp Transformer

Tongsuo 8.4.0-pre2 发布!

铜锁开源密码库

开源 密码学 版本更新 版本发布 铜锁

OpenHarmony应用实现二维码扫码识别

OpenHarmony开发者

OpenHarmony

链动2+1模式系统开发

张泽🐟APP小程序开发定制

商业模式 系统开发、 营销模式

利用 Databend 助力 CDH 分析 | 大参林

Databend

徐州堡垒机采购选择哪家?行云堡垒可以吗?

行云管家

网络安全 堡垒机 徐州

2023大健康博览会|2023广州国际健康产品展会

秋硕展览

App备案来袭,开发者如何应对选型

Onegun

混合应用开发 app备案

数字藏品NFT系统开发

张泽🐟APP小程序开发定制

区块链、 数字藏品开发

GaussDB技术解读系列:高级压缩之OLTP表压缩

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

铜锁 SM2 算法性能优化实践(三)|快速模逆元算法实现

铜锁开源密码库

开源 开发者 算法 性能优化 密码学

GPU荒漠,算力短缺背后的时间竞赛与解决方案|TE解读

TE智库

自带云盘的内网即时通讯软件,保障数据在公司局域网内安全流通

BeeWorks

Otter.ai创始人Sam Liang:智能记录你的生活对话_AI&大模型_Robin.ly_InfoQ精选文章