【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Otter.ai 创始人 Sam Liang:智能记录你的生活对话

  • 2019-04-28
  • 本文字数:2836 字

    阅读完需:约 9 分钟

Otter.ai创始人Sam Liang:智能记录你的生活对话

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


本期 Robin.ly 创业专访邀请到语音识别和转录初创公司 Otter.ai 的 CEO 和创始人 Sam Liang(梁松)和大家分享他的创业经历和对自然语言处理的见解。


Sam Liang 于 2003 年取得斯坦福大学的电子工程博士学位,并曾经是谷歌地图定位服务的核心团队成员。他的第一家创业公司移动定位平台 Alohar 在 2013 年被阿里巴巴收购。

早年经历

Wenli: 您在斯坦福获得了电子工程的博士学位。入学的那一年,您的校友 Marc Randolph 创办了 Netflix。您有没有想过有一天也会像他一样成为一名企业家?


Sam Liang:我在斯坦福主要是从事软件方面的研究。我的导师是计算机科学领域的知名教授,叫 David Cheriton。他为 Larry Page 和 Sergey Brin 写了第一张十万美元的支票,帮助他们在 1997 年创办了谷歌。后来这十万美元变成了几十亿美元,造就了历史上最成功的天使投资之一。


刚去斯坦福的时候我并没有创业的念头,但接下来的几年在创业环境中受到熏陶,也开始有了创业的想法。于是毕业后我加入了一家创业公司,想要了解和学习创业公司是如何运作的,想着有一天能创办自己的公司。



Sam Liang 与导师 David Cheriton (图片来源:Sam Liang)


Wenli Zhou: 您曾经在 Google 担任过平台架构师。您觉得在 Google 的那几年最大成就是什么?


Sam Liang:我在 2006 年加入 Google,负责打造一个城域 WiFi 系统。那时候还没有 3G,使用移动设备连网十分困难。Google 决定在市内的路灯上安装路由器来提供 WiFi 服务,这也是我加入 Google 后参与的第一个项目。后来 Google 又推出了定位服务,我编写了这个项目的第一行代码,还设计了整体的架构。


2007 年,Steve Jobs 推出的第一款 iPhone 其实并没有任何 GPS 功能,于是我们最先为 iPhone 建立了定位服务,并得到了 Jobs 本人的肯定。当这款服务在旧金山推出时,乔布斯亲自在 iPhone 上进行了演示,而我在后台全程负责确保演示的顺利进行。这是一段很难忘的经历,对我后续的创业也很有帮助。



Sam Liang 在 Google Maps 时期 (图片来源:Sam Liang)

Otter.ai 的特点和优势

Wenli Zho:能介绍一下 Otter.ai 吗?它跟其他语音识别产品有什么差别?


Sam Liang:我们打造出 Otter.ai 只花了三年时间,这是一个基于人工智能和深度学习的语音识别产品。一开始很多人会好奇,已经有了 Siri 和 Alexa,我们为什么还要打造一个类似的产品。实际上,我们的产品有自己的特点,针对的是一个完全不同的市场,满足的是不同的需求。因为我们知道,用同样的产品跟那些大公司直接竞争几乎没有什么胜算。


多数人每天与 Siri 或者 Alexa 对话的次数和时间都很短,而市场上也没有记录和分析这些对话的工具。然而,谈话是人们日常沟通最常见的方式。如果有一种方式可以记录人们生活中的所有对话,是不是很有意思呢?比如如果我与风险投资人,潜在客户以及求职者的对话能够被记录下来,对我来说是很有帮助的。但最重要的是,人工智能可以分析对话的内容,并提供一些建议。这就是我们打造 Otter 的目的。


Otter 是一款可以在 iPhone 上使用的免费产品,也可以在浏览器上使用。不到一年前,我们推出了 Otter 的语音识别服务,随后这个产品很快流行起来,几个月前还被 Google 评选为 2018 年最佳应用程序。最近的一次 TechCrunch Disrupt San Francisco 大会也使用 Otter 作为整个会议的官方语音应用程序,实时转录所有演讲和谈话的文本,并在会场及通过直播进行展示。这是该会议的语音技术十几年来第一次得到更新。



Sam Liang 在 TechCrunch 大会 (图片来源:Sam Liang)


Otter 的 AI 技术包括语言识别和声音识别两部分。语言识别能够将歌曲和谈话转换为文本;声音识别,或说话人识别,能够识别是谁在说话。其中还包括了一个叫做人声分离(diarization)的技术。人声分离是一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音。


Wenli Zhou:目前语音识别的准确度是多少?您觉得这个技术将来还会有哪些应用?


Sam Liang:对于母语人士来说,准确率可能会达到 95%,如果背景噪音比较大就会低一些。


能够识别不同人的声音实际上可以帮助我们更好的理解对话。因为即使是相同的句子,不同的人想表达的意思很可能也不一样。通过查看历史记录就有可能理解同一个人的说话习惯,并分析出以后各种表达的真实含义。会议笔记之类的活动记录将来也可以由 Otter 或其他类似的 AI 系统完成。我们的所有语音记录都会加密保存,也可以有选择的进行分享。我们还可以通过关键词搜索历史记录,比如说话人的姓名和“自动驾驶汽车”这样的话题。

Otter 的主要合作伙伴

Wenli Zhou: 我知道 Otter 目前是 Zoom 的唯一合作伙伴,帮助他们转录所有的视频会议文本。你们现在还在跟其他企业合作吗?


Sam Liang:首先,Zoom 是一个很好的合作伙伴,他们专门授权我们的系统提供自动转录服务。Zoom 是目前世界上最热门的视频会议系统,实际上也是第一个提供自动语音识别,自动转录的会议系统——没错,不是 Google,不是微软,也不是 WebEx。所以这给我们的产品和服务质量加分不少。



Sam Liang 与 Zoom 创始人 Eric Yuan (图片来源:Sam Liang)


除了 Zoom,我们还有很多其他合作伙伴。其中一个可以公开介绍的是由 Ray Dalio 创建的桥水基金。它是世界上最大的孵化基金,管理着 1600 亿美元。Ray Dalio 非常提倡公司运作要保持较高的透明度。桥水基金记录了过去近 20 年的所有会议内容,在观看了我们的产品演示之后就决定使用 Otter 进行会议记录和分析。


我们还有一部分合作伙伴是大学。很多学生和老师用 Otter 记录讲义或教师会议。比如加州大学洛杉矶分校正在考虑开展一种针对国际学生的服务,帮助他们记录课堂笔记。实际上我早年来美国的时候也经常听不懂教授讲课,只能使用录音笔把整堂课录下来,课后还要反复听才能理解授课内容。有了 Otter 这样的工具,可以为留学生带来很多方便。

Otter 的发展前景

Wenli Zhou: Otter 在 2016 年从几家风险投资公司筹集了 A 轮融资。您会经常跟投资者沟通吗?他们会影响公司决策吗?


Sam Liang:我们经常跟投资者交流,比如 Tim Draper 和 Horizons Ventures。他们是打造了 AlphaGo 的 DeepMind 公司的早期投资者,也投资了 Waze 和 Spotify 这样的炙手可热的公司。



Sam Liang(右)与 Robin.ly 主持人 Wenli(左)


我们会跟投资者开诚布公的讨论,让他们充分了解我们的想法。他们通常相信我们会做出最好的决定,也会在适当的时候提供建议。他们对我们的技术,我们的团队和整个市场都充满信心。这些投资人往往经验丰富,能够对未来 5-10 年的市场状况做出合理的预测。这样的判断可以帮助我们提早行动,甚至赶在 Google,Amazon 和苹果等大公司意识到之前就抢占新市场。新的创业公司往往就是这么诞生的。当然,可能其中 99%最终都会失败,但幸存的那 1%就会变得非常成功。


查看原文链接https://www.robinly.info/blog/sam-liang-otter-ai


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-04-28 08:0013606
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 18.1 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

什么是知识管理?知识管理的方法?

小炮

Seektiger DAO的共识增长计划,锁仓STI长线价值投资

股市老人

建站建设必备的资料是什么?

源字节1号

软件开发

怎样让智能电视更加智能

Geek_99967b

小程序 小程序容器 智能电视

Netty实战-实现内网穿透(一)

风斩断晚霞

Java Go Netty 内网穿透

JVM进阶(十九)——Class文件常量池

No Silver Bullet

JVM class 5月月更

面试突击51:为什么单例一定要加 volatile?

王磊

Java 面试

案例成果展 | 灵雀云助力中国人民银行清算总中心构建裸金属容器平台

York

灵雀云 容器 微服务 云原生

DNS解析过程

工程师日月

5月月更

Kubernetes Gateway API - 服务网络的演进

Flomesh

Kubernetes Gateway ingress

云端的 ABAP Restful 服务开发以及通过 abapGit 传输到其他系统的详细步骤

Jerry Wang

git SAP abap 5月月更 abapgit

什么是小程序运行时框架?

Geek_99967b

native 小程序容器 小程序开发

Go Web 编程入门:中间件

宇宙之一粟

中间件 Go web 5月月更

一款免费的排队叫号工具,居然有这么多功能,赶紧收藏起来!

天天预约

小程序 SaaS 工具分享 排队

LabVIEW操作鼠标滚轮放大/缩小图像

不脱发的程序猿

图像处理 LabVIEW 鼠标滚轮来放大和缩小图片

Flutter的特别之处

Geek_99967b

flutter 小程序开发

Linux环境显式使用动态库

Loken

音视频 5月月更

IM即时通讯为企业业务移动化带来了怎样的便利?

WorkPlus

确保 Kubernetes 安全合规的 6 个最佳实践

Rancher

Kubernetes k8s rancher

经典递归 - 青蛙跳台阶问题

芒果酱

递归 C语言 5月月更

企业上云,安全合规如何进阶 ——一文拆解亚马逊云科技云安全理念与实践

亚马逊云科技 (Amazon Web Services)

云安全 亚马逊云

打码打码Python爬虫,某省建筑市场请求地址参数分析,手慢无爬虫

梦想橡皮擦

5月月更

云原生数据库的下一次变革发生在哪里?

亚马逊云科技 (Amazon Web Services)

数据库 云原生

【高并发】优化加锁方式时竟然死锁了!!

冰河

并发编程 多线程 高并发 协程 异步编程

大咖说|Kubernetes自动伸缩实现方式深度讲解

云智慧AIOps社区

云计算 微服务 云原生 #Kubernetes#

开源生态|打造活力开源社区,共建开源新生态!

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

DataPipeline完成B+轮1.2亿元人民币融资,定义基于DataOps理念的下一代数据基础设施

DataPipeline数见科技

Docker下RabbitMQ四部曲之一:极速体验(单机和集群)

程序员欣宸

Java RabbitMQ 5月月更

刷新三项世界纪录!浪潮云ICP ARM架构获SPEC Cloud测试全球第一名

浪潮云

云计算

全栈、云原生的数据分析时代已来,我们如何抓住机会?

亚马逊云科技 (Amazon Web Services)

数据分析 云原生 全栈

LabVIEW虚拟数字示波器

不脱发的程序猿

数据采集 LabVIEW 虚拟示波器 信号发生VI

Otter.ai创始人Sam Liang:智能记录你的生活对话_AI&大模型_Robin.ly_InfoQ精选文章