NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Foresight AI 创始人袁昌:搭建 3D 视觉数据平台,助推自动驾驶商业化

  • 2019-06-28
  • 本文字数:5946 字

    阅读完需:约 20 分钟

Foresight AI 创始人袁昌:搭建 3D 视觉数据平台,助推自动驾驶商业化

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


本期Robin.ly AI 专访特邀人工智能初创公司 Foresight AI 的创始人兼首席执行官袁昌博士分享他在计算机视觉领域的研究工作经历和创业历程。



袁昌博士在硅谷接受 Robin.ly 专访


Foresight AI 2017 年成立于美国硅谷,通过先进的计算机视觉和机器学习技术,开发全球规模的 3D 数据平台,为智能出租车、送货卡车和飞行汽车等新兴移动机器人提供软件和数据服务。袁昌于 2007 年在南加州大学计算机系获得博士学位,2001 年在清华大学计算机系获得学士学位。他在计算机视觉、机器学习和智能机器人领域具有 10 年以上的技术开发经验。此前,他曾任苹果公司特别项目组(Apple SPG)高级研究经理和亚马逊资深科学家。

1. 研究经历

Wenli:我们很高兴邀请到袁博士与我们分享他在计算机视觉方面的经历。您在清华大学读了本科,后来又申请了美国的博士研究项目。能简单回顾一下您的研究经历吗?


Chang Yuan:


我 2003 年开始在南加州大学读博士学位,博士期间我一直在学习计算机科学,主攻计算机视觉方向。在这个科学领域中,我们试图模仿大脑的工作原理,从图像和视频中推断出语义信息,当然还会分析最近出现的 LiDAR(激光扫描)数据。计算机视觉技术是一种以几何和语义的方式分析视觉媒介来理解世界的。我在四年之后毕业,先后加入了几个公司。我很高兴看到这个行业在近几年所取得了巨大进步,我也很乐意贡献自己的一份力量。


Wenli:在 2003 年,3D 电影还没有流行起来,计算机视觉也远不如现在这么火。您当时为何选择计算机视觉作为研究领域?最开始的时候又是怀着什么样的愿景?


Chang Yuan:


我在读大学的时候上了一门数字图像处理的课程,发现技术可以变得非常智能,可以识别人脸,还能重建视频中的世界。我对这些很感兴趣,决定把这个领域作为我的学习和研究领域,一做就做了 20 年。


我希望能通过这项技术来更好的了解世界,让机器为我们服务。比如自主式移动机器人,它们具有与人类一样的感知、决策能力,可以帮我们做很多事情,把我们从日常琐事中解放出来。人们对自动驾驶充满期待是因为它不仅仅能提升交通安全,还能解放我们的双手,利用通勤的时间做其他更有意义的事情,让我们的生活变得更美好。

2. 职业经历

Wenli:您正在让我们通常只能在电影中看到的场景变成现实,听上去很酷。您在博士毕业之后加入了夏普在美国的实验室,主要负责 3D 显示和移动传感技术。后来您又加入了亚马逊,参与了一些内部的初创项目,包括 Amazon Go。我在西雅图体验过一次,太不可思议了。


Chang Yuan:


没错,这就是结合了计算机视觉,机器学习,传感器融合,高度优化的硬件和 3D 摄像头所带来的神奇体验。Amazon Go 那样的体验在技术上其实很难实现,需要识别正确的产品事件(product event),也就是通过上方的摄像头将产品被从架子上拿下来的行为可以跟特定的某个顾客联系起来。我们要保证新技术的可靠性,保证优质的用户体验和相对低的成本。这样一来就节省了顾客排队的时间,这就是我刚才说的技术如何使我们的生活更美好。


Wenli: 离开亚马逊之后,您又在香港生活了几年,跟联想合作研发人面立体成像技术。后来您又加入了 Apple 的特别项目组。这段经历还是挺特别的,能跟我们分享一下吗?


Chang Yuan:


选择去香港工作是因为我和妻子想提前体验一下中国的工作环境,为将来会回国生活做准备。但后来 Apple 联系了我,他们的一个自动系统开发项目引起了我的兴趣,于是我就决定回到美国加入那个项目,帮忙构建核心技术和软件系统。我从这个项目中学到了很多东西,了解了自动系统的完整工作原理和技术瓶颈,比如决定机器人如何移动和如何做出反应实际上是非常困难的。这不单是计算机视觉的问题,而是通用人工智能问题。计算机视觉技术虽然在不断发展,但这项技术的发展其实是很容易预测的。然而即使发展到近乎完善的程度,也只能了解到世界是什么样子,事情是如何发展的,但最关键的问题是机器人如何做出运动决策。所以我认为这是自动驾驶汽车和移动机器人中最难,最具挑战性的问题。我觉得我有更好的方法来解决这个问题,就转而开始研究这个方向。


Wenli:您在过去十几年中一直在开发先进技术和领导团队打造尖端的产品。能否和我们分享一些计算机视觉发展过程中的里程碑?


Chang Yuan:


当然可以。计算机视觉的发展过程中有一些非常重要的里程碑。比如在 2001 年的时候,我们只能用一些性能差强人意网络摄像头拍摄视频。那个时候已经有了一个实时的人脸检测方法,叫做 AdaBoost,可以通过单个摄像头检测人脸。我错过了发布关于该技术的论文的那次会议,当时的报告人非常有名,是 Viola 和 Jones。他们现场演示了用摄像头识别钞票上的头像。那是 18 年前,当时还很少有人做现场演示,所以给我留下了很深刻的印象,也进一步激发了我对计算机视觉技术的兴趣。


随后,在消费者领域又出现了一些其他的产品,比如微软的 Kinect 相机,可以识别人脸,还能提供交互式 3D 游戏场景体验。后来诞生了可以利用定制的硬件进行实时交互的技术。之后出现了 DARPA Grand Challenge(无人车挑战赛)。接着就是 ImageNet,他们开发了一种深度学习方法来解决难度极高的图像识别问题。然后是 Amazon Go,这是定义环境中的另一个重要里程碑,能够使用计算机视觉和机器学习技术来打造新的用户体验。这也是亚马逊获得更好的购物体验的核心。比较近的就是我为 Apple Face ID 项目做出了贡献,使用非常小的 3D 相机来启用自然流畅的 3D 人脸识别,还可以生成表情符号。这些就是比较重大的里程碑,一切都是为了打造更好的用户体验。


Wenli:非常感谢您分享。我很好奇的是,您说在 Apple 工作的那段时间学到了很多东西,后来为什么又在 2017 年离开了苹果?


Chang Yuan:


Apple 是一家资源非常丰富的公司,也是一个比较理想的工作场所。回顾一下技术的发展过程,我们到现在都还不知道如何实现真正的自动驾驶,这是一个非常复杂的系统,很多问题还没有办法解决。所以在这种情况下,我认为像苹果公司和许多其他的大公司虽然打造了非常可靠的技术,但是对于攻克全新的问题和调整前进方向来说可能有点过于庞大和迟缓了,而小公司的灵活性更高。就好比豪华游轮和小船,游轮的资源很丰富,安全又舒适,但是小船可以在必要的时候快速转向或者调整速度。

3.ForesightAI 的优势和特点


Foresight AI 员工合影,来源:Foresight AI


Wenli:我知道 Foresight AI 是为自动驾驶汽车公司服务的 AI 平台。能不能用一两句话概括你们的特点?


Chang Yuan:


我们使用计算机视觉技术来捕捉和产生 3D 驾驶数据来解决运动规划问题。我们捕捉道路上的各种真实驾驶行为,让客户车辆在高仿真的方针环境中驾驶。我们以后可能还会提供认证服务,比如通过一系列真实的测试判断一辆车是否安全。


Wenli:提供认证就相当于拥有了行业标准。


Chang Yuan:


是的,不过现在提这个还为时过早。汽车行业是等级化非常明显的,我们正在努力为一级汽车 OEM 提供服务。目前我们与自动驾驶公司的合作就像与一群参加马拉松比赛的运动员合作,我们不知道他们什么时候能到达终点,但是有了我们的数据,他们就能像喝了红牛一样跑得更快,还能知道具体的速度和沿途路况。我们希望自己是行业发展的助推器,用我们的数据可以帮助公司更快的开发出自己的自动驾驶系统。


Wenli:您还提到了产品的市场匹配度。Foresight AI 的技术核心是应该是仿真吧?跟其他竞争对手,比如 Waymo 的 Carcraft 仿真软件相比,你们的优势和特点是什么?


Chang Yuan:


我们非常关注数据和衍生软件。仿真本身也是一项很大的工作,必须以分布式的方式运行大规模图像引擎。所以在资源有限的情况下,我们不做这方面的工作。我们是负责把所有数据和相关的智能软件作为插件导入仿真器。


应该说 Waymo 一直是领导者,我们做的东西跟 Waymo 的确比较相似,也跟他们学到了很多东西。我们会收集大量的驾驶场景数据,然后添加进仿真器中,这样就可以对车辆进行全面的测试和训练。我们有一定的技术优势,我们搜集数据的方式比较特殊,我不方便透漏太多。但总的来说就是可以使用比较廉价的传感器,准确的获取自动驾驶领域需要的 5 到 10 厘米分辨率的精确数据以及数百万个驾驶场景。我们非常注重快速的生成大量场景数据,然后将这些数据导入任何一个仿真器。


满足客户需求另一个很重要的前提是要知道谁是我们的客户。真正的客户其实是这些客户公司里面的研发工程师,他们需要各种各样数量庞大的数据。因此,我们的目标就是希望他们可以通过一个比较简短的流程就能访问我们的网站,获得他们想要的数据。

4. 中美自动驾驶技术发展对比

对比中、美两国自动驾驶的技术发展


Wenli:我知道你们在跟萨克拉门托市合作,搜集在市内运营的所有自动驾驶公司的高清路线图。我也知道你们在中国和美国都有客户。这两个国家的技术发展有什么相同点或者差别吗?


Chang Yuan:


大概有三点吧。第一个共同点是两国在 L4 和 L5 上都有比较大的投资,这个级别的无人驾驶研发仍然面临着很多难题。无人车的部署也遵循类似的流程,比如先是大巴专线,然后是机器人出租车专线,再到普通的机器人出租车和一般的客运车。整个过程可能需要十年甚至更长时间,不论是在中国还是在美国。


第二个共同点是来自两国的地区政府都想要了解这方面的进展。美国交通部收到了很多无人驾驶商业化的计划书,他们想知道研究大巴专线和自动驾驶汽车如何在城市实现商用以及城市应该如何应对。所以这是第二个市场,即智能交通的一部分。


我想再说说两国的差异。在美国和欧洲,ADAS 系统(高级驾驶员辅助系统)是非常普遍的,许多汽车都有,但是在中国还没有普及。不过近几年国内对安装 ADAS 的呼声越来越高,中国最近通过了一项法规,所有的商用车都要需要安装辅助驾驶和驾驶员监控系统。所以这个领域蕴含的巨大的机会,而相关的开发人员也都在与 Mobileye 竞争,想要研发更好的系统。



智能交通示意图,来源:Foresight AI


Wenli:在美国,无人驾驶汽车的商业化可能会面临很大的阻力,因为很多人的工作会受到影响。那么对中国来说类似的瓶颈是什么呢?有什么解决方案吗?


Chang Yuan:


不同国家的监管方式和程度是不一样的。在美国,人们的想法往往更加保守,希望把问题都解决再进行商业化。即便是先处理一个更容易的问题,比如推出无人卡车,仍然会面临来自司机工会的阻力。


我比较关心的是如何让人们了解这类系统的安全性,无论是辅助驾驶还是自动驾驶。Elon Mask 曾提出过一个非常有争议的观点,即 Tesla 的车已经有自动驾驶能力,这个说法其实是非常危险的。我非常不赞同。我觉得应该找到一种方法来明确定义一辆车的安全性,我们也在朝这个方向努力。


相比之下,中国的很多市政府则拥有更大的权力去推动新事物的发展。如果你想打造一辆能与基础设施沟通的车,直接花时间一个月时间把公路改造成带有传感器的智能道路就可以了,这在中国是完全可行的。我认为在中国,人们对在公共场合进行试验是比较包容的,这也就让中国的企业有机会尝试新技术新产品。不过中国的路况相对比较复杂,我们在美国搜集的驾驶场景不太适用于中国的道路,所以我们也会在中国的道路上搜集数据。


我们会重点在美国解决一些技术上的问题,比如搜集和处理数据。在中国的话,我们的合作伙伴会帮我们搜集数据,然后我们把软件作为一种服务来处理这些数据并生成真实世界的驾驶场景,用来训练中国的车辆。也就是说我们需要有不同的数据包,分别用于不同国家和地区。

5. 创业经历与公司展望

Wenli:大家都觉得 L4 和 L5 的无人车可能要到 2020 年才会商业化。所以我比较关心到商业化之前这段时间你们怎么维持公司的正常运营?


Chang Yuan:


最大的挑战是什么时间能发布产品。越快将可靠的机器人出租车队或大巴专线车队部署到现实世界,就越有可能在商业上取得成功。遗憾的是,Waymo 曾经承诺去年 12 月会部署完全无人驾驶的车队,但是没有做到,这也就意味着这其中的确存在很多棘手的问题,需要花更多时间去解决。所以我们希望扮演一个促进者的角色,帮助其他无人车公司尽快实现商业化,同时通过这种方式盈利。与此同时,我们也获得了关于无人驾驶系统的很多前沿信息。所以我们不仅仅可以提供数据,还可以提供这些信息,这样一来就更有价值了。


Wenli:跟大公司相比,在小公司除了能进行更多新的尝试之外,您现在还必须负责这家公司整体的运营。我也知道您很喜欢面对挑战,我想问问在创业的这段时间您都遇到过哪些困难?


Chang Yuan:


我有多年的技术管理者的经验,带领和管理过很多团队。我对这方面还是比较熟悉的。当然也有很多我需要去不断学习的地方。一个是如何在十秒的时间内向投资者传达出我们的愿景,讲一个好的故事,这是需要花时间慢慢练习的。第二个比较有挑战性的事情就是跟客户合作,这也是我之前没经历过的。目前我们的客户主要是大型汽车 OEM,都是一级或者二级的公司。我需要想办法在这些大公司中寻找合适的团队,成为帮助我们推动项目以及合同的倡导者。我们目前的市场匹配度还没有达到 100%,但是一直都在提高。


Wenli:我的最后一个问题是,您觉得未来三到五年,您和 Foresight AI 会有什么变化?


Chang Yuan:


我希望在五年内,所有级别的汽车公司都能成为我们的客户;所有公共部门,比如市政府,州政府,也会使用我们的数据和信息平台来评估自动驾驶汽车。比如我们会向加州的 DMV(机动车驾驶管理处)提供数据,如果你的车在加州 DMV 注册过,就可以通过 Foresight AI 的数据和软件获得安全评级。这是一方面。


另一方面是能为打造智能交通系统贡献自己的一份力量。比如分析车辆如何在路上行驶的?在城市的层面看,哪个部分是最拥挤的地区?如何改善这种情况?如何调整红灯的时长?如何设计停车场?很多方面都会用到我们的服务。例如,有一家名叫 ESRI 的公司,是世界上最好的 GIS(地理信息系统)公司。ESRI 创建于 50 年前,年收入为 11 亿美元。公司创始人是一对夫妇,Jack Dangermond 和他的妻子。他们没有依靠任何风险投资就把公司建立起来了,而且现在美国的所有政府部门都在使用他们的产品。这家公司就是这么强大,这么有影响力,也是我们的目标。


我们希望成为一个开放的数据和软件平台,让大家都能使用我们的服务来改善汽车运输,物流,政府,公共部门和其他行业的现状。这就是我们的愿景和目标——建立更多客户关系,拥有更多可持续发展的业务,并且吸引更多的人跟我们一起工作。我们正在与高精地图公司交流,希望能够在我们的平台中导入他们的地图。我们也在与一家做仿真的公司合作,打算将我们的数据放入他们的仿真器中。这样一来我们就可以为正在开发实时驾驶系统的大众客户提供服务,甚至能成为该行业中最重要,最独特的数据提供商,并与整个生态系统中的各个机构合作。


采访原文


Chang Yuan, Founder & CEO @ Foresight AI: Driving Our Autonomous Future with Data


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-06-28 08:004386
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 18.1 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

2023年最佳Aspera替代方案,选择适合的Aspera替代方案

镭速

号码隐私保护服务:保障亿万消费者的隐私安全

阿里云视频云

云计算

ChatGPT看技术发展趋势| 社区征文

智趣匠

人工智能 openai ChatGPT

新一代通信协议—— RSocket

老周聊架构

响应式编程 2月月更 rsocket

老生常谈React的diff算法原理-面试版

beifeng1996

前端 React

美团前端二面面试题

loveX001

JavaScript 前端

NLP 双数组字典树(double array trie) 基于darts-java改进,增加词性存储。

alexgaoyh

elasticsearch nlp darts-java 词性 double array trie

N皇后问题的回溯法实现

老王同学

c++ 八皇后 回溯法

见山,见路,见天地:OpenHarmony的开源共建攀登

脑极体

开源鸿蒙

如何快速理解事务隔离

Dinfan

数据库 innodb 事务隔离

前端常见vue面试题(必备)

bb_xiaxia1998

Vue 前端

一文深度解读音视频行业技术发展历程

阿里云视频云

云计算

前端经典面试题(有答案)

loveX001

JavaScript 前端

C++入门简单实例

老王同学

c++ 入门

Python:Excel自动化实践入门篇 乙【送图书活动继续】

eng八戒

Python Excel Python自动化办公

问:React的setState为什么是异步的?

beifeng1996

前端 React

浅析大促备战过程中出现的 fullGc,我们能做什么?

京东科技开发者

JVM 内存 GC java 企业号 3 月 PK 榜

YOLOv5全面解析教程⑤:计算mAP用到的Numpy函数详解

OneFlow

人工智能 深度学习

chianmaker交易初探

liwh1227

区块链 共识算法 联盟链架构

美团前端常见react面试题(附答案)

beifeng1996

前端 React

如何开发一个市值管理机器人?

加密先生

机器人开发

22道js输出顺序问题,你能做出几道

loveX001

JavaScript 前端

“堆内存持续占用高 且 ygc回收效果不佳” 排查处理实践

京东科技开发者

前端 堆内存 回收器 JavaScrip 企业号 3 月 PK 榜

前端必会react面试题

beifeng1996

前端 React

Vue的computed和watch的区别是什么?

bb_xiaxia1998

Vue 前端

一文看懂:近期不断 “狂飙” 的 ChatGPT | 社区征文

架构精进之路

ChatGPT

根据文本描述生成视频,Tune-A-Video 效果惊艳

Zilliz

计算机视觉

面试官:说说Event Loop事件循环、微任务、宏任务

loveX001

JavaScript 前端

一次线上OOM问题分析

艾小仙

Java OOM 问题排查 排查方法

ChatGPT 不仅是 AI 的成功,也是云计算的成功 | 社区征文

多颗糖

云计算 AI 云原生 ChatGPT

研发效能度量标准与实践

思码逸研发效能

研发效能

Foresight AI 创始人袁昌:搭建 3D 视觉数据平台,助推自动驾驶商业化_AI&大模型_Robin.ly_InfoQ精选文章