【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

自动驾驶领域中的图像分割应用

  • 2019-10-15
  • 本文字数:1826 字

    阅读完需:约 6 分钟

自动驾驶领域中的图像分割应用


通勤是我们日常生活的一个重要组成部分,而其中包括的车辆驾驶问题一直是人工智能的热门话题。本文我们就谈谈自动驾驶中的图像分割应用,主要介绍了基于视觉系统的自动驾驶问题,并给出常见的三种模式。在此基础上,分析了应用于自动驾驶领域的一些图像分割方法和其对应的实验结果。

介绍

相对于机器人视觉而言,自动驾驶问题所需要输出的决策相对简单——速度和转角。当前,基于视觉的自动驾驶算法大致有如下图所示的三种模式:间接感知(MP)、行为反射(BR)和直接感知(DP)。



常见基于视觉的自动驾驶模式(图片来源于参考文献 1)


间接感知方法通常会利用多种与驾驶相关的目标来判断车辆所处的环境,比如指示线、路标、路灯、其他车辆、行人等统一的路况判断依据。基于这种方法的自动驾驶系统会在作出判断之前,考虑所有捕获到的信息,也就意味着所有的细节都会被考虑进去。尽管这样做看起来面面俱到,但是对于算法的要求很高,否则各种小细节的引入会增加决策的难度。


行为反射方法直接将传感器获取到的信息映射成驾驶行为。在训练过程中,自动驾驶系统记录沿途的图像和司机的操作转角作为训练数据。这种方法虽然简洁,但是要适应复杂的路况和因人而异的驾驶习惯,难度还是很大的。


直接感知方法是介于前两种方法之间,既非理解整个场景,也非完全不加分析地直接映射。这种方法只学习场景内的重要路况,比如车辆相对于路面的角度、车辆到指示线的距离,以及车辆距离当前车道内和相邻车道内其他车辆的距离。



直接感知方法示意图(图片来源于参考文献 1)


基于纯视觉图像分割的自动驾驶

基于图像分割方法实现自动驾驶的方式可以有很多。比如可以直接从图像入手,分析场景内所有或部分的语义信息,根据不同语义给出不同的反馈;也可以通过分割提取图像内的可解释信息,区分出可驾驶的路面和不可驾驶的路面,从而作出驾驶决策。


对基于纯视觉方法的自动驾驶分辨技术,图像分割的精度是决定自动驾驶效果的重要因素。为了提高图像分割的精度,除了有三 AI(公众号)《图像分割模型》专栏中介绍的常用模型及改进方式外,还可以利用不同类别标注间的关系来全局约束分割结果。


如下图所示,CMSMR 网络结构利用多标签共同学习、协同优化的方式,实现了高分辨率图像下的图像分割。



DMSMR 网络结构(图片来源于参考文献 2)



单条前向排序优化网络(图片来源于参考文献 2)


除了车载设备获取的路面信息外,这种方式也可以利用到遥感图像上。如下图所示,实现遥感图像下的道路分割不仅有助于车辆的自动驾驶,也有助于道路规划、交通疏导等宏观规划问题的解决。



自动驾驶相关遥感图片下的图像分割(图片来源于参考文献 2)


基于多传感器融合的自动驾驶

除了单纯利用车上的视觉系统外,也可以结合车上搭载的其他传感器,实现联合信息下的自动驾驶决策判断。


下图是结合雷达信息实现自动驾驶中道路分割的网络结构图。输入为 RGB 图像和激光雷达所获取的信息,经过特征提取和 RFU 模块融合,实现对道路的分割。



结合雷达的图像分割自动驾驶系统(图片来源于参考文献 3


下图为上图中橙色部分对应的 RFU 模块:



RFU 模块(图片来源于参考文献 3)


参考文献:


[1] C. Chen, A. Seffetc, A. Kornhauser, and J. Xiao. DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving[C]. 2015.


[2] M. Zhang, X. Hu, L. Zhao, Y. Lv, M. Luo, and S. Pang. Learning Dual Multi-Scale Manifold Ranking for Semantic Segmentation of High-Resolution Images[J]. 2017


[3] H. Liu, Y. Yao, Z. Sun, X. Li, K. Jia, and Z. Tang. Road Segmentation with Image-LiDAR Data Fusion[J]. 2019


作者介绍


孙叔桥,公众号“有三 AI”作者。该公号聚焦于让大家能够系统性地完成 AI 各个领域所需的专业知识的学习。


原文链接


https://mp.weixin.qq.com/s/qlyj4H_qh6okNuZ6TKKDTw


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-10-15 17:332872

评论

发布
暂无评论
发现更多内容

inBuilder低代码平台新特性推荐-第九期

inBuilder低代码平台

低代码

通过AppLink把拼多多热门榜单商品同步至小红书

RestCloud

APPlink

终于搞明白ChatGPT是个什么玩意

Geek_ccdd7f

ChatGPT, FastGPT

SQL DELETE 语句:删除表中记录的语法和示例,以及 SQL SELECT TOP、LIMIT、FETCH FIRST 或 ROWNUM 子句的使用

小万哥

MySQL 数据库 sql 程序员 后端开发

评测10大比特币以太坊钱包排行,其中一款支持Ordinals协议

鳄鱼视界

2024年10大比特币以太坊钱包排行测评推荐

EOSdreamer111

bitget钱包和imtoken 钱包应该选择哪个?哪个更靠谱?

BlockChain先知

软件测试/人工智能|使用ChatGPT帮我们绘制产品架构图

霍格沃兹测试开发学社

以色列企业浏览器 Talon,成立 2 年卖了 45 亿,国内安全浏览器看到曙光了?

连续创业的Janky

数据安全 安全浏览器 企业浏览器 数影星球 数影企业浏览器

api如何使用淘宝API接口获取店铺的所有商品

技术冰糖葫芦

API 文档

OpenAI“政变”进行时,“百模大战”接下来该战什么?

脑极体

AI

IoTDB Summit,12 月 3 日北京等你 | 专属马克杯免费获得

Apache IoTDB

评测10大比特币以太坊钱包排行,其中一款支持Ordinals协议

威廉META

为什么用 iVX 开发程序更快?快在哪里?

代码生成器研究

「X」Embedding in NLP|初识自然语言处理(NLP)

Zilliz

nlp NLP 大模型 Milvus Zilliz

Oracle实时同步技术

RestCloud

oracle ETL CDC

鸿蒙系统明年将不再适配安卓

不在线第一只蜗牛

鸿蒙 安卓 HarmonyOS

软件测试/人工智能|述职报告头很大,ChatGPT来帮你

霍格沃兹测试开发学社

云计算:开辟数字时代的无限可能

快乐非自愿限量之名

云计算 云原生

为什么说低代码是编程初学者的理想选择。

代码生成器研究

2024年10大比特币以太坊钱包排行测评推荐

股市老人

LED Driver数码屏应用解决方案

攻城狮Wayne

革新突破!智能指标平台引领时代,国产大模型与企业级部署的完美结合

Kyligence

Kyligence Zen 指标平台

全栈程序员太难了,这个报表工具别再错过了!!

秃头小帅oi

程序员 前端 后端 低代码 全栈

HDD行业沙龙举办,火火兔、看护家、乐普健康官宣开发鸿蒙原生应用

最新动态

软件测试/人工智能|利用ChatGPT写一份不一样的简历

霍格沃兹测试开发学社

分享一款自己制作的实现可视化操作的代码生成器

LazyCoder

低代码 无代码平台 可视化软件 代码生成器 代码可视化

如何选择适合的开源框架来构建微服务架构?

EquatorCoco

开源 微服务 框架

无/低代码等于BPM吗?

代码生成器研究

什么才是真正的低代码平台?

代码生成器研究

bitget钱包VS imtoken 钱包大比拼,全方面对比

石头财经

自动驾驶领域中的图像分割应用_AI&大模型_孙叔桥_InfoQ精选文章