多模态大语言模型的崛起与应用

多模态大语言模型，正在重新定义人工智能的能力边界，推动着各行各业的变革。无论是在电商、营销、设计、视频创作、动画制作，还是在文本分析等领域，多模态技术都正逐步展现出其巨大的潜力。

2024 年 12 月 13-14 日，AICon 全球人工智能开发与应用大会·北京站，将再次汇聚全球顶尖 AI 专家，展示最新的 AI 技术和应用创新。在此次会议中，我们特别推出专场《多模态大语言模型的崛起与应用》，深入探讨多模态大语言模型的核心优势与实际应用案例，介绍多模态技术如何通过处理和融合多种数据类型，推动行业创新，优化业务解决方案，并加速实际业务场景中的落地与实践。
更多精彩议题可以点击链接查看大会日程：https://aicon.infoq.cn/202412/beijing/schedule
本次专题的出品人为 高杰博士，其目前担任 蔚来汽车人工智能研发负责人 & 高级总监。有 20 年语⾳处理、⾃然语⾔处理和机器学习的相关⼯作经验。此前，他曾在腾讯、微软和阿里巴巴担任重要职位，参与语音识别、自然语言处理和 AIoT 领域的多个技术研发与产品落地工作。

精彩分享一

Aquila-VL-2B 是 2B 级别 SOTA 的多模态模型。该模型基于 Llava-onevision 的训练思路，引入多分辨率来提升对图像内容的理解。

本次专题下，智源研究院技术经理刘广将带来《Aquila-VL-2B 多模态模型的数据构建与高效训练实战》演讲，分享模型数据集的构建和处理过程，包括多种数据来源数据的格式统一以及数据选择，针对弱项的数据合成等。此外，还讨论了对训练效率和框架的提升，在 FlagScale 框架上实现了相对 Deepspeed 训练效率 1.7 倍的提升。Aquila-VL-2B 的创新之处在于系统化的构建了多模态模型的数据，训练以及评测的 pipline。

精彩分享二

在全球化传播中，如何通过多模态大语言模型有效传达品牌的情感与文化成为企业面临的重要挑战。明略科技多模态大模型部门负责人赵晨旭将带来分享《非标模态的多模态大语言模型如何模拟人类主观感受》。

他将探讨当前生成式人工智能在多模态内容创作中的应用，尤其是在广告、视频和图像等内容资产的生产中面临的挑战。他指出，尽管中国品牌已开始运用 AI 技术来提升全球传播能力，但现有技术在理解和模拟人类主观情感方面仍存在较大空白。当前的挑战之一是缺乏适合评估全球化品牌传播效果的数据集和基准，尤其是缺少能够衡量视频内容中情感反应的评测标准。

本次分享将为听众揭示如何弥补这些技术空白，并推动多模态大语言模型在全球传播中的实际应用。

精彩分享三

在过去的一年里，多模态大模型因其广泛的潜在应用而受到了前所未有的关注。

阿里云高级算法专家谢榛 将在演讲《行业多模态大模型训推加速落地思考》中，深入探讨多模态大模型在行业应用中的发展现状、面临的挑战及未来前景。过去一年，多模态大模型因其在各行业中的潜在应用价值受到了广泛关注，然而，在技术落地过程中仍存在诸多难题。谢榛将结合团队近期的两个工作——CityLLava（2024 CVPR AI City Challenge Track 2 winner）和 IVTP（ECCV2024），介绍多模态模型的迭代过程及其在训练和推理阶段的加速优化技术。

精彩分享四

从 2023 年 6 月开始，蔚来座舱智能化团队开始研发面向智能座舱应用场景的多模态大模型的技术预研工作，经过 1 年多的系统搭建、数据集构建和训练部署方案的实践，取得了一些技术进展和一定的多模态大模型的应用认知。

蔚来汽车座舱智能感知团队负责人牛建伟 将带来演讲《蔚来座舱多模态大模型的应用实践》，分享包括对于车载场景的算法适配的训练流程、数据采集筛选和清洗方法、多分辨率以及多 VIT encoder 的模型改进方法、端侧部署的具体实践情况。同时，作为多模态模型的一部分也会简要介绍在语音大模型方面的一些最新进展。

创作场景

多模态大语言模型的崛起与应用

精彩分享一

精彩分享二

精彩分享三

精彩分享四