2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

多模态大语言模型的崛起与应用

  • 2024-11-28
    北京
  • 本文字数:1488 字

    阅读完需:约 5 分钟

多模态大语言模型的崛起与应用

多模态大语言模型,正在重新定义人工智能的能力边界,推动着各行各业的变革。无论是在电商、营销、设计、视频创作、动画制作,还是在文本分析等领域,多模态技术都正逐步展现出其巨大的潜力。


2024 年 12 月 13-14 日,AICon 全球人工智能开发与应用大会·北京站,将再次汇聚全球顶尖 AI 专家,展示最新的 AI 技术和应用创新。在此次会议中,我们特别推出专场 《多模态大语言模型的崛起与应用》,深入探讨多模态大语言模型的核心优势与实际应用案例,介绍多模态技术如何通过处理和融合多种数据类型,推动行业创新,优化业务解决方案,并加速实际业务场景中的落地与实践。


更多精彩议题可以点击链接查看大会日程:https://aicon.infoq.cn/202412/beijing/schedule


本次专题的出品人为 高杰博士,其目前担任 蔚来汽车人工智能研发负责人 & 高级总监。有 20 年语⾳处理、⾃然语⾔处理和机器学习的相关⼯作经验。此前,他曾在腾讯、微软和阿里巴巴担任重要职位,参与语音识别、自然语言处理和 AIoT 领域的多个技术研发与产品落地工作。

精彩分享一

Aquila-VL-2B 是 2B 级别 SOTA 的多模态模型。该模型基于 Llava-onevision 的训练思路,引入多分辨率来提升对图像内容的理解。


本次专题下,智源研究院技术经理刘广将带来 《Aquila-VL-2B 多模态模型的数据构建与高效训练实战》 演讲,分享模型数据集的构建和处理过程,包括多种数据来源数据的格式统一以及数据选择,针对弱项的数据合成等。此外,还讨论了对训练效率和框架的提升,在 FlagScale 框架上实现了相对 Deepspeed 训练效率 1.7 倍的提升。Aquila-VL-2B 的创新之处在于系统化的构建了多模态模型的数据,训练以及评测的 pipline。

精彩分享二

在全球化传播中,如何通过多模态大语言模型有效传达品牌的情感与文化成为企业面临的重要挑战。明略科技多模态大模型部门负责人赵晨旭将带来分享 非标模态的多模态大语言模型如何模拟人类主观感受》


他将探讨当前生成式人工智能在多模态内容创作中的应用,尤其是在广告、视频和图像等内容资产的生产中面临的挑战。他指出,尽管中国品牌已开始运用 AI 技术来提升全球传播能力,但现有技术在理解和模拟人类主观情感方面仍存在较大空白。当前的挑战之一是缺乏适合评估全球化品牌传播效果的数据集和基准,尤其是缺少能够衡量视频内容中情感反应的评测标准。


本次分享将为听众揭示如何弥补这些技术空白,并推动多模态大语言模型在全球传播中的实际应用。

精彩分享三

在过去的一年里,多模态大模型因其广泛的潜在应用而受到了前所未有的关注。


阿里云高级算法专家谢榛 将在演讲 《行业多模态大模型训推加速落地思考》 中,深入探讨多模态大模型在行业应用中的发展现状、面临的挑战及未来前景。过去一年,多模态大模型因其在各行业中的潜在应用价值受到了广泛关注,然而,在技术落地过程中仍存在诸多难题。谢榛将结合团队近期的两个工作——CityLLava(2024 CVPR AI City Challenge Track 2 winner)和 IVTP(ECCV2024),介绍多模态模型的迭代过程及其在训练和推理阶段的加速优化技术。

精彩分享四

从 2023 年 6 月开始,蔚来座舱智能化团队开始研发面向智能座舱应用场景的多模态大模型的技术预研工作,经过 1 年多的系统搭建、数据集构建和训练部署方案的实践,取得了一些技术进展和一定的多模态大模型的应用认知。


蔚来汽车座舱智能感知团队负责人牛建伟 将带来演讲 《蔚来座舱多模态大模型的应用实践》,分享包括对于车载场景的算法适配的训练流程、数据采集筛选和清洗方法、多分辨率以及多 VIT encoder 的模型改进方法、端侧部署的具体实践情况。同时,作为多模态模型的一部分也会简要介绍在语音大模型方面的一些最新进展。



2024-11-28 15:2411676

评论

发布
暂无评论
发现更多内容

事务隔离级别实战学习

U2647

事务隔离级别 事务 4月日更

云智一体 AI开发模式打造电力行业的智慧化范本

百度大脑

云计算 智能云

2021 技术展望 | 弱网下的极限实时视频通信

RTE开发者社区

RTC 2021年展望 RTE 2021技术

inotifywait+rsync实现目录监听及同步

慢慢de

Docker rsync inotify 目录监听同步

谁说没学历就进不了大厂?(双非渣硕四年crud经验已拿下阿里P6)面经分享

Java 编程 程序员 架构 面试

想快速重构智慧园区5A系统,这份方案推荐给你

华为云开发者联盟

系统 智慧园区 HDC.Cloud 2021 端边云协同架构 南向系统

2021技术展望|开源十年,WebRTC 的现状与未来

RTE开发者社区

开源 WebRTC 2021年展望 RTE 2021技术

Javascript执行机制-事件循环

Sakura

4月日更

信息爆炸时代,如何更好地处理工作信息

LigaAI

程序员 产品经理 研发管理 信息处理

爱好历史的程序员,不容错过!

不脱发的程序猿

程序员 程序人生 4月日更 全历史

c 语言思维地基搭建(总概论)

-jf.

4月日更

知乎转载超30W次!金三Java面经汇总:拼多多(三面)/蚂蚁金服(四面)/字节跳动(二面)

Java架构追梦

Java 面试 拼多多面经 蚂蚁金服面经 字节跳动面经

EGG NETWORK公链阿凡提以“完全开放式自治”的唯一标准搭建New-DeFi链上生态EFTalk

币圈那点事

在多人音视频聊天中插入现场直播

anyRTC开发者

android 大前端 音视频 WebRTC RTC

android适配方案,Kafka是如何实现高性能的?全套教学资料

欢喜学安卓

android 程序员 面试 移动开发

科技“智”造:智慧工厂这样规划,既高效又节能

一只数据鲸鱼

数据可视化 工业物联网 智慧园区 智慧工厂

Python OpenCV 图片模糊操作 blur 与 medianBlur

梦想橡皮擦

Python OpenCV 4月日更

2021 技术展望 | 走向未来的实时生成技术

RTE开发者社区

RTC 2021年展望 RTE 2021技术

hashmap遍历,关于网络优化你必须要知道的重点,Android岗

欢喜学安卓

android 程序员 面试 移动开发

ARMv9刷屏——号称十年最大变革,Realm机密计算技术有什么亮点?

阿里云基础软件团队

如何实现屏幕共享时的多人实时标注?

拍乐云Pano

windows Electron RTC

集客业务支撑领域标准化产品套件“火麒麟”的配置化能力提升之路

鲸品堂

产品 解决方案 运营商

2021 技术展望 | 2021,5G 将会倒逼传输协议、算法做出更多改进

RTE开发者社区

5G RTC 2021年展望 RTE 2021技术

2021 技术展望 | AV1 在 RTC 应用实践中的现状与展望

RTE开发者社区

RTC 2021年展望 RTE 2021技术

智汇华云 | 看“新基建”如何将机房里的“老家伙”物尽其用

华云数据

源中瑞区块链BaaS平台--一键部署区块链应用

13530558032

mPaaS 月度小报 | CodeHub#4 在线教育应用的开发实践;香港站正式开服上线

蚂蚁集团移动开发平台 mPaaS

移动开发 mPaaS

NA公链NAC公链真正的100%史诗级匿名去中心化应用

区块链第一资讯

国人开源的运维监控系统——WGCLOUD

王逅逅

开源 运维 Grafana Prometheus zabbix

2021 技术展望 | 实时互动场景下,音频的技术变迁与机遇

RTE开发者社区

音视频 RTC 2021年展望 RTE 2021技术

读《小岛经济学》

箭上有毒

4月日更

多模态大语言模型的崛起与应用_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章