AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

多模态大语言模型的崛起与应用

  • 2024-11-28
    北京
  • 本文字数:1488 字

    阅读完需:约 5 分钟

多模态大语言模型的崛起与应用

多模态大语言模型,正在重新定义人工智能的能力边界,推动着各行各业的变革。无论是在电商、营销、设计、视频创作、动画制作,还是在文本分析等领域,多模态技术都正逐步展现出其巨大的潜力。


2024 年 12 月 13-14 日,AICon 全球人工智能开发与应用大会·北京站,将再次汇聚全球顶尖 AI 专家,展示最新的 AI 技术和应用创新。在此次会议中,我们特别推出专场 《多模态大语言模型的崛起与应用》,深入探讨多模态大语言模型的核心优势与实际应用案例,介绍多模态技术如何通过处理和融合多种数据类型,推动行业创新,优化业务解决方案,并加速实际业务场景中的落地与实践。


更多精彩议题可以点击链接查看大会日程:https://aicon.infoq.cn/202412/beijing/schedule


本次专题的出品人为 高杰博士,其目前担任 蔚来汽车人工智能研发负责人 & 高级总监。有 20 年语⾳处理、⾃然语⾔处理和机器学习的相关⼯作经验。此前,他曾在腾讯、微软和阿里巴巴担任重要职位,参与语音识别、自然语言处理和 AIoT 领域的多个技术研发与产品落地工作。

精彩分享一

Aquila-VL-2B 是 2B 级别 SOTA 的多模态模型。该模型基于 Llava-onevision 的训练思路,引入多分辨率来提升对图像内容的理解。


本次专题下,智源研究院技术经理刘广将带来 《Aquila-VL-2B 多模态模型的数据构建与高效训练实战》 演讲,分享模型数据集的构建和处理过程,包括多种数据来源数据的格式统一以及数据选择,针对弱项的数据合成等。此外,还讨论了对训练效率和框架的提升,在 FlagScale 框架上实现了相对 Deepspeed 训练效率 1.7 倍的提升。Aquila-VL-2B 的创新之处在于系统化的构建了多模态模型的数据,训练以及评测的 pipline。

精彩分享二

在全球化传播中,如何通过多模态大语言模型有效传达品牌的情感与文化成为企业面临的重要挑战。明略科技多模态大模型部门负责人赵晨旭将带来分享 非标模态的多模态大语言模型如何模拟人类主观感受》


他将探讨当前生成式人工智能在多模态内容创作中的应用,尤其是在广告、视频和图像等内容资产的生产中面临的挑战。他指出,尽管中国品牌已开始运用 AI 技术来提升全球传播能力,但现有技术在理解和模拟人类主观情感方面仍存在较大空白。当前的挑战之一是缺乏适合评估全球化品牌传播效果的数据集和基准,尤其是缺少能够衡量视频内容中情感反应的评测标准。


本次分享将为听众揭示如何弥补这些技术空白,并推动多模态大语言模型在全球传播中的实际应用。

精彩分享三

在过去的一年里,多模态大模型因其广泛的潜在应用而受到了前所未有的关注。


阿里云高级算法专家谢榛 将在演讲 《行业多模态大模型训推加速落地思考》 中,深入探讨多模态大模型在行业应用中的发展现状、面临的挑战及未来前景。过去一年,多模态大模型因其在各行业中的潜在应用价值受到了广泛关注,然而,在技术落地过程中仍存在诸多难题。谢榛将结合团队近期的两个工作——CityLLava(2024 CVPR AI City Challenge Track 2 winner)和 IVTP(ECCV2024),介绍多模态模型的迭代过程及其在训练和推理阶段的加速优化技术。

精彩分享四

从 2023 年 6 月开始,蔚来座舱智能化团队开始研发面向智能座舱应用场景的多模态大模型的技术预研工作,经过 1 年多的系统搭建、数据集构建和训练部署方案的实践,取得了一些技术进展和一定的多模态大模型的应用认知。


蔚来汽车座舱智能感知团队负责人牛建伟 将带来演讲 《蔚来座舱多模态大模型的应用实践》,分享包括对于车载场景的算法适配的训练流程、数据采集筛选和清洗方法、多分辨率以及多 VIT encoder 的模型改进方法、端侧部署的具体实践情况。同时,作为多模态模型的一部分也会简要介绍在语音大模型方面的一些最新进展。



2024-11-28 15:248981

评论

发布
暂无评论

AI 场景的存储优化之路(二)

焱融科技

人工智能 云计算 AI 高性能 分布式存储

学完阿里P8推荐的实时流计算系统设计与实现PDF,终入淘宝

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

终于读完谷歌高级架构师分享的Kubernetes源码剖析文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

神策分析 iOS SDK 代码埋点解析

神策技术社区

程序员 数据采集 埋点

imtoken钱包搭建,区块链去中心化钱包搭建

阿里P8耗时一个月肝出这份26W字Java面试手册,在Github标星30K+

Java~~~

Java spring 架构 面试 JVM

云小课|MRS基础原理之ClickHouse组件介绍

华为云开发者联盟

mapreduce 开源 Clickhouse EI企业智能 列式数据库

聊聊 Kafka: 在 Linux 环境上搭建 Kafka

编程susu

Java IT 计算机 编程开发 技术宅

GitHub再现神作,阿里大牛面试30家大厂,整合出这份Java面试手册

Java~~~

Java 架构 面试 JVM 架构师

JVM调优(一)

彭阿三

全链路压测实践

超凡生

谷歌高级架构师十年心血终成Kubernetes微服务实战文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

阿里大牛耗时三年整理出来的4588页Java面试诛仙手册,已全面开源

Java~~~

Java 架构 面试 JVM 架构师

全靠这份阿里大佬的“Java进阶面试手册”收获蚂蚁offer

Java~~~

Java 架构 面试 算法 JVM

多种云资源管理用什么软件好?你知道吗?

行云管家

云计算 云服务 云资源

币安智能链智能合约DAPP开发

Geek_23f0c3

智能合约 DAPP智能合约交易系统开发 DAPP系统开发 币安智能链

图解:为什么非公平锁的性能更高?

Java 程序员 面试 后端 计算机

Flutter 与 Swift - 在创建 iOS 应用程序时应该押注什么技术?

iOSer

flutter swift ios开发

安装ApiPost-接口工具 发送HTTP请求

CodeNongXiaoW

大前端 测试 后端 接口测试 接口管理工具

Docker

彭阿三

结合scipy.linalg在Python中使用线性系统

华为云开发者联盟

Python 矩阵 Numpy 线性系统 向量

人类高质量 Java 学习路线【一条龙版】

程序员鱼皮

Java 数据库 后端 求职 编程学习

ToB迎来上市潮,谁是下一个IPO黑马?

ToB行业头条

IPO

引领异构时代,英特尔发布重大架构创新

科技新消息

【ShardingSphere技术专题】「ShardingJDBC」SpringBoot之整合ShardingJDBC实现分库分表(JavaConfig方式)

洛神灬殇

ShardingJDBC ShardingSphere ShardingSphere-Proxy 8月日更

MySQL 系列教程之(九)MySQL 必修:事务

若尘

MySQL 数据库 8月日更

gopher成长之路(三):出差小记

非晓为骁

个人成长 蜕变

币安智能链智能合约DAPP开发|智能合约DAPP源码搭建

量化系统19942438797

dapp 币安智能链

上线半天下载量破100W!美团内部微服务进阶笔记,超详细

Java 架构 面试 微服务 美团

Github高分爆赞,一天遭狂转 10w+ 次!20万字的Java面试手册来了

Java~~~

Java 架构 面试 JVM 架构师

深度解读鸿蒙轻内核CPU占用率

华为云开发者联盟

鸿蒙 cpu 任务 CPUP LiteO

多模态大语言模型的崛起与应用_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章