写点什么

多模态大语言模型的崛起与应用

  • 2024-11-28
    北京
  • 本文字数:1488 字

    阅读完需:约 5 分钟

多模态大语言模型的崛起与应用

多模态大语言模型,正在重新定义人工智能的能力边界,推动着各行各业的变革。无论是在电商、营销、设计、视频创作、动画制作,还是在文本分析等领域,多模态技术都正逐步展现出其巨大的潜力。


2024 年 12 月 13-14 日,AICon 全球人工智能开发与应用大会·北京站,将再次汇聚全球顶尖 AI 专家,展示最新的 AI 技术和应用创新。在此次会议中,我们特别推出专场 《多模态大语言模型的崛起与应用》,深入探讨多模态大语言模型的核心优势与实际应用案例,介绍多模态技术如何通过处理和融合多种数据类型,推动行业创新,优化业务解决方案,并加速实际业务场景中的落地与实践。


更多精彩议题可以点击链接查看大会日程:https://aicon.infoq.cn/202412/beijing/schedule


本次专题的出品人为 高杰博士,其目前担任 蔚来汽车人工智能研发负责人 & 高级总监。有 20 年语⾳处理、⾃然语⾔处理和机器学习的相关⼯作经验。此前,他曾在腾讯、微软和阿里巴巴担任重要职位,参与语音识别、自然语言处理和 AIoT 领域的多个技术研发与产品落地工作。

精彩分享一

Aquila-VL-2B 是 2B 级别 SOTA 的多模态模型。该模型基于 Llava-onevision 的训练思路,引入多分辨率来提升对图像内容的理解。


本次专题下,智源研究院技术经理刘广将带来 《Aquila-VL-2B 多模态模型的数据构建与高效训练实战》 演讲,分享模型数据集的构建和处理过程,包括多种数据来源数据的格式统一以及数据选择,针对弱项的数据合成等。此外,还讨论了对训练效率和框架的提升,在 FlagScale 框架上实现了相对 Deepspeed 训练效率 1.7 倍的提升。Aquila-VL-2B 的创新之处在于系统化的构建了多模态模型的数据,训练以及评测的 pipline。

精彩分享二

在全球化传播中,如何通过多模态大语言模型有效传达品牌的情感与文化成为企业面临的重要挑战。明略科技多模态大模型部门负责人赵晨旭将带来分享 非标模态的多模态大语言模型如何模拟人类主观感受》


他将探讨当前生成式人工智能在多模态内容创作中的应用,尤其是在广告、视频和图像等内容资产的生产中面临的挑战。他指出,尽管中国品牌已开始运用 AI 技术来提升全球传播能力,但现有技术在理解和模拟人类主观情感方面仍存在较大空白。当前的挑战之一是缺乏适合评估全球化品牌传播效果的数据集和基准,尤其是缺少能够衡量视频内容中情感反应的评测标准。


本次分享将为听众揭示如何弥补这些技术空白,并推动多模态大语言模型在全球传播中的实际应用。

精彩分享三

在过去的一年里,多模态大模型因其广泛的潜在应用而受到了前所未有的关注。


阿里云高级算法专家谢榛 将在演讲 《行业多模态大模型训推加速落地思考》 中,深入探讨多模态大模型在行业应用中的发展现状、面临的挑战及未来前景。过去一年,多模态大模型因其在各行业中的潜在应用价值受到了广泛关注,然而,在技术落地过程中仍存在诸多难题。谢榛将结合团队近期的两个工作——CityLLava(2024 CVPR AI City Challenge Track 2 winner)和 IVTP(ECCV2024),介绍多模态模型的迭代过程及其在训练和推理阶段的加速优化技术。

精彩分享四

从 2023 年 6 月开始,蔚来座舱智能化团队开始研发面向智能座舱应用场景的多模态大模型的技术预研工作,经过 1 年多的系统搭建、数据集构建和训练部署方案的实践,取得了一些技术进展和一定的多模态大模型的应用认知。


蔚来汽车座舱智能感知团队负责人牛建伟 将带来演讲 《蔚来座舱多模态大模型的应用实践》,分享包括对于车载场景的算法适配的训练流程、数据采集筛选和清洗方法、多分辨率以及多 VIT encoder 的模型改进方法、端侧部署的具体实践情况。同时,作为多模态模型的一部分也会简要介绍在语音大模型方面的一些最新进展。



2024-11-28 15:2411643

评论

发布
暂无评论
发现更多内容

小程序启动性能优化实践

百度Geek说

跨平台多媒体渲染引擎OPR简介

阿里巴巴文娱技术

音视频 弹幕 渲染

华为云零代码开发图片压缩工具

乌龟哥哥

6月月更

ARM64 上的性能怪兽:API 网关 Apache APISIX 在 AWS Graviton3 上的安装和性能测试

API7.ai 技术团队

AWS 网关 arm APISIX

数据安全刻不容缓,国产智能化厂商首获SOC 2鉴证报告有何意义?

王吉伟频道

RPA 数据安全 机器人流程自动化 智能自动化 SOC 2

直播预告 | 社交新纪元,共探元宇宙社交新体验

ZEGO即构

从 0 到 1,探究百亿流量验证下的 MVVM 框架设计

图灵教育

百度 MVVM 全栈设计

技术干货 | Linkis实践:新引擎实现流程解析

康月牙

Apache 开源社区 WeDataSphere Linkis 使用实践

大数据培训Flink高频面试题

@零度

flink 大数据开发

技术干货 | Linkis1.0.2安装及使用指南

康月牙

开源社区 微众银行 WeDataSphere Linkis 使用实践

八连冠!浪潮云连续8年蝉联中国政务云市场第一位

云计算

快来极狐GitLab SaaS 学习全球顶级的开源项目吧

极狐GitLab

开源

CREMB Pro 后台子管理员 403 问题分析

CRMEB

工资管理系统该如何使用?

低代码小观

企业管理 工资 管理系统

defi存币生息理财dapp系统开发逻辑

开发微hkkf5566

资深OpenStacker - 彭博、Vexxhost升级为OpenInfra基金会黄金成员

极客天地

5年“研究”3年“实战” 之后的满分答卷

青藤云安全

网络安全 容器安全 安全服务 云原生安全

企业数字化转型该如何做?三个融合、三个转换

小炮

后端适用,Apifox接口文档设计和调试教程【工具篇】

Liam

Java 后端 Postman 后端开发 API文档

大数据生态安全框架的实现原理与最佳实践(上篇)

明哥的IT随笔

大数据 hadoop hive 数据安全

低代码分析盘点:银行业低代码应用需要规避两大误区

易观分析

代码 银行

flutter系列之:Material主题的基础-MaterialApp

程序那些事

flutter 程序那些事 6月月更 widget

中原银行统一日志平台

中原银行

海量数据 中原银行 日志平台

InfoQ 极客传媒 15 周年庆征文|在Flutter中自定义应用程序内键盘

坚果

InfoQ极客传媒15周年庆

秒云云原生信创全兼容解决方案,推动信创产业加速落地

MIAOYUN

云原生 信创 信创云

音频 3A 处理实践,让你的应用更「动听」

融云 RongCloud

InfoQ 极客传媒 15 周年庆征文|手把手教你使用Python实现一键抠图,照片换背景|so easy!

迷彩

Python AI 前端 6月月更 InfoQ极客传媒15周年庆

基于模板配置的数据可视化平台

百度Geek说

数据产品学习-实时计算平台

第519区

实时计算 数据产品 数据开发 大数据平台

618 大促来袭,浅谈如何做好大促备战

阿里巴巴云原生

阿里云 微服务 高可用 云原生

SphereEx 正式开源面向 Database Mesh 的解决方案 Pisanix

SphereEx

开源 SphereEx 云上数据库 Database Mesh Pisanix

多模态大语言模型的崛起与应用_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章