赵晨旭：非标模态的多模态大语言模型如何模拟人类主观感受

分享嘉宾 | 赵晨旭

审校 | 李忠良

策划 | AICon 全球人工智能开发与应用大会

中国品牌在全球化传播中，需要理解不同文化背景下不同群体的情感反应，并采用全球消费者可接受的方式讲述品牌故事和传播文化。然而，现有 AI 技术主要关注客观事物解析，缺乏理解人类主观感受的有效手段。

为了缩小实际应用与技术之间的差距，明略科技构建了大规模视频主观多模态评估数据集 Video-SME，通过收集脑电波和眼动追踪数据，分析不同受试者对视频内容的认知理解程度，并自研超图多模态大语言模型（HMLLM），探索人口统计、视频元素、脑电图和眼动追踪指标之间的关联，弥合了模态间的语义差距，集成帧间信息以执行逻辑推理。实验结果证明了 HMLLM 的有效性，为机器模拟人类主观感受提供了新的可能性，有助于实现对国外 AI 技术的超越。

在不久前举办的 AICon 全球人工智能开发与应用大会上，明略科技多模态大模型部门负责人赵晨旭为我们带来了精彩专题演讲“非标模态的多模态大语言模型如何模拟人类主观感受”，演讲探讨了大语言模型缺乏主观感知能力的问题，基于现有评测标准的局限性，介绍了 Video-SME 数据集，以及超图多模态大模型的构建和评测主观指标的方法。通过 Video-SME 和其他多模态情感数据集的实验结果，展示了机器模拟人类主观感受的应用前景。

内容亮点：

走进多模态视频理解全新的未知领域
探索机器具备主观感受的全新课题

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

我们将依次探讨以下几个核心议题：首先，分析机器模拟人类主观感受的挑战及其重要价值。随后，我们将介绍一个创新的数据集 Video-SME，并展示我们为此开发的一种新方法——超图多模态大模型。此外，我们还将分享在各类主客观指标评测中取得的成果。最后，我们会讨论机器模拟人类主观感受技术在实际应用中的多种场景。

机器模拟人类主观感受的难点与价值

我从学术界权威人士的观点开始讲起，引用李飞飞教授今年 5 月的一条 Twitter，她提出，即使参数众多的大语言模型，也难以捕捉到人类的主观感受。这反映了 AI 在视频内容理解上，一直缺乏对主观层面的深入探究和准确的测量标准。

目前学术界对主观感知能力的研究主要依赖于侧面观察，比如通过人们的情绪表现或媒体传播的信息来推断。这种观察方式存在局限性，因为人们可能会故意表现出某种情绪，或者他们的真实感受与外在表现不符。例如，在音乐领域，虽然乐理提供了一种理解情感的方式，但现代人的主观体验可能与乐理的传统解释大相径庭。我们的研究工作正是基于这样的认识，试图从人的主观视角出发，深入内部进行采集和观察，旨在开发出能够更准确地模拟和理解人类主观感受的技术和方法。

尽管现有的模型主要通过分析人物表情、画面风格、故事情节以及文字信息等媒介来传递情感，但这些媒介所传递的情感并不总是与人们实际接收到的情感完全一致。人们的感受会受到个人背景、喜好和状态的影响，因此，要真正理解人的主观感受，我们需要从不同用户的视角出发，分析他们自发的情绪反应。这种分析的挑战在于，即使是相同的视频或段子，不同的人群可能会有不同的反应。例如，男性可能觉得有趣，而女性可能不这样认为；不同年龄段的人，如老人和年轻人，对同一内容的感受也可能截然不同。这种差异性体现了真正的主观性。

模拟主观感知能力的难点主要体现在三个方面：首先是如何定义并获取用户的主观感知指标，这需要我们深入理解用户的个人背景和情感反应；其次是如何采集有效的主观感知数据；最后是如何实现 AI 模拟主观感知的能力。

Video-SME 概述

现有的视频理解数据集存在局限性，它们包含的元素通常比较单一，缺乏复杂性或故事情节，且问题设置往往只涉及显性的客观部分，如动作识别或人物身份，并未涉及到主观感受的维度。为了解决这一问题，我们采用了多种传感器和设备，记录受试者在观看目标视频时的脑电波和眼动数据。

广告视频内容复杂，分镜数量多，Video-SME 数据集包含了丰富的模态，在模态数量和内容复杂性上具有显著优势。此外，我们的评测标准不是基于预设选项，而是描述性的，这有助于更准确地捕捉和分析主观感受。

数据集的生成流程包括将视频拆分为多个分镜，将语音转换为文本，记录不同受试者的主观指标，如脑电波、认知、情绪和眼动数据，并与分镜内容对应。我们还针对这些主观指标设计了问答，以评估受试者的认知程度。

我们在数据集中设计了两种任务：主观任务和客观任务。

主观任务的核心是预测三个主观指标：认知、情绪和眼动注视比例。为了量化这些指标并使模型能够模拟它们，我们采取了一种直接的分类方法。具体来说，认知指标的量化是通过数值来判断的，数值大于 1 表示有认知，小于 1 则表示没有认知，这一标准参考了认知科学领域的相关研究。情绪和眼动注视比例的分类则是基于数据的正态分布特性。我们根据数据分布的自然划分，将情绪分为三类：消极、自然和积极。同样，将眼动注视比例也分为三类：完全没有注释、部分注释和完全注释。此外，我们进一步细分为两个协议：第一个协议 P1 不考虑受众的个体差异，而是假设一个通用的受众模型，预测通用受众可能产生的脑电变化；第二个协议 P2 则深入考虑了不同受众的特性，包括性别和年龄等因素，因此 P2 中的问题和答案更为丰富和多样。

客观任务则涉及到文本生成，但与常规的选择题不同，它是一个开放性的问题，要求模型生成描述性的答案。

超图多模态大模型概述

随着数据集的建立，我们着手探索如何有效解决模拟人类主观感受的挑战。我们的算法定位为一个针对垂直领域的多模态模型，而非通用基础模型。在这个过程中，我们采用了超图理论，它允许一条超边连接多个点，这在视频理解任务中尤其有用，因为视频帧与帧之间的关系可能跨越较长时间维度，涉及多个帧。

我们的算法架构分为训练和推理两个部分。在训练阶段，我们分为两个阶段。第一阶段专注于客观部分的训练，即对视频内容的客观描述，主要训练语言模型部分。第二阶段则专注于主观部分的训练，涉及超图学习模块（SAL-HL），该模块考虑观众的性别、年龄等信息，并以视觉编码器（如 VIT）作为输入，以脑电属性的真实标签作为监督信号。我们还额外训练了一个投影器（projector），并通过设置权重λ来调整超图模块对整个网络结构的影响。在推理阶段，与训练阶段相比，观众的信息（AAP）直接整合到提示（prompt）中，根据提问的提示直接给出答案。

以一个经典的沃尔沃卡车广告为例，该广告通过尚格云顿在两辆行驶的卡车间做一字马来展示卡车的稳定性。我们的模型能够从两个维度输出描述：客观描述，如“一个人在两辆行驶的卡车间做一字马”；主观描述，如“30 至 34 岁男性观看后的认知和情绪反应”。模型显示，男性观众能够很好地理解视频内容，并表现出较高的情绪反应，这可能是因为广告展示了卡车的稳定性和人类的力量感。

我们的模型还能展示不同性别和年龄段观众的眼动注释区域。通过热力图反映了观众在观看视频时的真实注意力分布，显示出不同人群对同一画面内容的关注点存在差异。例如，女性可能更关注男性人物身上的文本信息，而男性可能更关注产品本身，如卡车或可乐。这些发现为我们提供了深入理解观众主观感受的宝贵视角。

主客观指标评测结果

Video-SME 数据集通过几个关键指标来衡量模型的性能，其中包括客观描述和三种脑电反应：主观认知、主观情绪和眼动比例。在这些特殊任务上，商用模型如 Gimma 1.5、GPT-4o 在主观指标预测上的表现并不理想。经过训练和微调，我们的方法在这些任务上展现出了更好的效果。在 Video-MME 数据集上，由于主要涉及客观层面的理解，且形式为选择题，商用模型的表现普遍较好。在其他的公开数据集上的实验结果同样显示了我们模型的潜力。例如，在 VideoEmotion-8 数据集上，仅使用视觉模态，我们的模型就达到了 59.8% 的准确率；在 Video Conversation 基准测试中，我们的模型在多种任务上达到了 SOTA（State of the Art）。

我们还对超图模块进行了消融学习实验，发现当权重λ设置为 0.1 时，模型表现最佳。这表明超图模块在适当权重下能显著提升模型性能，但过高的权重可能会带来副作用。

在定性分析中，比如识别一种抹茶味巧克力派的视频中，我们的模型能够准确指出这是一种零食，且可能受到年轻人或儿童的欢迎，而其他开源模型则误判为冰激凌。在分析东鹏特饮的广告时，我们的模型能够识别出这是一种运动饮料，并与运动力量和冒险联系起来，而其他模型如 Gemini 则错误地将其归类为旅行或冒险。

机器模拟人类主观感受的应用场景

我们开发了一款名为 Adeff 的产品，它能够从主观和客观两个维度对广告内容进行评测。以 YouTube 上兰蔻的广告为例，Adeff 可以提供整个视频的客观描述，对视频分镜进行详细分析，并给出每个分镜的主观指标，如脑电效果、情绪和注视比例。Adeff 的应用不仅限于单一广告。通过对比不同受众群体的反应，如普通受众与特定年龄和性别的受众，Adeff 能够展示广告对不同人群的吸引力差异。这种能力对于广告创意的评测至关重要，可以帮助品牌主理解色彩、角度、情绪等广告元素如何影响受众的主观感受。

利用机器模拟人类主观感受进行广告创意评测，可以显著降低成本。传统上，进行全面的创意评测需要大量人力和设备，而 AI 的介入使这一过程更加经济高效。AI 模型可以通过真人测量数据进行训练和校正，提供快速、全面的评测，降低投放风险，缩短测试周期，并实现规模化测量。

我们的研究不仅在理论上有所突破，而且在实践中也取得了成功。我们的产品能够提前预测广告效果，帮助客户优化广告内容，避免无效投放。例如，通过分析广告母片和街片的分镜，我们可以识别出哪些分镜更受欢迎，从而指导广告剪辑和投放策略。

我们的工作得到了科技部科技创新 2030 新一代人工智能重大项目的支持，并在 ACMMM 2024 会议上获得了最佳论文提名。我们的论文和项目代码已经公开，数据集也对外开放，供学术界和工业界使用。感兴趣的人士可以通过论文链接和 GitHub 项目链接进一步了解：

_论文链接：_https://dl.acm.org/doi/10.1145/3664647.3680810

_GitHub 地址：_https://github.com/mininglamp-MLLM/HMLLM

总结

机器模拟人的主观感受具有重大意义。这不仅是技术进步的体现，也是我们理解人类认知和情感的重要途径。机器模拟人的主观感受可能是机器产生自我意识的开端。Google 员工关于模型自我意识的报道激发了人们对机器意识可能性的广泛思考。

机器已经具备有效手段来模拟人类的主观感受。通过先进的算法和多模态数据集，机器能够分析和理解人类的情感和认知反应。

多模态大语言模型的范式仍有广阔的发展空间。随着大模型的不断优化和扩展，我们可以期待 AI 在模拟人类主观感受方面将取得更多的突破，这将为人工智能的发展开辟新的道路。

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下，变革与机遇交织，挑战与突破共生。2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京召开，以 “智能融合，引领未来” 为年度主题，汇聚各领域的技术先行者以及创新实践者，为行业发展拨云见日。现在报名可以享受 8 折优惠，单张门票立省 1360 元，详情可联系票务经理 18514549229 咨询。

创作场景