国产av

En
您现在的位置: 国产av > 新闻动态 > 学术动态
国产av 傅小兰研究组刘峰助理研究员提出基于奖励梯度调制的多模态情感识别技术
时间:2025-06-24  供稿:刘峰  编辑:纪晓恬  点击量:459

2025年6月4日,国产av 联合北京美图实验室与中国科学院声学研究所的最新研究成果“Reward-based Gradient Modulation for Multi-modal Emotion Recognition with LoRA”在IEEE Transactions on Computational Social Systems期刊在线预出版(Early Access)。

近年来,随着现实世界中音频、视觉和文本数据等多模态信息量的不断增加,研究如何处理这些不同模态的信息变得至关重要。多模态情感分析在多模态学习领域得到了广泛探索,其主要目的是通过整合音频、视觉和文本模态,提高计算机对人类情感的理解能力。然而,最近的研究表明,在很多情况下具有统一学习目标、优化所有联合训练策略的多模态模型仍然无法充分利用来自所有模态的信息,甚至可能被单模态模型超越,这种现象与通过多模态协同提高模型性能的目标背道而驰,在多模态情感分析领域也存在类似的挑战。

1752198330144417.png

图1. RGM-LoRA 框架的整体架构。(a) 是 RGM-LoRA 的整体架构。(b) 是整体架构(a)中基于奖励的梯度调制设计部分。(c) 是 RGM 架构(b)的 Lora-BERT 部分。该框架接受三种模式的数据:音频、文本和视频。音频和视频模式由转换器处理,文本模式由 LoRA-BERT 处理。随后,计算文本音频损失和文本视频损失。最后,在融合三种嵌入后计算 MAE 损失。


研究动机

多模态情感分析面临两大核心挑战。一方面,音频、视觉、文本模态在联合训练中出现严重收敛失衡;另一方面,由于文本模态采用BERT等预训练模型时,其收敛速度较单模态训练降低,从而导致了语义优势被抑制。另外,传统方法(如惩罚式梯度控制)虽尝试平衡模态性能,但易引发负迁移问题,而全参数微调LLM又面临高计算成本与优化困境。因此,本研究旨在通过动态梯度调控与参数高效微调协同优化,实现多模态训练的平衡性与高效性。


研究贡献

本研究提出RGM-LoRA框架。首先,设计奖励式梯度调制(RGM),基于验证集准确率差异动态放大滞后模态梯度,在CMU-MOSI和CMU-MOSEI双数据集数据集上使多模态的F1指标得到提升;其次,研究首次验证LoRA在优化层面的有效性,仅微调BERT 少量参数的前提下实现效果的显著提升;最后,引入跨模态对比学习,使文本与音频/视觉特征相似度得以提升,最终为多模态训练提供理论方法、技术工具与工业落地三重价值。

1752198384314559.png

图 2. Lora-BERT 设计的细节。它由多个密集层组成,执行矩阵乘法运算。这些层中的权重矩阵都是全秩矩阵。本研究更新查询(Q)和值(V)矩阵,用低秩分解来表示后者。


研究创新

本研究实现三大理论突破:1)首次提出奖励式梯度调制机制,通过动态放大(而非惩罚)滞后模态梯度,解决传统方法导致的负迁移问题,相比OGM-GE方法在MOSI和MOSEI数据集上的七分类指标达到了最优(SOTA);2)首次从优化视角验证LoRA的有效性,证明其低秩适配特性可缓解预训练模型在多模态联合训练中的优化抑制;3)构建模态间对比学习范式,通过文本-音频/视觉对比损失函数增强文本模态的主导作用,突破现有方法中文本性能退化瓶颈。


结论

本文提出了 RGM-LoRA 框架,以解决多模态情感分析中模态不平衡和任务优化困难的难题。所提出的基于奖励的梯度控制方法有效地管理了不同模态的收敛速度,从而实现了平衡。此外,还将 LoRA 纳入了文本编码器 BERT,成功缓解了文本抑制问题。最后,引入了模态对比学习,进一步提高了文本模态的性能,在 CMU-MOSI 和 CMU-MOSEI 数据集上取得了最先进的结果。未来的工作将侧重于纳入其他有用的外部知识,以解决视频和音频模态之间可能存在的不平衡问题,从而进一步提高多模态情感分类的准确性。

刘峰助理研究员为该文第一作者兼通讯作者,付子旺与王云龙为刘峰博士实验室中早期成员,本研究得到了行为与心理健康北京市重点实验室的支持。

论文链接://www.researchgate.net/publication/392421781

代码链接://github.com/Cross-Innovation-Lab/RGM-LoRA


发表日期:2025年6月9日

作者:刘峰*、付子旺、王云龙

单位:国产av *、北京美图实验室、中国科学院声学所

引用信息:F. Liu, Z. Fu and Y. Wang, "Reward-Based Gradient Modulation for Multimodal Emotion Recognition With LoRA," in IEEE Transactions on Computational Social Systems, 2025, doi: 10.1109/TCSS.2025.3566373.