量子多模态融合综述 (Quantum Multimodal Fusion Survey)

Quantum Multimodal Fusion Survey VQC

关于量子多模态学习与融合的文献综述。我们回顾了 15 篇以上近期工作,按融合策略进行分类。

背景

多模态融合旨在整合不同数据模态(如文本、图像、音频、LiDAR)的互补特征,以增强感知与决策能力。经典方法主要由特征级融合(深度神经网络,精度高但可解释性差)和决策级融合(可解释但精度较低)主导。

量子机器学习提供了根本不同的范式。通过将经典数据编码到量子态(Hilbert 空间)中,变分量子电路(VQC)能以指数级更少的参数捕获非线性相关性。量子纠缠为建模跨模态依赖提供了自然机制,这催生了大量关于量子多模态融合的研究。

量子数据编码

在融合之前,需要将经典特征编码为量子态。常见编码策略包括:

  • Amplitude Encoding (AE):将 $d$ 个特征嵌入到 $n = \log_2(d)$ 个量子比特的概率振幅中。量子比特效率高,但需要较深的制备电路,且会创建预纠缠态。
  • Angle Encoding (Qubit Encoding):通过 $R_y$ 门将每个特征映射为量子比特的旋转角度。产生可分离积态:$|\psi\rangle = \bigotimes_{j=1}^{d} R_y(x_j)|0\rangle_j$。适合逐位并行融合。
  • Dense Qubit Encoding (DQE):AE 与 angle encoding 之间的折中方案,使用 $O(n/2)$ 个量子比特,常数深度。
  • Hybrid Direct / Hybrid Angle Encoding:基于分块的方法,在表示能力与归一化稳定性之间做权衡。

对于多模态融合,angle encoding 是主流选择,因为它产生可分离态,使融合电路成为跨模态纠缠的唯一来源。

量子多模态融合分类

根据我们的综述,量子多模态融合方法可分为三大范式:

1. 显式量子融合 (Explicit Quantum Fusion)

在分别编码各模态后,具有清晰可辨的融合步骤的方法。融合电路通过受控门在模态间创建目标纠缠。

  • CCNOT-based Fusion(Evidential Vertical QFL):使用 Toffoli (CCNOT) 门,两个来自不同模态的量子比特控制一个目标量子比特。通过受控非操作传递信息。
  • CNOT Ring Fusion(mmQFL, QMNN):在模态间应用环形 CNOT 门。mmQFL 中,每个模态先由各自的 PQC 处理,然后量子融合层(CNOT 环)在测量前组合它们。QMNN 中,多跨度 CNOT 模式(k=1,3,6)在模态对之间创建纠缠。
  • All-to-All Fusion:全连接纠缠模式,一个模态的每个量子比特与另一个模态的每个量子比特交互。最大关联捕获但电路深度高。
  • Circuit-Block Fusion:结构化的周期性 CNOT 模式,在纠缠能力与可训练性之间提供实用平衡。

2. 隐式量子融合 (Implicit Quantum Fusion)

将所有模态直接拼接为单一长特征向量并编码为量子态的方法。融合在 VQC 训练过程中隐式完成,没有独立的融合操作。

  • Amplitude Encoding Fusion(Expressive & Scalable Quantum Fusion):所有模态特征通过索引控制的 $R_y$ 门直接振幅编码到 $\log_2(\sum |\text{features}|)$ 个量子比特中。融合与表示学习纠缠在一起,难以解释。

3. 经典层融合 (Classical-Layer Fusion)

大多数现有量子多模态模型在经典层面执行融合。量子电路仅用于单模态特征提取或融合后处理,但融合本身通过经典操作(拼接、注意力、残差网络)完成。

  • QMFND:多层全连接层在量子编码前融合经典特征。参考价值有限。
  • QMLSC:使用残差网络在经典层面进行跨模态融合,量子编码仅在最后阶段。
  • QFNN:将模糊逻辑与量子神经网络结合;融合本质上是经典的。
  • QViLa:视觉-语言特征拼接(1024 维),FC 降维至 4 个量子比特用于浅量子电路。量子层作用很小。
  • QNMF:"量子-经典-量子"管线 — QCNN 提取图像特征,经典拼接,然后振幅编码。融合是经典的。
  • MQFL-FHE:量子层分别处理各模态;测量结果在经典层面融合。
  • ITQT-MSA:仅使用量子增强的单模态提取;跨模态交互使用经典 Transformer 注意力。

这些方法虽然包含量子组件,但并未从根本上推进量子融合机制。

应用领域

量子多模态模型已应用于多种任务:

领域模态代表工作
情感分析文本 + 音频 + 视觉QMNN, QMLSC, QFNN
情绪识别文本 + 音频SAMS, mmQFL
假新闻检测文本 + 图像QMFND
遥感HSI + LiDAR$S^2$ENet, QCMM (ours)
医学诊断DNA + MRIQNMF, MQFL-FHE
通信GPS + 相机 + LiDAR + RADARQTN
金融预测时间序列(单模态)QuantumLeap
  • 贫瘠高原 (Barren Plateaus):量子比特数增加导致梯度消失。大多数工作使用极少的量子比特(4–10 个),严重限制了表达能力。
  • 缺乏可解释性:大多数量子融合电路仍是"黑盒" — 纠缠对跨模态交互的物理意义不明确。
  • 经典主导:大多数工作仅在边缘使用量子电路,融合由经典方法处理。这些方法不能被视为真正的量子多模态融合。
  • 可扩展性:当前 NISQ 硬件限制了量子比特数,使这些模型仅能处理极低维特征。
  • 参数效率:量子模型的一个关键宣称优势 — 指数 Hilbert 空间仅需多项式参数 — 往往未被充分利用。

总结

量子多模态融合领域正在快速增长但仍处于起步阶段。大多数现有工作在经典层面执行融合,或使用缺乏可解释性的黑盒量子电路。在实现可解释量子融合参数高效有竞争力的精度方面存在明显空白。我们的 QCMM 框架(见下一篇)通过将 Dempster-Shafer 证据理论映射到量子电路来应对这些挑战。

参考文献

  1. Evidential Vertical Quantum Feature Learning (Evidential Vertical QFL), IEEE TGRS, 2024.
  2. mmQFL: Multimodal Quantum Feature Learning, Information Fusion, 2024.
  3. QMNN: Quantum Multimodal Neural Network, 2024.
  4. Expressive & Scalable Quantum Fusion, 2025.
  5. QMFND: Quantum Multimodal Fake News Detection, 2024.
  6. QMLSC: Quantum Multimodal Learning for Sentiment Classification, 2024.
  7. QFNN: Quantum Fuzzy Neural Network, 2023.
  8. QViLa: Quantum Vision-Language Model, 2024.
  9. QNMF: Quantum Neural Multimodal Fusion, 2024.
  10. MQFL-FHE: Multimodal Quantum Feature Learning with FHE, 2025.
  11. ITQT-MSA: Image-Text Quantum Transformer with Multi-Scale Attention, 2025.
  12. SAMS: Sentiment Analysis using Multimodal Sentiment, 2024.
  13. QTN: Quantum Transformer Network for communications, 2024.
  14. QuantumLeap: Quantum Leap for Financial Time Series, 2025.
  15. $S^2$ENet: Semantic-Enhanced Multimodal Fusion Network for Remote Sensing, IEEE TGRS, 2024.
  16. EndNet: End-to-End Multimodal Fusion, IEEE TGRS, 2021.
  17. CrossFusion: Cross-Modal Feature Fusion, ISPRS, 2022.
  18. FusAtNet: Fusion Attention Network, IEEE TGRS, 2023.
  19. QCMM (Ours): Wu et al., "Feature Entanglement-based Quantum Multimodal Fusion Neural Network", arXiv:2601.07856, 2026. — 详见下一篇