量子多模态融合综述 (Quantum Multimodal Fusion Survey)
2025.11关于量子多模态学习与融合的文献综述。我们回顾了 15 篇以上近期工作,按融合策略进行分类。
背景
多模态融合旨在整合不同数据模态(如文本、图像、音频、LiDAR)的互补特征,以增强感知与决策能力。经典方法主要由特征级融合(深度神经网络,精度高但可解释性差)和决策级融合(可解释但精度较低)主导。
量子机器学习提供了根本不同的范式。通过将经典数据编码到量子态(Hilbert 空间)中,变分量子电路(VQC)能以指数级更少的参数捕获非线性相关性。量子纠缠为建模跨模态依赖提供了自然机制,这催生了大量关于量子多模态融合的研究。
量子数据编码
在融合之前,需要将经典特征编码为量子态。常见编码策略包括:
- Amplitude Encoding (AE):将 $d$ 个特征嵌入到 $n = \log_2(d)$ 个量子比特的概率振幅中。量子比特效率高,但需要较深的制备电路,且会创建预纠缠态。
- Angle Encoding (Qubit Encoding):通过 $R_y$ 门将每个特征映射为量子比特的旋转角度。产生可分离积态:$|\psi\rangle = \bigotimes_{j=1}^{d} R_y(x_j)|0\rangle_j$。适合逐位并行融合。
- Dense Qubit Encoding (DQE):AE 与 angle encoding 之间的折中方案,使用 $O(n/2)$ 个量子比特,常数深度。
- Hybrid Direct / Hybrid Angle Encoding:基于分块的方法,在表示能力与归一化稳定性之间做权衡。
对于多模态融合,angle encoding 是主流选择,因为它产生可分离态,使融合电路成为跨模态纠缠的唯一来源。
量子多模态融合分类
根据我们的综述,量子多模态融合方法可分为三大范式:
1. 显式量子融合 (Explicit Quantum Fusion)
在分别编码各模态后,具有清晰可辨的融合步骤的方法。融合电路通过受控门在模态间创建目标纠缠。
- CCNOT-based Fusion(Evidential Vertical QFL):使用 Toffoli (CCNOT) 门,两个来自不同模态的量子比特控制一个目标量子比特。通过受控非操作传递信息。
- CNOT Ring Fusion(mmQFL, QMNN):在模态间应用环形 CNOT 门。mmQFL 中,每个模态先由各自的 PQC 处理,然后量子融合层(CNOT 环)在测量前组合它们。QMNN 中,多跨度 CNOT 模式(k=1,3,6)在模态对之间创建纠缠。
- All-to-All Fusion:全连接纠缠模式,一个模态的每个量子比特与另一个模态的每个量子比特交互。最大关联捕获但电路深度高。
- Circuit-Block Fusion:结构化的周期性 CNOT 模式,在纠缠能力与可训练性之间提供实用平衡。
2. 隐式量子融合 (Implicit Quantum Fusion)
将所有模态直接拼接为单一长特征向量并编码为量子态的方法。融合在 VQC 训练过程中隐式完成,没有独立的融合操作。
- Amplitude Encoding Fusion(Expressive & Scalable Quantum Fusion):所有模态特征通过索引控制的 $R_y$ 门直接振幅编码到 $\log_2(\sum |\text{features}|)$ 个量子比特中。融合与表示学习纠缠在一起,难以解释。
3. 经典层融合 (Classical-Layer Fusion)
大多数现有量子多模态模型在经典层面执行融合。量子电路仅用于单模态特征提取或融合后处理,但融合本身通过经典操作(拼接、注意力、残差网络)完成。
- QMFND:多层全连接层在量子编码前融合经典特征。参考价值有限。
- QMLSC:使用残差网络在经典层面进行跨模态融合,量子编码仅在最后阶段。
- QFNN:将模糊逻辑与量子神经网络结合;融合本质上是经典的。
- QViLa:视觉-语言特征拼接(1024 维),FC 降维至 4 个量子比特用于浅量子电路。量子层作用很小。
- QNMF:"量子-经典-量子"管线 — QCNN 提取图像特征,经典拼接,然后振幅编码。融合是经典的。
- MQFL-FHE:量子层分别处理各模态;测量结果在经典层面融合。
- ITQT-MSA:仅使用量子增强的单模态提取;跨模态交互使用经典 Transformer 注意力。
这些方法虽然包含量子组件,但并未从根本上推进量子融合机制。
应用领域
量子多模态模型已应用于多种任务:
| 领域 | 模态 | 代表工作 |
|---|---|---|
| 情感分析 | 文本 + 音频 + 视觉 | QMNN, QMLSC, QFNN |
| 情绪识别 | 文本 + 音频 | SAMS, mmQFL |
| 假新闻检测 | 文本 + 图像 | QMFND |
| 遥感 | HSI + LiDAR | $S^2$ENet, QCMM (ours) |
| 医学诊断 | DNA + MRI | QNMF, MQFL-FHE |
| 通信 | GPS + 相机 + LiDAR + RADAR | QTN |
| 金融预测 | 时间序列(单模态) | QuantumLeap |
- 贫瘠高原 (Barren Plateaus):量子比特数增加导致梯度消失。大多数工作使用极少的量子比特(4–10 个),严重限制了表达能力。
- 缺乏可解释性:大多数量子融合电路仍是"黑盒" — 纠缠对跨模态交互的物理意义不明确。
- 经典主导:大多数工作仅在边缘使用量子电路,融合由经典方法处理。这些方法不能被视为真正的量子多模态融合。
- 可扩展性:当前 NISQ 硬件限制了量子比特数,使这些模型仅能处理极低维特征。
- 参数效率:量子模型的一个关键宣称优势 — 指数 Hilbert 空间仅需多项式参数 — 往往未被充分利用。
总结
量子多模态融合领域正在快速增长但仍处于起步阶段。大多数现有工作在经典层面执行融合,或使用缺乏可解释性的黑盒量子电路。在实现可解释量子融合、参数高效和有竞争力的精度方面存在明显空白。我们的 QCMM 框架(见下一篇)通过将 Dempster-Shafer 证据理论映射到量子电路来应对这些挑战。
参考文献
- Evidential Vertical Quantum Feature Learning (Evidential Vertical QFL), IEEE TGRS, 2024.
- mmQFL: Multimodal Quantum Feature Learning, Information Fusion, 2024.
- QMNN: Quantum Multimodal Neural Network, 2024.
- Expressive & Scalable Quantum Fusion, 2025.
- QMFND: Quantum Multimodal Fake News Detection, 2024.
- QMLSC: Quantum Multimodal Learning for Sentiment Classification, 2024.
- QFNN: Quantum Fuzzy Neural Network, 2023.
- QViLa: Quantum Vision-Language Model, 2024.
- QNMF: Quantum Neural Multimodal Fusion, 2024.
- MQFL-FHE: Multimodal Quantum Feature Learning with FHE, 2025.
- ITQT-MSA: Image-Text Quantum Transformer with Multi-Scale Attention, 2025.
- SAMS: Sentiment Analysis using Multimodal Sentiment, 2024.
- QTN: Quantum Transformer Network for communications, 2024.
- QuantumLeap: Quantum Leap for Financial Time Series, 2025.
- $S^2$ENet: Semantic-Enhanced Multimodal Fusion Network for Remote Sensing, IEEE TGRS, 2024.
- EndNet: End-to-End Multimodal Fusion, IEEE TGRS, 2021.
- CrossFusion: Cross-Modal Feature Fusion, ISPRS, 2022.
- FusAtNet: Fusion Attention Network, IEEE TGRS, 2023.
- QCMM (Ours): Wu et al., "Feature Entanglement-based Quantum Multimodal Fusion Neural Network", arXiv:2601.07856, 2026. — 详见下一篇