量子多模态融合综述 (Quantum Multimodal Fusion Survey)

2025.11

关于量子多模态学习与融合的文献综述。我们回顾了 15 篇以上近期工作，按融合策略进行分类。

背景

多模态融合旨在整合不同数据模态（如文本、图像、音频、LiDAR）的互补特征，以增强感知与决策能力。经典方法主要由特征级融合（深度神经网络，精度高但可解释性差）和决策级融合（可解释但精度较低）主导。

量子机器学习提供了根本不同的范式。通过将经典数据编码到量子态（Hilbert 空间）中，变分量子电路（VQC）能以指数级更少的参数捕获非线性相关性。量子纠缠为建模跨模态依赖提供了自然机制，这催生了大量关于量子多模态融合的研究。

量子数据编码

在融合之前，需要将经典特征编码为量子态。常见编码策略包括：

Amplitude Encoding (AE)：将 $d$ 个特征嵌入到 $n = \log_2(d)$ 个量子比特的概率振幅中。量子比特效率高，但需要较深的制备电路，且会创建预纠缠态。
Angle Encoding (Qubit Encoding)：通过 $R_y$ 门将每个特征映射为量子比特的旋转角度。产生可分离积态：$|\psi\rangle = \bigotimes_{j=1}^{d} R_y(x_j)|0\rangle_j$。适合逐位并行融合。
Dense Qubit Encoding (DQE)：AE 与 angle encoding 之间的折中方案，使用 $O(n/2)$ 个量子比特，常数深度。
Hybrid Direct / Hybrid Angle Encoding：基于分块的方法，在表示能力与归一化稳定性之间做权衡。

对于多模态融合，angle encoding 是主流选择，因为它产生可分离态，使融合电路成为跨模态纠缠的唯一来源。

量子多模态融合分类

根据我们的综述，量子多模态融合方法可分为三大范式：

1. 显式量子融合 (Explicit Quantum Fusion)

在分别编码各模态后，具有清晰可辨的融合步骤的方法。融合电路通过受控门在模态间创建目标纠缠。

CCNOT-based Fusion（Evidential Vertical QFL）：使用 Toffoli (CCNOT) 门，两个来自不同模态的量子比特控制一个目标量子比特。通过受控非操作传递信息。
CNOT Ring Fusion（mmQFL, QMNN）：在模态间应用环形 CNOT 门。mmQFL 中，每个模态先由各自的 PQC 处理，然后量子融合层（CNOT 环）在测量前组合它们。QMNN 中，多跨度 CNOT 模式（k=1,3,6）在模态对之间创建纠缠。
All-to-All Fusion：全连接纠缠模式，一个模态的每个量子比特与另一个模态的每个量子比特交互。最大关联捕获但电路深度高。
Circuit-Block Fusion：结构化的周期性 CNOT 模式，在纠缠能力与可训练性之间提供实用平衡。

2. 隐式量子融合 (Implicit Quantum Fusion)

将所有模态直接拼接为单一长特征向量并编码为量子态的方法。融合在 VQC 训练过程中隐式完成，没有独立的融合操作。

Amplitude Encoding Fusion（Expressive & Scalable Quantum Fusion）：所有模态特征通过索引控制的 $R_y$ 门直接振幅编码到 $\log_2(\sum |\text{features}|)$ 个量子比特中。融合与表示学习纠缠在一起，难以解释。

3. 经典层融合 (Classical-Layer Fusion)

大多数现有量子多模态模型在经典层面执行融合。量子电路仅用于单模态特征提取或融合后处理，但融合本身通过经典操作（拼接、注意力、残差网络）完成。

QMFND：多层全连接层在量子编码前融合经典特征。参考价值有限。
QMLSC：使用残差网络在经典层面进行跨模态融合，量子编码仅在最后阶段。
QFNN：将模糊逻辑与量子神经网络结合；融合本质上是经典的。
QViLa：视觉-语言特征拼接（1024 维），FC 降维至 4 个量子比特用于浅量子电路。量子层作用很小。
QNMF："量子-经典-量子"管线 — QCNN 提取图像特征，经典拼接，然后振幅编码。融合是经典的。
MQFL-FHE：量子层分别处理各模态；测量结果在经典层面融合。
ITQT-MSA：仅使用量子增强的单模态提取；跨模态交互使用经典 Transformer 注意力。

这些方法虽然包含量子组件，但并未从根本上推进量子融合机制。

应用领域

量子多模态模型已应用于多种任务：

领域	模态	代表工作
情感分析	文本 + 音频 + 视觉	QMNN, QMLSC, QFNN
情绪识别	文本 + 音频	SAMS, mmQFL
假新闻检测	文本 + 图像	QMFND
遥感	HSI + LiDAR	$S^2$ENet, QCMM (ours)
医学诊断	DNA + MRI	QNMF, MQFL-FHE
通信	GPS + 相机 + LiDAR + RADAR	QTN
金融预测	时间序列（单模态）	QuantumLeap

贫瘠高原 (Barren Plateaus)：量子比特数增加导致梯度消失。大多数工作使用极少的量子比特（4–10 个），严重限制了表达能力。
缺乏可解释性：大多数量子融合电路仍是"黑盒" — 纠缠对跨模态交互的物理意义不明确。
经典主导：大多数工作仅在边缘使用量子电路，融合由经典方法处理。这些方法不能被视为真正的量子多模态融合。
可扩展性：当前 NISQ 硬件限制了量子比特数，使这些模型仅能处理极低维特征。
参数效率：量子模型的一个关键宣称优势 — 指数 Hilbert 空间仅需多项式参数 — 往往未被充分利用。

总结

量子多模态融合领域正在快速增长但仍处于起步阶段。大多数现有工作在经典层面执行融合，或使用缺乏可解释性的黑盒量子电路。在实现可解释量子融合、参数高效和有竞争力的精度方面存在明显空白。我们的 QCMM 框架（见下一篇）通过将 Dempster-Shafer 证据理论映射到量子电路来应对这些挑战。

参考文献

Evidential Vertical Quantum Feature Learning (Evidential Vertical QFL), IEEE TGRS, 2024.
mmQFL: Multimodal Quantum Feature Learning, Information Fusion, 2024.
QMNN: Quantum Multimodal Neural Network, 2024.
Expressive & Scalable Quantum Fusion, 2025.
QMFND: Quantum Multimodal Fake News Detection, 2024.
QMLSC: Quantum Multimodal Learning for Sentiment Classification, 2024.
QFNN: Quantum Fuzzy Neural Network, 2023.
QViLa: Quantum Vision-Language Model, 2024.
QNMF: Quantum Neural Multimodal Fusion, 2024.
MQFL-FHE: Multimodal Quantum Feature Learning with FHE, 2025.
ITQT-MSA: Image-Text Quantum Transformer with Multi-Scale Attention, 2025.
SAMS: Sentiment Analysis using Multimodal Sentiment, 2024.
QTN: Quantum Transformer Network for communications, 2024.
QuantumLeap: Quantum Leap for Financial Time Series, 2025.
$S^2$ENet: Semantic-Enhanced Multimodal Fusion Network for Remote Sensing, IEEE TGRS, 2024.
EndNet: End-to-End Multimodal Fusion, IEEE TGRS, 2021.
CrossFusion: Cross-Modal Feature Fusion, ISPRS, 2022.
FusAtNet: Fusion Attention Network, IEEE TGRS, 2023.
QCMM (Ours): Wu et al., "Feature Entanglement-based Quantum Multimodal Fusion Neural Network", arXiv:2601.07856, 2026. — 详见下一篇