QCMM: 基于证据理论的量子多模态融合神经网络

Quantum Neural Network Multimodal Fusion Dempster-Shafer Theory QCNN

我们提出 QCMM,一个基于特征纠缠的量子多模态融合框架,将 Dempster-Shafer 证据理论映射到量子电路上,实现可解释且参数高效的融合。

动机

经典多模态融合面临根本性困境:特征级融合(深度神经网络)精度高但属于参数爆炸的"黑盒",而决策级融合(如贝叶斯推理、DS 理论)可解释但精度较低。

我们观察到 DS 理论的幂集结构与量子 Hilbert 空间的张量积结构之间存在数学同构。这一洞察使我们能够通过量子纠缠物理实现证据组合规则(合取组合规则,CCR),同时获得可解释性和高表达能力。

架构

QCMM 框架是一个混合量子-经典架构,包含三个关键阶段:

QCMM overall architecture
QCMM 整体架构:多模态输入 → PCA → MLP 对齐 → 量子特征融合 → QCNN → 测量。

阶段 1:单模态特征对齐

经典单层 MLP(隐藏层大小 64,输入/输出维度 8)提取并对齐各模态特征。PCA 用于离线降维至 $d = 8$ 维。MLP 隐式学习语义对齐 — 下游逐位量子融合迫使对应特征映射到正确位置。

$$\mathbf{v}_m = \mathbf{W}_2^{(m)} \sigma(\mathbf{W}_1^{(m)} \mathbf{x}_m + \mathbf{b}_1^{(m)}) + \mathbf{b}_2^{(m)}$$

阶段 2:量子嵌入与证据融合

对齐后的特征通过 angle encoding 编码为量子态:

$$|\psi_m\rangle = \bigotimes_{j=1}^{d} R_y(v_{m,j}) |0\rangle_j$$

初始化目标寄存器 $|0\rangle^{\otimes d}_f$。核心融合使用逐位 CC-$R_y(\theta)$ 门:对每个特征索引 $j$,两个模态量子比特同时控制目标量子比特的旋转。这物理实现了 DS 合取组合规则 — 目标量子比特仅在两个模态同时声明证据(状态 $|1\rangle$)时才旋转。

$$U_f^{(j)}(\theta_j) = (I_{hl} - |11\rangle\langle 11|_{hl}) \otimes I_f + |11\rangle\langle 11|_{hl} \otimes R_y(\theta_j)_f$$

可训练角度 $\theta_j$ 表示赋予组合证据的可学习信任质量。控制寄存器随后被求迹,产生融合后的密度矩阵。

阶段 3:QCNN 深度特征提取

量子卷积神经网络(QCNN)从融合态中分层提取特征。两个堆叠的卷积-池化块将 8 个量子比特压缩为 2 个。我们研究了三种核参数化方案:

  • $U_{SO4}$:$R_y$/$R_z$ 旋转加 CNOT — 适用于实值振幅(6 个参数)
  • $U_{SU4}$:完整 $SU(4)$ 双量子比特幺正 — 最大表达能力(15 个参数)
  • $U_{15}$:硬件高效深度参数化方案,高纠缠能力(4 个参数)

池化使用参数化受控旋转($R_z$、$R_x$)将信息从源量子比特压缩到目标量子比特。最终对 2 个量子比特进行投影测量,通过 Born 规则得到分类概率。

理论性质

参数效率

量子参数总量线性增长:$P_q = d + L \times K$,其中 $d = 8$ 为特征维度,$L = 2$ 为 QCNN 层数,$K < 25$ 为每块常数参数量。QCMM 仅使用 8 个融合参数,而经典 CrossFusion 为 42k,FusAtNet 为 9.2M。

可分解性与并行性

逐位拓扑将全局 24 量子比特系统分解为 8 个独立的三量子比特通道。前向演化和反向梯度都限定在局部子系统内,从根本上防止了贫瘠高原

逻辑可解释性

每个 CC-$R_y(\theta_j)$ 门实现 DS 合取组合规则的一步。旋转角度编码学习到的信任质量:$m(\text{fused}_j) \propto \sin^2(\theta_j / 2)$。$\theta_j$ 越大,模型越信任该跨模态关联。这将融合从不透明操作转化为透明的证据推理。

实验结果

我们在 Houston2013(15 类城区 HSI+LiDAR,4 类子集)和 Trento(6 类乡村 HSI+LiDAR,4 类子集)上进行评估,使用 PyTorch + PennyLane,GPU 为 RTX 3090。

量子融合对比(Houston2013,$U_{SU4}$ 核)

方法融合参数量OAAAKappaF1
Circuit-Block00.95590.98090.97090.9809
All-to-All00.86790.96700.94960.9655
QCMM (Ours)80.98420.98590.97860.9859

经典模型对比

方法总参数量OA
EndNet85k0.9910
CrossFusion99k0.9700
FusAtNet17,440k0.9950
QCMM (Ours)2.2k0.9842

QCMM 以 约 CrossFusion 1/40 的参数约 FusAtNet 1/7900 的参数达到了与最佳经典模型相差 1% 以内的精度。

Model comparison across metrics
QCMM 与经典基线及量子后处理模型在 OA、AA、Kappa 和 F1 指标上的对比。

泛化性

在 Houston2013 和 Trento 的 7 个不同分类任务中,QCMM 保持了稳定的精度(OA 0.85–1.00),波动极小,展现了强泛化能力。

消融实验

  • 去除 MLP:移除单模态 MLP 后 OA 从 0.9842 降至 0.7452 — 证实了特征对齐的关键作用。
  • 固定融合(CC-NOT,$\theta = \pi$):固定融合角度后 OA 降至 0.9661 — 证明可训练参数捕获了有意义的信任质量。
  • 仅 HSI:OA 0.9785;仅 LiDAR:OA 0.8139 — 验证了对互补信息的有效利用。
  • 浅层 QCNN:OA 降至 0.9740 — 确认分层结构是必要的。

结论

QCMM 证明了量子多模态融合可以同时实现可解释性高效性。通过 CC-$R_y$门将 DS 证据理论映射到量子电路,我们实现了:

  • 基于证据理论物理语义的逻辑可解释性
  • 线性参数缩放与指数级特征空间访问
  • 通过逐位可分解性免疫贫瘠高原
  • 尽管参数量少几个数量级,仍达到与经典模型相当的精度

引用本文

If you find this work helpful, please consider citing our paper:

@article{wu2026feature,
  title={Feature Entanglement-based Quantum Multimodal Fusion Neural Network},
  author={Wu, Yu and Zhou, Qianli and Geng, Jie and Deng, Xinyang and Jiang, Wen},
  journal={arXiv preprint arXiv:2601.07856},
  year={2026}
}