VADS_速读

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning

https://arxiv.org/abs/2404.14808
// 目前无代码

abstract

这篇文章介绍了一种名为Visual-Augmented Dynamic Semantic Prototype (VADS)的方法，用于生成式零样本学习。VADS旨在通过将视觉增强知识整合到语义条件中，提升生成器学习准确的语义-视觉映射能力。该方法通过设计Visual-aware Domain Knowledge Learning模块和Vision-Oriented Semantic Updation模块，动态更新预定义的语义原型，从而改善对未见类别的泛化能力。实验结果表明，在常规零样本学习和广义零样本学习场景下，VADS取得了显著的成果。

contribution

本文的主要创新点包括：

引入了Visual-Augmented Dynamic Semantic Prototype (VADS)方法，以增强生成式零样本学习方法的泛化能力，促进知识传递。
设计了Visual-aware Domain Knowledge Learning模块，利用来自视觉特征的领域视觉先验知识，并设计了Vision-Oriented Semantic Updation模块，动态更新预定义的语义原型，提供更丰富和准确的视觉信息。
在AWA2、SUN和CUB数据集上进行了广泛的实验，结果表明，视觉先验知识显著提高了生成式零样本学习方法的泛化能力，例如在SUN、CUB和AWA2数据集上，相对于现有方法（如f-CLSWGAN、TF-VAEGAN和FREE），平均提高了6.4%、5.9%和4.2%。

related work

本文的相关工作可以从以下三个方面进行概括：

基于嵌入的零样本学习：
- 早期的工作将全局视觉特征直接映射到语义空间，但未能捕获局部判别性表示，导致性能不佳。
- 进一步的研究尝试利用局部特征和语义原型之间的对齐来提高零样本学习的性能。
生成式零样本学习：
- 生成式ZSL方法通过建立视觉特征和语义原型之间的关联来合成未见类别的特征，取得了显著进展。
- 条件生成对抗网络（GAN）等框架被广泛应用，通过对齐语义原型和视觉特征来实现特征合成。
基于大模型的零样本学习：
- 最新研究关注利用大规模视觉-语言模型（如CLIP）等模型进行零样本学习，通过输入类别提示来获取分类权重，从而实现零样本识别。
- 这些方法与传统的ZSL方法有所不同，强调利用大规模模型的视觉先验知识来提高泛化性能。

method

本文方法的步骤可以详细介绍如下：

Visual-aware Domain Knowledge Learning (VDKL)：
- 输入：训练集中的视觉特征和类别标签。
- 特征编码：使用Visual Encoder (VE)将视觉特征编码为潜在特征l和潜在编码z。
- 知识学习：Domain Knowledge Learning network (DKL)通过对VE输出的潜在特征进行优化，学习视觉特征的领域知识，以提高泛化性能。
- 优化：通过对比损失和证据下界的优化，VDKL模块有效地利用视觉特征来改善生成器的性能。
Vision-Oriented Semantic Updation (VOSU)：
- 输入：预定义的语义原型和视觉表示。
- 语义更新：VOSU模块根据样本的视觉表示动态更新预定义的语义原型，以更准确地反映视觉-语义关系。
- 视觉-语义映射：通过视觉-语义映射，VOSU模块提供更丰富和准确的视觉信息，以改善生成器的性能。
动态语义原型生成：
- 将VDKL和VOSU的输出连接起来形成动态语义原型，作为生成器的条件。
- 动态语义原型作为生成器的输入条件，用于学习准确的语义-视觉映射，并合成未见类别的特征。

通过这些步骤，VADS方法能够充分利用视觉增强知识，提升生成器的性能，改善泛化能力，并在零样本学习任务中取得显著的成果。

experiments

本文在三个知名的零样本学习基准数据集上进行了广泛的实验，包括Animals with Attributes 2 (AWA2)，SUN Attribute (SUN)和Caltech-USCD Birds-200-2011 (CUB)。实验设置如下：

数据集划分：
- 使用Proposed Split (PS)设置将每个数据集划分为已见类别和未见类别，确保实验的一致性。
评估协议：
- 在推断阶段（进行常规零样本学习和广义零样本学习分类），遵循[47]中的评估协议。
- 在常规零样本学习设置下，计算未见类别的平均每类Top-1准确率（Acc）。
- 在广义零样本学习场景中，测量已见类别和未见类别的Top-1准确率（分别表示为S和U），并计算谐波平均值H = (2 × S × U) / (S + U)。
ZSL分类器训练和推断：
- 在合成特征后，将已见类别训练特征和合成的未见类别特征输入到VE中提取潜在特征，并将它们连接以增强原始特征，减轻跨数据集偏差。
- 使用增强的合成特征训练CZSL分类器（fCZSL: X → Yu），并使用增强的已见类别训练特征和增强的合成特征训练GZSL分类器（fGZSL: X → Ys ∪ Yu）。
- 最后，使用测试集Ds_te和Du进行推断。