VADS_速读

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning

https://arxiv.org/abs/2404.14808
// 目前无代码

abstract

这篇文章介绍了一种名为Visual-Augmented Dynamic Semantic Prototype (VADS)的方法,用于生成式零样本学习。VADS旨在通过将视觉增强知识整合到语义条件中,提升生成器学习准确的语义-视觉映射能力。该方法通过设计Visual-aware Domain Knowledge Learning模块和Vision-Oriented Semantic Updation模块,动态更新预定义的语义原型,从而改善对未见类别的泛化能力。实验结果表明,在常规零样本学习和广义零样本学习场景下,VADS取得了显著的成果。

contribution

本文的主要创新点包括:

  1. 引入了Visual-Augmented Dynamic Semantic Prototype (VADS)方法,以增强生成式零样本学习方法的泛化能力,促进知识传递。
  2. 设计了Visual-aware Domain Knowledge Learning模块,利用来自视觉特征的领域视觉先验知识,并设计了Vision-Oriented Semantic Updation模块,动态更新预定义的语义原型,提供更丰富和准确的视觉信息。
  3. 在AWA2、SUN和CUB数据集上进行了广泛的实验,结果表明,视觉先验知识显著提高了生成式零样本学习方法的泛化能力,例如在SUN、CUB和AWA2数据集上,相对于现有方法(如f-CLSWGAN、TF-VAEGAN和FREE),平均提高了6.4%、5.9%和4.2%。

related work

本文的相关工作可以从以下三个方面进行概括:

  1. 基于嵌入的零样本学习

    • 早期的工作将全局视觉特征直接映射到语义空间,但未能捕获局部判别性表示,导致性能不佳。
    • 进一步的研究尝试利用局部特征和语义原型之间的对齐来提高零样本学习的性能。
  2. 生成式零样本学习

    • 生成式ZSL方法通过建立视觉特征和语义原型之间的关联来合成未见类别的特征,取得了显著进展。
    • 条件生成对抗网络(GAN)等框架被广泛应用,通过对齐语义原型和视觉特征来实现特征合成。
  3. 基于大模型的零样本学习

    • 最新研究关注利用大规模视觉-语言模型(如CLIP)等模型进行零样本学习,通过输入类别提示来获取分类权重,从而实现零样本识别。
    • 这些方法与传统的ZSL方法有所不同,强调利用大规模模型的视觉先验知识来提高泛化性能。

method

本文方法的步骤可以详细介绍如下:

  1. Visual-aware Domain Knowledge Learning (VDKL)

    • 输入:训练集中的视觉特征和类别标签。
    • 特征编码:使用Visual Encoder (VE)将视觉特征编码为潜在特征l和潜在编码z。
    • 知识学习:Domain Knowledge Learning network (DKL)通过对VE输出的潜在特征进行优化,学习视觉特征的领域知识,以提高泛化性能。
    • 优化:通过对比损失和证据下界的优化,VDKL模块有效地利用视觉特征来改善生成器的性能。
  2. Vision-Oriented Semantic Updation (VOSU)

    • 输入:预定义的语义原型和视觉表示。
    • 语义更新:VOSU模块根据样本的视觉表示动态更新预定义的语义原型,以更准确地反映视觉-语义关系。
    • 视觉-语义映射:通过视觉-语义映射,VOSU模块提供更丰富和准确的视觉信息,以改善生成器的性能。
  3. 动态语义原型生成

    • 将VDKL和VOSU的输出连接起来形成动态语义原型,作为生成器的条件。
    • 动态语义原型作为生成器的输入条件,用于学习准确的语义-视觉映射,并合成未见类别的特征。

通过这些步骤,VADS方法能够充分利用视觉增强知识,提升生成器的性能,改善泛化能力,并在零样本学习任务中取得显著的成果。

experiments

本文在三个知名的零样本学习基准数据集上进行了广泛的实验,包括Animals with Attributes 2 (AWA2),SUN Attribute (SUN)和Caltech-USCD Birds-200-2011 (CUB)。实验设置如下:

  1. 数据集划分

    • 使用Proposed Split (PS)设置将每个数据集划分为已见类别和未见类别,确保实验的一致性。
  2. 评估协议

    • 在推断阶段(进行常规零样本学习和广义零样本学习分类),遵循[47]中的评估协议。
    • 在常规零样本学习设置下,计算未见类别的平均每类Top-1准确率(Acc)。
    • 在广义零样本学习场景中,测量已见类别和未见类别的Top-1准确率(分别表示为S和U),并计算谐波平均值H = (2 × S × U) / (S + U)。
  3. ZSL分类器训练和推断

    • 在合成特征后,将已见类别训练特征和合成的未见类别特征输入到VE中提取潜在特征,并将它们连接以增强原始特征,减轻跨数据集偏差。
    • 使用增强的合成特征训练CZSL分类器(fCZSL: X → Yu),并使用增强的已见类别训练特征和增强的合成特征训练GZSL分类器(fGZSL: X → Ys ∪ Yu)。
    • 最后,使用测试集Ds_te和Du进行推断。

通过这些实验设置和协议,研究人员能够全面评估他们提出的VADS方法在不同数据集上的性能表现,并与其他最先进的方法进行比较,以验证其有效性和泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/765708.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ViewBinding的使用(因为kotlin-android-extensions插件的淘汰)

书籍: 《第一行代码 Android》第三版 开发环境: Android Studio Jellyfish | 2023.3.1 问题: 3.2.4在Activity中使用Toast章节中使用到了kotlin-android-extensions插件,但是该插件已经淘汰,根据网上了解,目前使用了新的技术VewBinding替…

Shiro框架

入门概述 1 shiro是什么? Apache Shiro 是一个功能强大且易于使用的 Java 安全(权限)框架。Shiro 可以完成:认证、授权、加密、会话管理、与 Web 集成、缓存 等。借助 Shiro 您可以快速轻松地保护任何应用程序——从最小的移动应用程序到最大的 Web 和企业应用程…

Spring之spring的单例bean是线程安全的吗

Spring单例bean是线程安全的吗? 不是线程安全的。 1、Bean的作用域 Service Scope("singleton") public class UserServiceImpl implements UserService{ } singleton (默认):bean在每个Spring IOC容器中只有一个实例…

【C++进阶学习】第五弹——二叉搜索树——二叉树进阶及set和map的铺垫

二叉树1:深入理解数据结构第一弹——二叉树(1)——堆-CSDN博客 二叉树2:深入理解数据结构第三弹——二叉树(3)——二叉树的基本结构与操作-CSDN博客 二叉树3:深入理解数据结构第三弹——二叉树…

BAS(入侵与攻击模拟)正在替代红队测试?

之前经常会被用户问到,漏扫、渗透和红队红的区别是啥? 传统的漏扫、渗透和红蓝对抗,可以看到工具化的漏洞不可靠,人工的成本就高。怎么找到一个漏洞可信度又高,成本又低的,就诞生了BAS。 抛开漏扫&#xf…

实体行业零基础做短视频矩阵,轻松实现海量曝光!

​在很多人的理解中,抖音是一个不错的盈利渠道,就像早些年的某宝、某多一样,我们现在在抖音看到的许多账号,大的IP,大多数都是品牌方、MCN机构,或者草根的网红等,但还是有不少实体老板没有入局&…

ShareSDK iOS端如何实现小红书分享

下载SDK 请登陆官网 ,找到SDK下载,勾选需要的平台下载 导入SDK (1)离线导入将上述下载到的SDK,直接将整个SDK资源文件拖进项目里,如下图: 并且勾选以下3个选项 在点击Finish,…

Python - 递归函数(Recursive Function)的速度优化 (Python实现)

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/140137432 免责声明:本文来源于个人知识与开源资料,仅用于学术交流,不包含任何商业技术,欢迎相互学…

RTSP协议在视频监控系统中的典型应用、以及视频监控设备的rtsp地址格式介绍

目录 一、协议概述 1、定义 2、提交者 3、位置 二、主要特点 1、实时性 2、可扩展性 3、控制功能 4、回放支持 5、网络适应性 三、RTSP的工作原理 1、会话准备 2、会话建立 3、媒体流控制 4、会话终止 5、媒体数据传输 四、协议功能 1、双向性 2、带外协议 …

Studying-代码随想录训练营day26| 491.递增子序列、46.全排列、47.全排列 II、51.N皇后、37.解数独、回溯总结

第26天,回溯part04,昨天休息复习总结回溯内容,💪(ง •_•)ง💪 目录 491.递增子序列 46.全排列 47.全排列 II 51.N皇后 37.解数独 回溯总结 491.递增子序列 文档讲解:代码随想录递增子序列 视频讲…

d3dcompiler47dll丢失怎么解决,总结几种靠谱的方法

在日常生活和工作中,电脑已经成为我们不可或缺的工具。然而,在使用电脑的过程中,我们常常会遇到一些错误提示,其中之一就是“找不到d3dcompiler_47.dll”。这个问题可能会对电脑系统的正常运行造成一定的影响,因此我们…

多商户b2b2c商城系统怎么运营

B2B2C多用户商城系统支持多种运营模式,以满足不同类型和发展阶段的企业需求。以下是五大主要的运营模式: **1. 自营模式:**平台企业通过建立自营线上商城,整合自身多渠道业务。通过会员、商品、订单、财务和仓储等多用户商城管理系…

旧版st7789屏幕模块 没有CS引脚的天坑 已解决!!!

今天解决了天坑一个,大家可能有的人买的是st7789屏幕模块,240x240,1.3寸的 他标注的是老版,没有CS引脚,小崽子长这样: 这熊孩子用很多通用的驱动不吃,死活不显示,网上猛搜&#xff…

【简单讲解神经网络训练中batch的作用】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

pdf怎么拆分成一页一页?4种拆分方法分享

在日常的办公学习中,PDF文档因其跨平台、易阅读、不易篡改等特性,成为我们工作和学习中不可或缺的一部分。然而,当我们需要对PDF进行编辑、打印或分享时,有时需要将整个PDF文档拆分成一页一页的单独文件。那么,如何高效…

嵌入式学习——硬件(Linux系统在2440上的启动)——day57

1. Linux2.6系统在s3c2440上的启动过程分三个阶段 1.1 启动u-boot 1.2 启动Linux内核 1.3 挂载根文件系统 2. bootloader 2.1 定义 bootloader的本质是一个裸机程序,bootlood专门是为了能够正确地启动linux操作系 统,在系统初上电时需要对系统做一些…

TFD那智机器人仿真离线程序文本转换为现场机器人程序

TFD式样那智机器人离线程序通过Process Simulation、DELMIA等仿真软件为载体给机器人出离线,下载下来的文本程序,现场机器人一般是无法导入及识别出来的。那么就需要TFD on Desk TFD控制器来进行转换,才能导入现场机器人读取程序。 导入的文…

CAN通信波形【示波器抓取】

在测试bms系统过程中,在上位机发现无法读取CAN通信,尝试使用示波器抓取CAN通信波形,,去确定CAN通信是否正常。 做一想要从车上测出can总线上的数据还不太容易。 于是我首先使用示波器(我使用的示波器型号是TDS 220&am…

NSSCTF-Web题目19(数据库注入、文件上传、php非法传参)

目录 [LitCTF 2023]这是什么?SQL !注一下 ! 1、题目 2、知识点 3、思路 [SWPUCTF 2023 秋季新生赛]Pingpingping 4、题目 5、知识点 6、思路 [LitCTF 2023]这是什么?SQL !注一下 ! 1、题目 2、知识…

全球首款商用,AI为视频自动配音配乐产品上线

近日,海外推出了一款名为Resona V2A的产品,这是全球首款商用视频转音频 (V2A) 技术产品。这项突破性技术利用AI,仅凭视频数据即可自动生成高质量、与上下文相关的音频,包括声音设计、音效、拟音和环境音,为电影制作人、…