CVPR2021论文--深度学习GAN&&图像处理--论文笔记4_cvpr论文图像信号处理-程序员宅基地

技术标签: GAN  数字图像处理  图像彩色化  

/1  Transformer Interpretability Beyond Attention Visualization(注意力可视化之外的Transformer可解释性)

paper:https://arxiv.org/pdf/2012.09838.pdf
code:https://github.com/hila-chefer/Transformer-Explainability

概述:Self-attention技术,特别是Transformer ,在文本处理领域占据主导地位,并在计算机视觉分类任务中越来越受欢迎。现有的方法要么依赖于获得的attention map,要么沿着注意力图进行启发式传播,以直观地显示导致某种分类的图像部分。在这项工作中,我们提出了一种新的使用Transformer 的计算关联的方法。该方法基于深度泰勒分解原理Taylor decomposition标记局部相关性,然后将这些相关性得分通过层传播。这种传播涉及注意层和跳跃连接,这对现有方法构成了挑战。我们的解决方案基于一个特定的公式,该公式显示了跨层保持总体相关性。我们在最近的可视Transformer 网络以及文本分类问题上对我们的方法进行基准测试,并展示了相对于现有的可解释性方法的明显优势。

https://blog.csdn.net/moxibingdao/article/details/106667002

深度泰勒分解原理Taylor decomposition目前深度学习的解释性不强,深度泰勒分解是一种解释神经网络对个体预测的方法。一般来说,是确定哪些输入变量(这里是像素)对图像分类的结果有多大的贡献,特别是图像中的哪些像素与预测结果直接相关,然后将对应的贡献分配到像素热图上,再对热图可视化就可以得到一种解释。如图所示,鲨鱼图像数据通过机器学习盒子经过分类,得到“鲨鱼”这个分类结果,再将分类结果回溯,图像中的与预测的相关部分以红色突出显示。因此热图中像素的强弱会告诉我们图像中的哪些像素会使图像更多/更少地成为“鲨鱼”。

深度泰勒分解:假定f是神经网络学到的预测函数,对其进行关于某个点x0的近似泰勒展开:

/2  Pre-Trained Image Processing Transformer(底层视觉预训练模型)
paper:https://arxiv.org/pdf/2012.00364.pdf

概述:提出了一种处理低水平视觉任务(超分辨率、图像去雾、图像去噪)的预训练模型。随着现代硬件计算能力的强劲增长,在大规模数据集上学习的预训练深度学习模型(如BERT,GPT-3)已经显示出比传统方法更有效的效果。这一重大进展主要得益于transformer及其变体网络模型的表现能力。本文对底层计算机视觉任务(如去噪、超分辨率和去噪)进行了研究,提出了一种新的预训练模型,即图像处理变换器(IPT)。为了最大限度地挖掘转换器的能力,我们提出利用著名的ImageNet基准测试来生成大量损坏的图像对。IPT模型在这些具有多头和多尾的图像上进行训练。此外,为了更好地适应不同的图像处理任务,还引入了对比学习。因此,经过微调后,预先训练的模型可以有效地应用于期望的任务。由于只有一个预先训练的模型,IPT在各种低级基准上的表现优于当前最先进的方法。

提出的图像处理Transformer 。该模型由用于不同任务的multi-head and multi-tail和包含编码器和解码器的共享Transformer 组成。首先将输入的图像转换为视觉特征,然后将其划分成小块作为视觉词进行后续处理。通过集成输出小块,重构出高视觉质量的图像。

头——编码器——解码器——尾

在自然语言任务中,Transformer 的输入是单词序列,图像数据无法作为输入。解决如何使用 Transformer 处理图像的问题是将 Transformer 应用在视觉任务的第一步。不同于高层视觉语义任务的目标是进行特征抽取,底层视觉任务的输入和输出均为图像。除超分辨率任务之外,大多数底层视觉任务的输入和输出维度相同。相比于高层视觉任务,输入和输出维度匹配这一特性使底层视觉任务更适合由 Transformer 处理。具体而言,研究者在特征图处理阶段引入 Transformer 模块,而图像维度匹配则交给了头结构与尾结构。经过头结果将图片变为特征,再对特征进行切块(按照P*P大小切成N块)和拉平(拉成维度为P^2*C的向量)。将每个特征向量当作一个单词送入Transformer ,得到维度相同的特征。这些输出特征再经过整形和拼接操作,还原为与输入相同维度的特征图。如此处理得到的特征图会被送入一个尾结构,被解码为目标图像。

有了头结构和尾结构负责维度变换,Transformer 模块可以专心地做特征处理。这使得多任务的扩展变得简单:对于不同的任务,只需要增加新的头结构与尾结构即可,多种任务之间的 Transformer 模块是共享的。为了适应多任务,研究者在 Transformer 的解码模块中加入了一个可学习的任务编码。

!!!增加头尾结构,将Transformer 应用到CV领域中

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/OpenSceneGraph/article/details/118147554

智能推荐

干盘管蒸发冷-间接蒸发冷的终结者?-孙长青_间接蒸发冷却技术的缺点-程序员宅基地

文章浏览阅读1.2k次。近年来,国家对数据中心行业的能耗要求越来越严格,很多地区,不仅包括北方的北京,甚至南方的上海,都要求新建数据中心的PUE在1.3以下。在此背景下,越来越多的有效节能技术被广泛应用,其中影响较大的有间接蒸发制冷技术和液冷服务器。间接蒸发冷技术,在从南方的深圳至北方的内蒙古海拉尔,都能看到它的身影,而这个技术也确实带来了实实在在的PUE值的降低,据厂家计算,在全国任何地方,均可实现PUE小于1.25。一时成为解决PUE问题的苦口良药。之所以说苦口,是因为间接蒸发冷确实有一些让用户难受的自身特点,如果不具备_间接蒸发冷却技术的缺点

Hive1.2.2详细安装教程_hive1.2.x安装-程序员宅基地

文章浏览阅读149次。hive 详细安装教程_hive1.2.x安装

深度学习原理与实战:深度强化学习(DRL)入门-程序员宅基地

文章浏览阅读60次。深度强化学习是一种结合了深度学习和强化学习的技术,它通过引入神经网络来表示状态、动作和奖励,从而实现更好的模型表现和泛化能力。深度强化学习的核心算法原理包括:策略梯度、动作值、深度Q-Learning和策略梯度与动作值的结合。深度强化学习的具体操作步骤包括:初始化神经网络、初始化策略、初始化学习率、初始化记忆缓存、开始训练、更新策略、更新神经网络和重复步骤。深度强化学习的数学模型公式详细讲解包括策略梯度、动作值、深度Q-Learning和策略梯度与动作值的结合。

JAXB实现XML和Bean互相转换_jaxb xml 转 bean 跨层-程序员宅基地

文章浏览阅读957次。基于JAXB实现xml与bean的互相转换import java.io.IOException;import java.io.StringReader;import java.io.StringWriter;import javax.xml.bind.JAXBContext;import javax.xml.bind.JAXBException;import javax.xml...._jaxb xml 转 bean 跨层

中国地图shp文件_使用 GEOJSON 文件绘制县级和市级中国地图-程序员宅基地

文章浏览阅读2.1k次。连享会-文本分析与爬虫专题研讨班诚邀助教:连享会-文本分析与爬虫专题这篇教程的内容比较。。。丧心病狂。旨在演示灵活组合 geojson 文件绘制复杂的区域地图。我首先是将 34 个省级的 GEOJSON 文件组合起来绘制了市级中国地图,然后又将 344 个市级的 GEOJSON 文件组合起来绘制了县级中国地图。当然绘制县级和市级中国地图的最好办法是使用之前我提供的 shp 文件。除此之外..._中国县域shp文件

Linux虚拟机(Ubuntu)字体大小的调节。_虚拟机linux修改字体大小-程序员宅基地

文章浏览阅读3.7k次,点赞4次,收藏11次。Linux虚拟机(Ubuntu)字体大小的调节。_虚拟机linux修改字体大小

随便推点

Eclipse包资源管理器背景色更改_eclipse更改包区颜色-程序员宅基地

文章浏览阅读6.1k次,点赞8次,收藏8次。Eclipse的白色背景很刺眼,dark主题黑的看不清,还是豆沙绿看着舒服,但是网上的教程只能做到更改代码区的背景色。eclipse本身没有提供更改包资源管理器背景色的选项,但是我们可以修改plugins文件夹中的css文件来做到。首先定位到X:\eclipse\plugins\org.eclipse.ui.themes_1.2.0.v20170517-0622文件夹,找到CSS文件夹,打..._eclipse更改包区颜色

[音乐]阿桑的《叶子》_搜索 阿桑《叶子》-程序员宅基地

文章浏览阅读1.5k次。昨天在网上闲逛时无意中听到这首歌,感觉非常棒,到网上搜了一把,找到一些资料:“阿桑的首张专辑《受了点伤》标榜“秋天到了,请尽情悲伤”,很清楚地点出这张专辑的制作企图与产品定位。由于阿桑的嗓音天生沙哑富有磁性,很适合煽起听者的悲伤情绪,因此这张专辑在制作之前,唱片公司内部上上下下毫无疑义的,一致决定作一张‘很悲伤’的唱片。卸下追求流行前卫曲风的包袱,制作的标准只有2个字:“感情”,企图以真实_搜索 阿桑《叶子》

《吊打面试官》系列-Redis基础-程序员宅基地

文章浏览阅读426次,点赞2次,收藏4次。你知道的越多,你不知道的越多 点赞再看,养成习惯前言叮当小说网 wap.guxs.netRedis在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在Redis的使用和原理方面对小伙伴们进行360°的刁难。作为一个在互联网公司面一次拿一次offer的面霸(请允许我使用一下夸张的修辞手法),打败了无数竞争对手,每次都只能看到无数落寞的身影失望的离开,略感愧疚,在...

Web安全工具大集合-程序员宅基地

文章浏览阅读4.3k次。Test sites / testing groundsSPI Dynamics (live) – http://zero.webappsecurity.com/Cenzic (live) – http://crackme.cenzic.com/Watchfire (live) – http://demo.testfire.net/Acunetix (live) – http:

MySQL开发技巧 - 分页和索引_本关任务:能分页读取表中数据,针对大数据量进行简单优化。-程序员宅基地

文章浏览阅读2.6k次,点赞2次,收藏3次。第1关:MySQL 分页查询本关任务:能分页读取表中数据,针对大数据量进行简单优化。USE Products;#请在此处添加实现代码########## Begin ###########1.分页查询select prod_id from products limit 5,5;#2.用子查询优化分页查询语句select prod_id from products where prod_id >=(select prod_id from products limit 10,1) l_本关任务:能分页读取表中数据,针对大数据量进行简单优化。

WPF 控件专题 Image控件详解_wpf image-程序员宅基地

文章浏览阅读5.3k次。WPF 控件专题 Image控件详解_wpf image

推荐文章

热门文章

相关标签