SiamFT：通过完全卷积孪生网络进行的RGB红外融合跟踪方法-程序员宅基地

技术标签：深度学习神经网络

论文下载地址

[SiamFT论文地址]
[论文部分纠正地址]

代码下载地址

[GitHub-unofficial]代码本人所写，没有预训练权重，代码仅供参考

论文作者

XINGCHEN ZHANG, PING YE, SHENGYUN PENG, JUN LIU, KE GONG1AND GANGXIAO

模型讲解

[背景介绍]

此SIamFT网络是利用光学和红外图像进行数据融合，并应用于视频跟踪领域。阅读此博文前推荐先阅读[VIF-Net：红外和可见图像融合的无监督框架]。VIF-Net就给出了一种无监督的数据融合网络，但是网络只是进行数据融合，没有应用于其他的领域。另外，普通的视频跟踪方法，并没有使用多种数据，阅读此博文前推荐先阅读[视频跟踪]中的论文解读，其中都是基于孪生网络的深度学习方法。

[论文解读]

视频跟踪方法上，比较流行的方法是深度学习方法和相关滤波算法，前者取得了更好的性能，后者拥有更好的效率。
视频跟踪数据上，大多数视频跟踪算法是针对可见图像（RGB图像）开发的。尽管取得了显着进步，但基于可见图像的跟踪算法可能会失败，因为在某些情况下它们可能不可靠。例如，当照明条件差时。相反，红外图像显示了物体的热信息，并且对这些因素不敏感。它们可以为可见图像提供补充信息，并在黑暗等情况下显示被伪装的物体。此外，在某些情况下，RGB图像比红外图像更可靠，因为它们具有颜色特征并可以提供更多细节，如下图所示。

通过利用可见光和红外图像中的补充信息，可以显着提高跟踪算法的鲁棒性。因此，基于可见光和热红外图像的目标跟踪已成为研究的热点，被称为RGB红外融合跟踪。
在本文中，作者提出了一种有高效的RGB红外融合跟踪方法，该方法可以实时跟踪并可以与目前先进跟踪器相互竞争的性能。也就是作者提出了一种基于完全卷积的孪生网络的融合跟踪方法，并将其称为SiamFT。

[SiamFT的网络结构]

SiamFT的流程图如下图所示。可以说SIamFT使用了双重的孪生网络，可见光网络和红外网络。它们分别用于处理可见图像和红外图像。backbone使用的是SiamFC网络，网络权值可能不共享，可见光部分的网络权值共享，红外部分网络权值共享，也就是下图灰色的部分。

backbone的结构在下图中给出。可以看出，除最后一个卷积层之外，每个卷积层之后都是ReLU层。而且，仅在前两个卷积层之后使用池化层。此外，该CNN是完全卷积的，因此对输入图像的大小没有限制要求。

在网络输入方面，与SiamFC相同，都是从中心截取。对于模板图像，在第一帧中以标记中心为中心截取 $127 \times 127 \times 3$ 的图像。对于搜索图像，以上一帧框中心为中心截取 $255 \times 255 \times 3$ 的图像，如果尺寸不够裁剪，则在裁剪后以平均像素值进行填充。
SiamFT网络在数据融合上，要经过模板特征融合和搜索特征融合。
①模板特征融合
在可见光和红外模板图像经过backbone后产生的深层特征进行相连，这里是通道相连，产生融合特征。
②搜索特征融合
在可见光和红外搜索图像经过backbone后产生的深层特征送入特征融合网络，网络的具体操作会在后面说明。
最后，生成新的模板特征和搜索特征，进行相互卷积，生成响应图，意义就是在搜索图像中模板图像的响应值。这一部分的具体内容和[SiamFC：利用全卷积孪生网络进行视频跟踪]中没有区别。
如果可见光部分backbone操作为 $φ$ ，红外部分backbone操作为 $φ'$ ， $z_v$ 和 $x_v$ 分别为输入可见光部分的模板图像和搜索图像， $z_t$ 和 $x_t$ 分别为输入红外部分的模板图像和搜索图像，那么生成响应图可以表示为： $responseMap=(φ(z_v)⊕φ′(z_t))*(φ(x_v)⊕φ′(x_t))$ 其中 $*$ 代表相关运算也就是卷积操作， $\oplus$ 代表特征融合，注意两个 $\oplus$ 的融合方法是不一样的但是都是特征融合。作者为了方便研究令 $φ$ 与 $φ'$ 相同，权值共享。
下面的算法流程展示了SiamFT的过程。

算法1：基于孪生网络的融合跟踪算法(SiamFT)
`1` 输入可见图像和红外图像，第一帧的Groundtruth
`2` 输出每个帧中目标的预测位置和大小
`3` 初始化
`4` 裁剪可见光图像获得模板图像 $z_v$
`5` 裁剪红外图像获得模板图像 $z_t$
`6` 跟踪
`7` 对于每一帧 $i$ 运行
`8` 裁剪当前帧可见光图像获得搜索图像 $x_v$
`9` 裁剪当前帧红外图像获得搜索图像 $x_t$
`10` 将 $z_v$ 和 $x_v$ 送入可见光部分网络得到 $φ(z_v)$ 和 $φ(x_v)$
`11` 将 $z_t$ 和 $x_t$ 送入红外部分网络得到 $φ′(z_t)$ 和 $φ′(x_t)$
`12` 基于 $z_v$ 和 $x_v$ 计算可见光特征模态权重
`13` 基于 $z_t$ 和 $x_t$ 计算红外特征模态权重
`14` 利用特征融合网络融合 $φ(z_v)$ 和 $φ′(z_t)$ ，得到融合模板特征 $φ(z_v)⊕φ′(z_t)$
`15` 利用特征融合网络融合 $φ(x_v)$ 和 $φ′(x_t)$ ，得到融合搜索特征 $φ(x_v)⊕φ′(x_t)$
`16` 根据公式 $responseMap=(φ(z_v)⊕φ′(z_t))*(φ(x_v)⊕φ′(x_t))$ 计算响应图
`17` 对响应图上采样获得目标的预测位置
`18` 循环结束

[特征融合网络]

这一部分具体介绍了特征融合的操作。下图展示了特征融合网络的结构。特征融合网络的目的是对可见光和红外的搜索特征进行融合，同时作者也利用搜索图像的特征，生成新的搜索特征。注意生成新的模板特征只是通过多通道叠加，生成新的搜索特征利用新的网络。

[模态权重计算]

特征融合网络的关键是模态权重的计算，在本研究中，作者提出了一种基于从互相关计算中获得的响应值的模态权重计算方法。简单理解就是，可见光和红外特征的贡献是不一样的，可以赋上一组权重，叫做模态权重。权重的计算主要依赖与哪一种搜索特征与模板特征更相似，更相似的就更容易进行跟踪，其对应的模态权重也就越大。这也与注意力机制相似，使网络更注重与需要的特征。

如上图所示（原论文中图片错误，在作者更正论文中进行了更正，上图正确），上面一排是可见光图像，下面一排是红外图像，下面的折线图中，蓝色是可见光响应图的最大值，红色是红外响应图的最大值。
左边图像序列第3帧中可见光图像比红外图像更清晰，所以可见光特征的响应图最大值高于红外特征，所以需要更多利用可见光特征进行融合。
右边是由于黑暗导致可见光图像目标不清晰，在可见光质量不好的情况下，需要更多利用红外特征进行融合，所以红外特征的模态权值会更高，也就是红色的线会高于蓝色。这些也可以说明通过互相关层的响应图最大值可以作为模态权重。所以模态权重可以定义为：
$\text { weight }_{i}=\left\{\begin{array}{ll} \max \left(R_{i}\right), if & d<\text { threshold } \\ \frac{\max \left(R_{i}\right)}{\sqrt{d}}, i f & d \geq \text { threshold }\end{array}\right.$ 其中 $i$ 代表模态，就是可见光和红外两种， $R_i$ 代表 $i$ 的响应图，其中作者引入 $d$ 是连续两帧目标的距离，在视频跟踪中，两帧之间的距离不会过大，所以一旦超出一个阈值，会对模态权重进行限制。然后进行权重归一化：
$\begin{aligned} &\omega_{v}=\frac{\text {weight}_{v}}{\text {weight}_{v}+\text {weight}_{t}}\\ &\omega_{t}=\frac{\text {weight}_{t}}{\text {weight}_{v}+\text {weight}_{t}} \end{aligned}$ 其中 $ω_v$ 和 $ω_t$ 分别是可见光特征和红外特征的归一化模态权重。

[特征融合]

模板是从第一帧获得的，并且在跟踪过程中未更新，因此，融合后的模板为：
$φ(z_v)⊕φ′(z_t)=concat(φ(z_v),φ′(z_t))$
这里只是在第一帧，将两个模板特征通道叠加，没有赋予权重。而在第二帧开始将会结合模态权重：
$φ(z_v)⊕φ′(z_t)=concat(ω_v×φ(z_v),ω_t×φ′(z_t))$ 其中 $ω_v$ 和 $ω_t$ 分别是可见图像和红外图像的模态权重。

[训练过程]

[损失函数]

利用网络的输出和标记的响应图，计算损失函数：
$v)=\frac{1}{|D|} \sum_{u \in D} \log (1+\exp (-y[u] \cdot v[u]))$
其中 $y [u]$ 与 $v [u]$ 分别表示网络的输出和Groundtruth，对响应图遍历取平均值。
训练50epoch，一个epoch50K个图像对，学习率为 $10^{-2}-10^{-5}$ 。

[性能指标]

具体性能指标可以阅读[视频跟踪数据集指标分析]。其中SR类似于VOT中的Accuracy，PR类似于VOT中的Center Error。

[结果分析]

[定量结果]

在十九种RGB红外视频的所有比较跟踪器中，作者提出的SiamFT在SR方面均达到最佳结果，在PR方面获得次优（略差于最佳）。特别是，在SR方面，SiamFT在7个序列上均优于所有追踪器，在PR方面，它在6个序列上均优于所有追踪器。此外，SiamFT在SR的16个视频和PR的13个视频中均排名前三。这清楚地证明了SiamFTin在RGB红外融合跟踪中的有效性。

SR方面如下表，表格中红色最好，绿色第二，蓝色第三。

PR方面如下表，表格中红色最好，绿色第二，蓝色第三。

[定性结果]

下图展示了一些视频上不同跟踪器之间边界框的定性比较，这从视觉上证明了作者方法的有效性。可以发现，在某些挑战性条件下（例如遮挡，比例尺变化，照明条件较差），建议的跟踪器更加强大。

[运行时间]

作者提出的跟踪器的运行速度约为28-32FPS，因此可以满足实时性要求。这比速度仅为几个FPS的方法（例如SGT（5 FPS）和LGMG（7FPS））更快，更实用，证明了所提方法的效率。

传送门

◉ RGB红外
数据集
[TNO-RGB红外图像]
[FLIR-RGB红外图像]
[Multispectral Image Recognition-RGB红外目标检测]
[Multispectral Image Recognition-RGB红外语义分割]
[INO-RGB红外视频]
[SYSU-MM01行人重识别可见光红外数据]
论文
[VIF-Net：RGB和红外图像融合的无监督框架]
[SiamFT：通过完全卷积孪生网络进行的RGB红外融合跟踪方法]
[TU-Net/TDeepLab：基于RGB和红外的地形分类]
[RTFNet：用于城市场景语义分割的RGB和红外融合网络]
[DenseFuse：红外和可见图像的融合方法]
[MAPAN：基于自适应行人对准的可见红外跨模态行人重识别网络]

◉ 多光谱高光谱
数据集
[高光谱图像数据]
论文
[Deep Attention Network：基于深层注意力网络的高光谱与多光谱图像融合]

◉ RGBSAR
数据集
[待更新]
论文
[待更新]

◉ RGB红外SAR
数据集
[待更新]
论文
[待更新]

大家有数据融合方向的优秀论文可以在评论分享一下，感谢。

本文链接：https://blog.csdn.net/qq_36449741/article/details/104610986

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

JWT(Json Web Token)实现无状态登录_无状态token登录-程序员宅基地

文章浏览阅读685次。1.1.什么是有状态？有状态服务，即服务端需要记录每次会话的客户端信息，从而识别客户端身份，根据用户身份进行请求的处理，典型的设计如tomcat中的session。例如登录：用户登录后，我们把登录者的信息保存在服务端session中，并且给用户一个cookie值，记录对应的session。然后下次请求，用户携带cookie值来，我们就能识别到对应session，从而找到用户的信息。缺点是什么？服务端保存大量数据，增加服务端压力服务端保存用户状态，无法进行水平扩展客户端请求依赖服务.._无状态token登录

SDUT OJ逆置正整数-程序员宅基地

文章浏览阅读293次。SDUT OnlineJudge#include<iostream>using namespace std;int main(){int a,b,c,d;cin>>a;b=a%10;c=a/10%10;d=a/100%10;int key[3];key[0]=b;key[1]=c;key[2]=d;for(int i = 0;i<3;i++){ if(key[i]!=0) { cout<<key[i.

年终奖盲区_年终奖盲区表-程序员宅基地

文章浏览阅读2.2k次。年终奖采用的平均每月的收入来评定缴税级数的，速算扣除数也按照月份计算出来，但是最终减去的也是一个月的速算扣除数。为什么这么做呢，这样的收的税更多啊，年终也是一个月的收入，凭什么减去12*速算扣除数了？这个霸道（不要脸）的说法，我们只能合理避免的这些跨级的区域了，那具体是那些区域呢？可以参考下面的表格：年终奖一列标红的一对便是盲区的上下线，发放年终奖的数额一定一定要避免这个区域，不然公司多花了钱..._年终奖盲区表

matlab 提取struct结构体中某个字段所有变量的值_matlab读取struct类型数据中的值-程序员宅基地

文章浏览阅读7.5k次，点赞5次，收藏19次。matlab结构体struct字段变量值提取_matlab读取struct类型数据中的值

Android fragment的用法_android reader fragment-程序员宅基地

文章浏览阅读4.8k次。1，什么情况下使用fragment通常用来作为一个activity的用户界面的一部分例如, 一个新闻应用可以在屏幕左侧使用一个fragment来展示一个文章的列表,然后在屏幕右侧使用另一个fragment来展示一篇文章 – 2个fragment并排显示在相同的一个activity中,并且每一个fragment拥有它自己的一套生命周期回调方法,并且处理它们自己的用户输_android reader fragment

FFT of waveIn audio signals-程序员宅基地

文章浏览阅读2.8k次。FFT of waveIn audio signalsBy Aqiruse An article on using the Fast Fourier Transform on audio signals. IntroductionThe Fast Fourier Transform (FFT) allows users to view the spectrum content of _fft of wavein audio signals

随便推点

Awesome Mac：收集的非常全面好用的Mac应用程序、软件以及工具_awesomemac-程序员宅基地

文章浏览阅读5.9k次。https://jaywcjlove.github.io/awesome-mac/ 这个仓库主要是收集非常好用的Mac应用程序、软件以及工具，主要面向开发者和设计师。有这个想法是因为我最近发了一篇较为火爆的涨粉儿微信公众号文章《工具武装的前端开发工程师》，于是建了这么一个仓库，持续更新作为补充，搜集更多好用的软件工具。请Star、Pull Request或者使劲搓它 issu_awesomemac

java前端技术---jquery基础详解_简介java中jquery技术-程序员宅基地

文章浏览阅读616次。一.jquery简介 jQuery是一个快速的，简洁的javaScript库，使用户能更方便地处理HTML documents、events、实现动画效果，并且方便地为网站提供AJAX交互 jQuery 的功能概括1、html 的元素选取2、html的元素操作3、html dom遍历和修改4、js特效和动画效果5、css操作6、html事件操作7、ajax_简介java中jquery技术

Ant Design Table换滚动条的样式_ant design ::-webkit-scrollbar-corner-程序员宅基地

文章浏览阅读1.6w次，点赞5次，收藏19次。我修改的是表格的固定列滚动而产生的滚动条引用Table的组件的css文件中加入下面的样式：.ant-table-body{ &amp;::-webkit-scrollbar { height: 5px; } &amp;::-webkit-scrollbar-thumb { border-radius: 5px; -webkit-box..._ant design ::-webkit-scrollbar-corner

javaWeb毕设分享健身俱乐部会员管理系统【源码+论文】-程序员宅基地

文章浏览阅读269次。基于JSP的健身俱乐部会员管理系统项目分享:见文末!

论文开题报告怎么写？_开题报告研究难点-程序员宅基地

文章浏览阅读1.8k次，点赞2次，收藏15次。同学们，是不是又到了一年一度写开题报告的时候呀？是不是还在为不知道论文的开题报告怎么写而苦恼?Take it easy!我带着倾尽我所有开题报告写作经验总结出来的最强保姆级开题报告解说来啦，一定让你脱胎换骨，顺利拿下开题报告这个高塔，你确定还不赶快点赞收藏学起来吗？_开题报告研究难点

原生JS 与 VUE获取父级、子级、兄弟节点的方法及一些DOM对象的获取_获取子节点的路径 vue-程序员宅基地

文章浏览阅读6k次，点赞4次，收藏17次。原生先获取对象var a = document.getElementById("dom");vue先添加ref <div class="" ref="divBox">获取对象let a = this.$refs.divBox获取父、子、兄弟节点方法var b = a.childNodes; 获取a的全部子节点 var c = a.parentNode; 获取a的父节点var d = a.nextSbiling; 获取a的下一个兄弟节点 var e = a.previ_获取子节点的路径 vue