Review of RGB-T and MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking_大别山伧父的博客-程序员宝宝

技术标签: r语言  Paper  目标跟踪  开发语言  

许多RGB-T跟踪器试图利用自适应加权方案(或注意力机制)来实现鲁棒特征表示。与这些工作不同的是,我们提出了一种新的动态模态感知滤波器生成模块(MFGNet),在实际跟踪中,通过自适应调整卷积核来增强可见光数据和热数据之间的信息通信。给定图像对作为输入,首先用骨干网对其特征进行编码。然后,我们将这些特征映射连接起来,生成带有两个独立网络的动态模态感知滤波器。使用可见滤波器和热滤波器分别对其对应的输入特征图进行动态卷积运算。受残差连接的启发,将生成的可见和热特征图与输入特征图进行汇总。增强后的特性映射将被输入RoI对齐模块,以生成实例级特性用于后续分类。为了解决严重遮挡、快速运动和视野外的问题,我们提出利用一种新的方向感知目标驱动注意机制进行局部和全局联合搜索。空间和时间递归神经网络用于捕获方向感知上下文,以实现准确的全局注意力预测。在3个大型RGB-T跟踪基准数据集上的实验验证了本文算法的有效性。本文的项目页面可以在https://sites.google.com/view/mfgrgbttrack/上找到。

Review in Introduction (diss someone)

  • Resort to multimodal data to improve the performance

  • Modal the relations between dual modalities using
    a. element-wise addition 22
    b. concatenation 23
    c. convolution operation 24
    d. considering the quality of different data 14 18 20 25 26
    e. supressing the noise in the bounding box 14 20 25
    f. selecting useful features 26

  • Utilize attention mechanisms to learn different modality weights and achieve better tracking results 27

  • However, …

  • Dynamatic convolutional operation + spatial and channel attention

Review in Related Work (small scale)

  • RGB-T tracking
  • dynamatic filter generation 根据输入数据学习特征参数
  • visual attention 来源于认知神经系统
  • LSTM 序列数据处理

Method

在这里插入图片描述

A. Problem Formulation

  • i-th input RGB and thermal image pairs I v i , I t i I_v^i, I_t^i Ivi,Iti
  • RGB-T tracking task is formulated as a classification problem
  • 区分给定的N个前景或背景的 ( x 1 , i , x 2 , i , . . . , x N , i ) (x_{1,i},x_{2,i},...,x_{N,i}) (x1,i,x2,i,...,xN,i).Select the proposal with maximum classification score
  • x ^ j , i = a r g m a x x j , i c l a s s i f i e r ( x j , i ) , j = 1 , . . . , N \hat{x}_{j,i}=argmax_{x_{j,i}} classifier(x_{j,i}), \quad j=1,...,N x^j,i=argmaxxj,iclassifier(xj,i),j=1,...,N
  • 在此过程中,如何自适应融合双模态是跟踪成功的关键。
  • 模态感知滤波器 modality-aware filters z v , z t z_v,z_t zv,zt
  • [ z v , z t ] = F θ ( [ C N N ( I v i ) ; C N N ( I t i ) ] ) [z_v, z_t]=F_\theta([CNN(I_v^i); CNN(I_t^i)]) [zv,zt]=Fθ([CNN(Ivi);CNN(Iti)])
  • F θ F_\theta Fθ表示MFGNet, θ \theta θ is learnable parameters, [;] 表示concatenate operation, CNN 为backbone网络.
  • 利用这些动态滤波器,我们对骨干获得的特征图进行卷积运算。这个程序可以表述为:
  • F ^ v = C N N ( I v i ) ⊗ z v ; F ^ t = C N N ( I t i ) ⊗ z t \hat{F}_v=CNN(I_v^i)\otimes z_v; \hat{F}_t=CNN(I_t^i)\otimes z_t F^v=CNN(Ivi)zv;F^t=CNN(Iti)zt
  • ⊗ \otimes is convolutional operation
  • ⊕ \oplus ⊗ \otimes 结合,使用element-wise addition 与 convolutional operation,利用residual的思想。 \copyright c表示concatenate。 ⊛ \circledast 表示dot product/ matrix multiplication
  • 在这里插入图片描述
  • direction-aware target driven attention network (daTANet)
  • 在这里插入图片描述
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/My_Communication/article/details/120994614

智能推荐

Python——Index()用法_用index检查序号python_疯狂java杰尼龟的博客-程序员宝宝

前言网上搜索了半天差点脑溢血(看代码经常这样==),大多讲解到str1.index(str2)这一步,有些讲解了start end 但是没有讲的很清楚。本文主要参考Python index 怎么用,并做一个补充和强调。目录前言功能语法参数返回值功能Python中index() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,该方法与 python find()方法一样,只不过如果str不在 string中会报一个异常。

BZOJ 2386: [Ceoi2011]Team_sillyf的博客-程序员宝宝

手撸了几波小数据容易发现最优解之一是所有人都按a[i]排序后再一段一段分开如果不是这样的话,总会可以通过一些交换使之变成有序的考虑dp,排序后f[i]=max{f[i-k]+1},k#include#include#define N 1000005using namespace std; int read(){ int a=0,f=1;char c=ge

STM32串口通讯_木星炮的博客-程序员宝宝

STM32串口通讯USART串口通信实践USART串口通信实践1、实验环境参考资料 野火官方的 《零死角玩转STM32—F103指南者》① 野火指南者(STM32F103VE)② IDE:KEIL5 MDK③ 实验所用串口:USART1硬件原理图:这里 CH340G芯片 的作用是将电脑的USB电平转换为串口的TTL电平。2、实验要求STM32系统给上位机(win10)连续发送“hello windows!”,上位机接收程序可以使用“串口调试助手“,也可自己编程。当上位机给stm

MediaPlayer播放视频与AudioFlinger交互流程_zhanxiaoqi的博客-程序员宝宝

status_t MediaPlayerService::Client::setDataSource(        const char *url, const KeyedVector *headers) {player_type playerType = MediaPlayerFactory::getPlayerType(this, url);        sp p = setD

adb 常用命令_weixin_30246221的博客-程序员宝宝

adb 命令模拟按键事件 模拟 点击 事件 有时我们需要程序模拟按钮或点击,而手机本身又没有,哪么可以采取adb 模拟实现,最后再去实际设备去测试(前期一般都拿不到设备);如模拟上一首,下一首,暂停等,手机上是没有的,但有些设备上是有的;//这条命令相当于按了设备的语音键(按此键后,进入语音识别)public static final int KEY_VOICE = ...

Scaling Data Services with Pivotal GemFire_咔啡的博客-程序员宝宝

November 27, 2017Getting Started with In-Memory Data GridsIn-memory data grids (IMDG) such as Pivotal GemFire, which is powered by Apache Geode, are key to making today’s modern high-speed, data-int...

随便推点

Hyperledger Fabric Rest API服务开发教程【含源码】_元宇宙iwemeta的博客-程序员宝宝

Hyperledger Fabric Rest API服务开发教程【含源码】Hyperledger Fabric 提供了软件开发包/SDK以帮助开发者访问fabric网络 和部署在网络上的链码,但是Hyperledger Fabric官方没有提供简单易用的REST API访问接口,在这个教程里我们将学习如何利用Hyperledger Fabric的SDK 来开发REST API服务器。...

使用 Binlog 和 Canal 从 MySQL 抽取数据_purisuit_knowledge的博客-程序员宝宝

数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理系统,我们会从多个不同的 MySQL 实例中抽取数据,存入一个中心节点,或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件,如著名的开源项目 Apache Sqoop,然而这些工具并不支持实时的数据...

18 runtime-only和runtime-compiler_PBitW的博客-程序员宝宝

vue build的两个模式和13结合看看区别运行过程render函数普通用法对象用法谁渲染的tamplatenpm run build和npm run dev运行过程(了解)

国外短信服务_weixin_34082789的博客-程序员宝宝

为什么80%的码农都做不了架构师?>>> ...

String s1 = new String("hello"); String s2 = "hello";的区别_afsf12134的博客-程序员宝宝

String s1 = new String("hello");String s2 = "hello";System.out.println(s1 == s2);//falseSystem.out.pringln(s1.equals(s2));//true对于String s1 = new String("hello"),首先在堆内存中申请内存存储String类型的对象,地址值赋给...

idea中搭建springboot学习(3)---拦截器_Gr_lbxx的博客-程序员宝宝

在TestController类中添加返回页面的方法package com.example.demo.demo1017;import org.springframework.stereotype.Controller;import org.springframework.web.bind.annotation.RequestMapping;import org.springfram...

推荐文章

热门文章

相关标签