FEANet——基于 RGBT的实时语义分割特征增强注意力网络_特征增强网络-程序员宅基地

技术标签： RGBT 计算机视觉深度学习人工智能

Overview

Title：FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation（FEANet：基于 RGBT的实时语义分割特征增强注意力网络）

Time：2021.

Journal：IROS

Majors：Semantic Segmentation

Link：论文

Summary

大多数现有的 RGB-T 语义分割通常会牺牲空间分辨率来实现实时推理速度，从而导致性能不佳。
为了更好地提取细节空间信息，我们提出了用于 RGBT 语义分割任务的两阶段特征增强注意力网络 (FEANet)。
- 引入了一个特征增强注意力模块（FEAM）来从通道和空间视图中挖掘和增强多层次的特征。
- 受益于所提出的 FEAM 模块，我们的 FEANet 可以保留空间信息，并将更多注意力转移到融合 RGB-T 图像的高分辨率特征上。
在城市场景数据集上进行的大量实验表明，我们的 FEANet 在客观指标和主观视觉比较方面优于其他最先进的RGB-T方法（全局 mAcc 和全局 mIoU 分别为 +2.6% 和 +0.8%）。
对于 480 × 640 RGB-T 测试图像，我们的 FEANet 可以在 NVIDIA GeForce RTX 2080 Ti 卡上以实时速度运行。

Motivation

现有 RGB-T 模型的性能在面对某些复杂场景（例如，杂乱的背景、变化的照明）时往往会急剧下降。
第一个挑战是有效地从 RGB-T 融合数据中提取多级特征。高级特征包含丰富的语义信息，可用于对象定位，而低级特征提供丰富的微观细节，有助于减少故障噪声和细化分割边界。
- 高级特征包含丰富的语义信息，可用于对象定位，而低级特征提供丰富的微观细节，有助于减少故障噪声和细化分割边界。
- 而当前的 RGB-T 语义分割方法（例如，MFNet、RTFNet）使用直接特征提取策略或渐进式多数据融合过程来利用多级特征。然而，由于直接的多层次特征提取和合并策略不考虑层次之间的差异，这些过程存在噪声低层次特征的不完全提取问题。
第二个挑战是从热模态中挖掘信息特征。热图像质量低下，导致数据融合过程中出现不可预测的噪声。
- 以前的 RGB-T 模型通常将额外的热图像视为第四通道输入，无需修改三通道 RGB 编码器流或通过简单的求和和乘法来融合 RGB 和热特征。这些方法从相同的角度处理热和 RGB 信息，忽略了 RGB 图像包含颜色和纹理的事实，而热图包含对象之间的空间关系。如图 (d), (e), (j), (k) 所示，RTFNet 无法检测和分割小的目标对象。

Method

• 设计了一个两阶段的FEANet 来处理城市场景中RGB-T 语义分割的对象边界和小目标对象。
• 引入了FEAM 模块来增强多级功能，并以互补的方式融合RGB 和热信息。

Model

A：overrall architecture
Thermal Stream 和 RGB Stream 中的编码器包含两个提取阶段。
第一阶段，Thermal Stream 和 RGB Stream 使用 ResNet作为特征提取层。每层的输出部分通过 FEAM （Feature-Enhanced Attention Module）加权。FEAM模块进行细化细节特征。
第二阶段，将 Thermal Stream 的输出图融合到 RGB Stream 中。输出流中的解码器由转置块 A 和 B 组成。

B：Encoder-Feature Extracting（编码器特征提取）

RGB 和热特征都在两个编码器流中提取。现有的 ResNet 是为三通道 RGB 图像提取而设计的，不适用于单通道图像，然后我们将第一个卷积层的数量修改为一层，以将其扩展到热图像。
FEAM 模块，使用注意力组件从融合数据中学习特征，在两个编码器流的每个卷积层之后添加 FEAM，可以增强特征的兼容性。
FEAM ：包含通道注意力操作（channel attention）和通道空间操作（channel attention）。空间通道操作注重全局区域。

C：Decoder-Resolution Restoring（解码器分辨率恢复）（改进于RTFNet）

主要被设计为有效地利用多层信息来进行细节像素的细化。
解码器架构是从RTFNet解码器中改进出来的，然后将特征映射恢复到原始图像中。与RTFNet不同的是，我们删除了原始块的两个连续的1×1卷积，从而避免了解码器中复杂的上采样过程。

Experiments

A：The RGB-T datasets：MFNet datasets
B：Loss function：
$\frac{2\sum_{i}^{N}p_ig_i}{\sum_{i}^{N}p_i^2+\sum_{i}^{N}g^2}$

$SoftCrossEntropyLoss=-\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{c}{\hat{y}_{ij} }log({y_{ij}^d})$

C：Evaluation Metrics
- Accuracy (Acc)：准确性
  $\mathrm{mAcc}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}}$
- Intersection-over-Union (IoU)：交并比
  $\mathrm{mIoU}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}+\sum_{j=0}^{k} p_{j i}-p_{i i}}$
D：Results And Analysis

在Guardrail、Color Cone类别中提交较大，其他类别中也能有较好的结果。表明对小目标对象有更好的检测和分割。

E. Ablation Study

分别从 RGB 流和热流中移除了 FEAM 模块,将热流中的无 FEAM 称为 NFTS,RGB 流中没有 FEAM 为 NFRS,RGB 和热流中没有 FEAM 被分别命名为 NFRTS。 FRTS 意味着 FEAM 既是 RGB 又是热流。

在这里插入图片描述

Conclusions

提出了一种新颖的两阶段 FEANet，用于从 RGB 和热图像中挖掘信息热线索，用于城市场景的语义分割。具体来说，我们引入了 FEAM 从通道和空间视图中挖掘和增强信息特征。
实验结果表明，FEANet 在小目标对象分割上表现更好，并产生清晰的对象边界。所提出的 FEANet 在单个 GPU 上以实时速度运行，使其成为自动驾驶应用的潜在解决方案。
未来，我们希望将更多不同形式的信息（例如深度、音频）融合到网络中以进行分割改进。

Notes

语义分割是计算机视觉中检测和定位目标对象的一大挑战。
FuseNet：CNN 网络，包含一个编码器-解码器结构，可以同时从 RGB 和深度图像中提取特征。
DenseNet
MFNet、RTFNet 和 FuseSeg-161，
编码器：它接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。编码器部分主要由普通卷积层和下采样层将feature map尺寸缩小，使其成为更低维度的表征。目的时尽可能多的提取低级特征和高级特征，从而利用提取到的空间信息和全局信息精确分割。
解码器：它将固定形状的编码状态映射到长度可变的序列。解码器部分主要由普通卷积、删除改样层和融合层组成。利用上采样操作逐步恢复空间维度，融合编码过程中提取到的特征，在尽可能减少信息损失的前提下完成同尺寸输入输出。
S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” in 2018 European conference on computer vision (ECCV), 2018, pp. 3–19（启发了FEAM:使用注意力组件从融合数据总学习特征）

References

S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional
block attention module,” in 2018 European conference on computer
vision (ECCV), 2018, pp. 3–19

本文链接：https://blog.csdn.net/u011490237/article/details/127007416

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

初识Git_git必须用网络吗-程序员宅基地

文章浏览阅读433次。Git 是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。Git 与常用的版本控制工具 CVS, Subversion 等不同，它采用了分布式版本库的方式，不必服务器端软件支持。简言概括：Git就是分布式版本控制。_git必须用网络吗

搭建Vulhub靶场【附图】_vulhub靶场搭建-程序员宅基地

文章浏览阅读2.1w次，点赞59次，收藏265次。目录0x01简单概述0x02安装环境1. kali设置2. 更新软件源中的所有软件列表3. 安装https协议及CA证书0x03安装步骤一、安装Docker1. 下载安装2. 查看Docker是否安装成功3. 查看docker基本信息二、安装vluhub1. 安装pip32. 安装Docker-Compose3. 查看docker-compose版本三、安装vulhub靶场1. 克隆下载2. 随便进入一个靶场环境目录3. 对靶场进行编译4. 运行此靶场5. 查看启动环境6. 通过浏览器访问7. 关闭此靶场环_vulhub靶场搭建

sensei鼠标测试软件,「硬核测试：游戏鼠标精准度」赛睿SENSEI 310-程序员宅基地

文章浏览阅读564次。原标题：「硬核测试：游戏鼠标精准度」赛睿SENSEI 310作为赛睿最热销游戏鼠标之一，310有SENSEI(对称)和RIVAL(右手)两个版本，均采用今天要测的TrueMove3引擎，是基于PMW3360打造的1:1真实追踪的引擎，虽然现在“1:1引擎”很多了，但TrueMove出来时这个概念还是很新颖的，尤其是提到了消除抖动，最大限度的保持理论和实际DPI的稳定性，那么到底是不是真的1:1呢，..._鼠标精确度检测软件

国际酒店预订APP_基于android平台的酒店预订管理系统软件设计的论文-程序员宅基地

文章浏览阅读209次，点赞6次，收藏5次。随着人们生活水平的提高和旅游业的迅速发展，国际酒店的预订需求越来越大。为满足用户的需求，安卓国际酒店预订APP应运而生。本文旨在详细介绍该APP的设计与实现过程，以提供方便、快捷、安全的酒店预订服务。首先，本文将介绍课题的背景和国内外现状与趋势。随着国内外旅游业的快速发展，人们对旅游住宿的需求也越来越高。同时，随着移动互联网的普及，手机APP已经成为人们预订酒店的首选方式。因此，开发一款便捷、实用的酒店预订APP已经成为当务之急。接着，本文将详细阐述系统的设计和实现过程。_基于android平台的酒店预订管理系统软件设计的论文

DirectX9 ShadowMap例子学习笔记_g_aminitobjworld-程序员宅基地

文章浏览阅读2.7k次。本文版权归博客园 mavaL所有，如有转载请按如下方式详细标明原创作者及出处，以示尊重！！原创作者：mavaL原文链接：DirectX9 ShadowMap例子学习笔记学习SDK例子真是快速加强编程能力的途径，然而虽如此，微软不仅在每个例子中展示了本_g_aminitobjworld

Bootstrap datetimepicker- Uncaught TypeError : Cannot to read property “getTime” of undefined_bootstrap-datetimepicker.min.js?v=2.4.4:1 uncaught-程序员宅基地

文章浏览阅读3.6k次。解决：在bootstrap-datetimepicker.js中，找到getDate: function () { var d = this.getUTCDate(); if (d === null) { return null; } return new Date(d.getTime() + (d.getTimezoneOf..._bootstrap-datetimepicker.min.js?v=2.4.4:1 uncaught typeerror: cannot read pr

随便推点

mybatis根据数组批量查询_前端传入的是long型的数组后端在mybatis中怎么批量查询-程序员宅基地

文章浏览阅读1.8k次。接口/** * 从页面接收的数据是多值数据，就是一个数组，它不想转成其它类型，直接把数组丢给dao */ public List<Emp> queryByArray(Integer[] empnos);EmpMapper.xml配置文件<select id="queryByArray" resultType="emp"> select <incl..._前端传入的是long型的数组后端在mybatis中怎么批量查询

python词云是什么意思_python生成词云-程序员宅基地

文章浏览阅读715次。前言在大数据时代，你竟然会在网上看到的词云，例如这样的。看到之后你是什么感觉?想不想自己做一个？如果你的答案是正确的，那就不要拖延了，现在我们就开始，做一个词云分析图，Python是一个当下很流行的编程语言，你不仅可以用它做数据分析和可视化，还能用来做网站、爬取数据、做数学题、写脚本替你偷懒……如果你之前没有编程基础，没关系。希望你不要限于浏览，而是亲自动手尝试一番。到完成的那一步，你不仅可以做出..._词云是什么意思

nginx_nginxl-程序员宅基地

文章浏览阅读469次。什么是nginxNginx (engine x) 是一个高性能的HTTP和反向代理web服务器,使用c语言编写的一款web服务软件.Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器，在BSD-like 协议下发行。其特点是占有内存少，并发能力强，事实上nginx的并发能力在同类型的网页服务器中表现较好，中国大陆使用nginx网站用户有：百度、京东、新浪、网易、腾讯、淘宝等。为什么使用nginx?作用1.反向代理2.负载均衡。3.._nginxl

英语 | Day 33、34 x 句句真研每日一句（找从句、意译）_句句真研每日一句答案在哪-程序员宅基地

文章浏览阅读465次，点赞2次，收藏3次。Day 33Day 34_句句真研每日一句答案在哪

python全栈指的是什么意思？这篇文章非常值得一看_什么是python全栈-程序员宅基地

文章浏览阅读620次。所以说一个现代化的项目，是一个非常复杂的构成，我们需要一个人来掌控全局，他不需要是各种技术的资深专家，但他需要熟悉到各种技术。全栈只是个概念，我们要明白全栈也是有分非常多类别的，真正的全栈工程师涵盖了web开发，DBA、爬虫、测试等各种技能，要学的内容也是相当大的。很多小伙伴想知道python全栈是什么意思，那么今天小编就通过这篇文章来给大家详细讲解一下什么是python的全栈，感兴趣的小伙伴一定要耐心阅读一下这篇文章。以上就是小编给大家带来的python全栈是什么意思的相关知识了。_什么是python全栈

Nginx-GridFS踩坑记录-程序员宅基地

文章浏览阅读709次。nginx和nginx-gridfs都装好了，有些坑可能和版本有很大关系Nginx重新编译安装后访问不了了把项目配置文件的导入注释掉，直接用最小配置测试server { listen 80; server_name www.wyyxhlxy.com; location / { root html; index i..._nginx invalid mongo user/pass: