FEANet——基于 RGBT的实时语义分割特征增强注意力网络_特征增强网络-程序员宅基地

技术标签: RGBT  计算机视觉  深度学习  人工智能  

Overview

Title:FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation(FEANet:基于 RGBT的实时语义分割特征增强注意力网络)
Time:2021.
Journal:IROS
Majors:Semantic Segmentation
Link:论文

Summary

  • 大多数现有的 RGB-T 语义分割通常会牺牲空间分辨率来实现实时推理速度,从而导致性能不佳。
  • 为了更好地提取细节空间信息,我们提出了用于 RGBT 语义分割任务的两阶段特征增强注意力网络 (FEANet)。
    • 引入了一个特征增强注意力模块(FEAM)来从通道和空间视图中挖掘和增强多层次的特征。
    • 受益于所提出的 FEAM 模块,我们的 FEANet 可以保留空间信息,并将更多注意力转移到融合 RGB-T 图像的高分辨率特征上。
  • 在城市场景数据集上进行的大量实验表明,我们的 FEANet 在客观指标和主观视觉比较方面优于其他最先进的RGB-T方法(全局 mAcc 和全局 mIoU 分别为 +2.6% 和 +0.8%) 。
  • 对于 480 × 640 RGB-T 测试图像,我们的 FEANet 可以在 NVIDIA GeForce RTX 2080 Ti 卡上以实时速度运行。

Motivation

  • 现有 RGB-T 模型的性能在面对某些复杂场景(例如,杂乱的背景、变化的照明)时往往会急剧下降。
  • 第一个挑战是有效地从 RGB-T 融合数据中提取多级特征。高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
    - 高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
    - 而当前的 RGB-T 语义分割方法(例如,MFNet、RTFNet)使用直接特征提取策略或渐进式多数据融合过程来利用多级特征。然而,由于直接的多层次特征提取和合并策略不考虑层次之间的差异,这些过程存在噪声低层次特征的不完全提取问题。
  • 第二个挑战是从热模态中挖掘信息特征。热图像质量低下,导致数据融合过程中出现不可预测的噪声。
    - 以前的 RGB-T 模型通常将额外的热图像视为第四通道输入,无需修改三通道 RGB 编码器流或通过简单的求和和乘法来融合 RGB 和热特征。这些方法从相同的角度处理热和 RGB 信息,忽略了 RGB 图像包含颜色和纹理的事实,而热图包含对象之间的空间关系。如图 (d), (e), (j), (k) 所示,RTFNet 无法检测和分割小的目标对象。
    在这里插入图片描述

Method

• 设计了一个两阶段的FEANet 来处理城市场景中RGB-T 语义分割的对象边界和小目标对象。
• 引入了FEAM 模块来增强多级功能,并以互补的方式融合RGB 和热信息。


Model

  • A:overrall architecture
    在这里插入图片描述
    在这里插入图片描述

  • Thermal Stream 和 RGB Stream 中的编码器包含两个提取阶段。

  • 第一阶段,Thermal Stream 和 RGB Stream 使用 ResNet作为特征提取层。每层的输出部分通过 FEAM (Feature-Enhanced Attention Module)加权。FEAM模块进行细化细节特征。

  • 第二 阶段,将 Thermal Stream 的输出图融合到 RGB Stream 中。输出流中的解码器由转置块 A 和 B 组成。

B:Encoder-Feature Extracting(编码器特征提取)

  • RGB 和热特征都在两个编码器流中提取。现有的 ResNet 是为三通道 RGB 图像提取而设计的,不适用于单通道图像,然后我们将第一个卷积层的数量修改为一层,以将其扩展到热图像。
  • FEAM 模块,使用注意力组件从融合数据中学习特征,在两个编码器流的每个卷积层之后添加 FEAM,可以增强特征的兼容性。
  • FEAM :包含通道注意力操作(channel attention)和通道空间操作(channel attention)。空间通道操作注重全局区域。

C:Decoder-Resolution Restoring(解码器分辨率恢复)(改进于RTFNet)

  • 主要被设计为有效地利用多层信息来进行细节像素的细化。
  • 解码器架构是从RTFNet解码器中改进出来的,然后将特征映射恢复到原始图像中。与RTFNet不同的是,我们删除了原始块的两个连续的1×1卷积,从而避免了解码器中复杂的上采样过程。

Experiments

  • A:The RGB-T datasets:MFNet datasets
  • B:Loss function:
    D i c e L o s s = 1 − 2 ∑ i N p i g i ∑ i N p i 2 + ∑ i N g 2 DiceLoss=1- \frac{2\sum_{i}^{N}p_ig_i}{\sum_{i}^{N}p_i^2+\sum_{i}^{N}g^2} DiceLoss=1iNpi2+iNg22iNpigi

S o f t C r o s s E n t r o p y L o s s = − 1 n ∑ i = 1 n ∑ j = 1 c y ^ i j l o g ( y i j d ) SoftCrossEntropyLoss=-\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{c}{\hat{y}_{ij} }log({y_{ij}^d}) SoftCrossEntropyLoss=n1i=1nj=1cy^ijlog(yijd)

  • C:Evaluation Metrics

    • Accuracy (Acc):准确性
      m A c c = 1 k + 1 ∑ i = 0 k p i i ∑ j = 0 k p i j \mathrm{mAcc}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}} mAcc=k+11i=0kj=0kpijpii
    • Intersection-over-Union (IoU):交并比
      m I o U = 1 k + 1 ∑ i = 0 k p i i ∑ j = 0 k p i j + ∑ j = 0 k p j i − p i i \mathrm{mIoU}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}+\sum_{j=0}^{k} p_{j i}-p_{i i}} mIoU=k+11i=0kj=0kpij+j=0kpjipiipii
  • D:Results And Analysis
    在这里插入图片描述

在Guardrail、Color Cone类别中提交较大,其他类别中也能有较好的结果。表明对小目标对象有更好的检测和分割。

  • E. Ablation Study

分别从 RGB 流和热流中移除了 FEAM 模块,将热流中的无 FEAM 称为 NFTS,RGB 流中没有 FEAM 为 NFRS,RGB 和热流中没有 FEAM 被分别命名为 NFRTS。 FRTS 意味着 FEAM 既是 RGB 又是热流。

在这里插入图片描述


Conclusions

  • 提出了一种新颖的两阶段 FEANet,用于从 RGB 和热图像中挖掘信息热线索,用于城市场景的语义分割。具体来说,我们引入了 FEAM 从通道和空间视图中挖掘和增强信息特征。
  • 实验结果表明,FEANet 在小目标对象分割上表现更好,并产生清晰的对象边界。所提出的 FEANet 在单个 GPU 上以实时速度运行,使其成为自动驾驶应用的潜在解决方案。
  • 未来,我们希望将更多不同形式的信息(例如深度、音频)融合到网络中以进行分割改进。

Notes

  • 语义分割是计算机视觉中检测和定位目标对象的一大挑战。
  • FuseNet:CNN 网络,包含一个编码器-解码器结构,可以同时从 RGB 和深度图像中提取特征。
  • DenseNet
  • MFNet、RTFNet 和 FuseSeg-161,
  • 编码器:它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。编码器部分主要由普通卷积层和下采样层将feature map尺寸缩小,使其成为更低维度的表征。目的时尽可能多的提取低级特征和高级特征,从而利用提取到的空间信息和全局信息精确分割。
  • 解码器:它将固定形状的编码状态映射到长度可变的序列。 解码器部分主要由普通卷积、删除改样层和融合层组成。利用上采样操作逐步恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成同尺寸输入输出。
  • S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” in 2018 European conference on computer vision (ECCV), 2018, pp. 3–19(启发了FEAM:使用注意力组件从融合数据总学习特征)

References

S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional
block attention module,” in 2018 European conference on computer
vision (ECCV), 2018, pp. 3–19

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u011490237/article/details/127007416

智能推荐

初识Git_git必须用网络吗-程序员宅基地

文章浏览阅读433次。Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。Git 与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库的方式,不必服务器端软件支持。简言概括:Git就是分布式版本控制。_git必须用网络吗

搭建Vulhub靶场 【附图】_vulhub靶场搭建-程序员宅基地

文章浏览阅读2.1w次,点赞59次,收藏265次。目录0x01简单概述0x02安装环境1. kali设置2. 更新软件源中的所有软件列表3. 安装https协议及CA证书0x03安装步骤一、安装Docker1. 下载安装2. 查看Docker是否安装成功3. 查看docker基本信息二、安装vluhub1. 安装pip32. 安装Docker-Compose3. 查看docker-compose版本三、安装vulhub靶场1. 克隆下载2. 随便进入一个靶场环境目录3. 对靶场进行编译4. 运行此靶场5. 查看启动环境6. 通过浏览器访问7. 关闭此靶场环_vulhub靶场搭建

sensei鼠标测试软件,「硬核测试:游戏鼠标精准度」赛睿SENSEI 310-程序员宅基地

文章浏览阅读564次。原标题:「硬核测试:游戏鼠标精准度」赛睿SENSEI 310作为赛睿最热销游戏鼠标之一,310有SENSEI(对称)和RIVAL(右手)两个版本,均采用今天要测的TrueMove3引擎,是基于PMW3360打造的1:1真实追踪的引擎,虽然现在“1:1引擎”很多了,但TrueMove出来时这个概念还是很新颖的,尤其是提到了消除抖动,最大限度的保持理论和实际DPI的稳定性,那么到底是不是真的1:1呢,..._鼠标精确度检测软件

国际酒店预订APP_基于android平台的酒店预订管理系统软件设计的论文-程序员宅基地

文章浏览阅读209次,点赞6次,收藏5次。随着人们生活水平的提高和旅游业的迅速发展,国际酒店的预订需求越来越大。为满足用户的需求,安卓国际酒店预订APP应运而生。本文旨在详细介绍该APP的设计与实现过程,以提供方便、快捷、安全的酒店预订服务。首先,本文将介绍课题的背景和国内外现状与趋势。随着国内外旅游业的快速发展,人们对旅游住宿的需求也越来越高。同时,随着移动互联网的普及,手机APP已经成为人们预订酒店的首选方式。因此,开发一款便捷、实用的酒店预订APP已经成为当务之急。接着,本文将详细阐述系统的设计和实现过程。_基于android平台的酒店预订管理系统软件设计的论文

DirectX9 ShadowMap例子学习笔记_g_aminitobjworld-程序员宅基地

文章浏览阅读2.7k次。本文版权归博客园 mavaL所有,如有转载请按如下方式详细标明原创作者及出处,以示尊重!!原创作者:mavaL原文链接:DirectX9 ShadowMap例子学习笔记学习SDK例子真是快速加强编程能力的途径,然而虽如此,微软不仅在每个例子中展示了本_g_aminitobjworld

Bootstrap datetimepicker- Uncaught TypeError : Cannot to read property “getTime” of undefined_bootstrap-datetimepicker.min.js?v=2.4.4:1 uncaught-程序员宅基地

文章浏览阅读3.6k次。解决:在bootstrap-datetimepicker.js中,找到getDate: function () { var d = this.getUTCDate(); if (d === null) { return null; } return new Date(d.getTime() + (d.getTimezoneOf..._bootstrap-datetimepicker.min.js?v=2.4.4:1 uncaught typeerror: cannot read pr

随便推点

mybatis根据数组批量查询_前端传入的是long型的数组后端在mybatis中怎么批量查询-程序员宅基地

文章浏览阅读1.8k次。接口/** * 从页面接收的数据是多值数据,就是一个数组,它不想转成其它类型,直接把数组丢给dao */ public List<Emp> queryByArray(Integer[] empnos);EmpMapper.xml配置文件<select id="queryByArray" resultType="emp"> select <incl..._前端传入的是long型的数组后端在mybatis中怎么批量查询

python词云是什么意思_python生成词云-程序员宅基地

文章浏览阅读715次。前言在大数据时代,你竟然会在网上看到的词云,例如这样的。看到之后你是什么感觉?想不想自己做一个?如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流行的编程语言,你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、写脚本替你偷懒……如果你之前没有编程基础,没关系。希望你不要限于浏览,而是亲自动手尝试一番。到完成的那一步,你不仅可以做出..._词云是什么意思

nginx_nginxl-程序员宅基地

文章浏览阅读469次。什么是nginxNginx (engine x) 是一个高性能的HTTP和反向代理web服务器,使用c语言编写的一款web服务软件.Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,在BSD-like 协议下发行。其特点是占有内存少,并发能力强,事实上nginx的并发能力在同类型的网页服务器中表现较好,中国大陆使用nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。为什么使用nginx?作用1.反向代理2.负载均衡。3.._nginxl

英语 | Day 33、34 x 句句真研每日一句(找从句、意译)_句句真研每日一句答案在哪-程序员宅基地

文章浏览阅读465次,点赞2次,收藏3次。Day 33Day 34_句句真研每日一句答案在哪

python全栈指的是什么意思?这篇文章非常值得一看_什么是python全栈-程序员宅基地

文章浏览阅读620次。所以说一个现代化的项目,是一个非常复杂的构成,我们需要一个人来掌控全局,他不需要是各种技术的资深专家,但他需要熟悉到各种技术。全栈只是个概念,我们要明白全栈也是有分非常多类别的,真正的全栈工程师涵盖了web开发,DBA、爬虫、测试等各种技能,要学的内容也是相当大的。很多小伙伴想知道python全栈是什么意思,那么今天小编就通过这篇文章来给大家详细讲解一下什么是python的全栈,感兴趣的小伙伴一定要耐心阅读一下这篇文章。以上就是小编给大家带来的python全栈是什么意思的相关知识了。_什么是python全栈

Nginx-GridFS踩坑记录-程序员宅基地

文章浏览阅读709次。nginx和nginx-gridfs都装好了,有些坑可能和版本有很大关系Nginx重新编译安装后访问不了了把项目配置文件的导入注释掉,直接用最小配置测试server { listen 80; server_name www.wyyxhlxy.com; location / { root html; index i..._nginx invalid mongo user/pass: