关注并星标
从此不迷路
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2104.11892.pdf
计算机视觉研究院专栏
作者:Edison_G
目标检测是对图像或视频中的目标进行分类和定位的任务。 由于其广泛的应用,近年来它已获得突出地位。
01
概述
今天分享中我们调查了基于深度学习的目标检测器的最新发展。还提供了检测中使用的基准数据集和评估指标的简明概述,以及检测任务中使用的一些突出的主干架构。它还涵盖了边缘设备上使用的当代轻量级分类模型。最后,我们比较了这些架构在多个指标上的性能。
02
背景
问题陈述
目标检测是物体分类的自然延伸,其目的只是识别图像中的物体。目标检测的目标是检测预定义类的所有实例,并通过轴对齐框在图像中提供其粗略定位。检测器应该能够识别目标类的所有实例并在其周围绘制边界框。它通常被视为一个有监督的学习问题。现代目标检测模型可以访问大量标记图像进行训练,并在各种规范基准上进行评估。
目标检测的主要挑战
计算机视觉在过去十年中取得了长足的进步,但仍有一些重大挑战需要克服。网络在现实生活应用中面临的一些关键挑战包括:
• 类内变化:同一目标的实例之间的类内变化在本质上是相对常见的。这种变化可能是由于各种原因造成的,例如遮挡、照明、姿势、视点等。这些不受约束的外部可能会对目标外观产生巨大影响。预计目标可能具有非刚性变形或旋转、缩放或模糊。一些物体可能有不显眼的环境,使提取变得困难。
• 类别数量:可用于分类的目标类别的绝对数量使其成为一个难以解决的问题。它还需要更多高质量的标签数据,这很难获得。使用更少的示例来训练检测器是一个开放的研究问题。
• 效率:当今的模型需要大量计算资源来生成准确的检测结果。随着移动和边缘设备的普及,高效的物体检测器对于计算机视觉领域的进一步发展至关重要。
03
数据集和评估指标
目标检测器使用多个标准来衡量检测器的性能,即每秒帧数 (FPS)、精度和召回率。然而,平均精度(mAP)是最常见的评估指标。精度来自于联合交集(IoU),它是GT实况与预测边界框之间的重叠面积与联合面积的比值。设置阈值以确定检测是否正确。如果IoU大于阈值,则将其分类为True Positive,而IoU低于阈值则将其分类为False Positive。如果模型未能检测到地面实况中存在的对象,则称为假阴性。精度衡量正确预测的百分比,而召回衡量关于基本事实的正确预测。
04
常见主干网络
05
常见目标检测框架
我们根据两种类型的检测器(两级和单级检测器)划分了这篇评论。然而,我们也讨论了开创性的工作,我们简要检查了一些传统的物体检测器。具有生成区域建议的单独模块的网络称为两阶段检测器。这些模型在第一阶段尝试在图像中找到任意数量的对象建议,然后在第二阶段对它们进行分类和定位。由于这些系统有两个独立的步骤,它们通常需要更长的时间来生成候选,具有复杂的架构并且缺乏全局上下文。
单级检测器使用密集采样在一次过程中对目标进行分类和定位。他们使用各种比例和纵横比的预定义框/关键点来定位目标。它在实时性能和更简单的设计方面超越了两级检测器。
06
轻量级网络
近年来形成了一个新的研究分支,旨在为物联网 (IoT) 部署中常见的资源受限环境设计小型高效网络。这种趋势也渗透到了强大的物体检测器的设计中。可以看出,尽管大量目标检测器实现了出色的准确性并实时执行推理,但这些模型中的大多数都需要过多的计算资源,因此无法部署在边缘设备上。
过去,许多不同的方法都显示出令人兴奋的结果。利用高效组件和压缩技术,如修剪、量化、hashing等,提高了深度学习模型的效率。使用经过训练的大型网络来训练较小的模型,称为蒸馏,也显示出有趣的结果。然而,在本节中,我们将探讨一些用于在边缘设备上实现高性能的高效神经网络设计的突出示例。
THE END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
我们开创“计算机视觉协会”知识星球两年有余,也得到很多同学的认可,最近我们又开启了知识星球的运营。我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
VX:2311123606
往期推荐
文章浏览阅读4.5k次,点赞2次,收藏19次。目录一、引言二、DRM框架介绍三、DRM框架的使用四、源码分析一、引言Android4开始,hdmi等视频输出框架开始由framebuffer想DRM迁移,今天我们就来简单分析下DRM框架二、DRM框架介绍DRM是一个内核级的设备驱动,具体的说是显卡驱动的一种架构源码位置因为Linux kernel内部接口和数据结构可能随时发生变化,所以DRI模块要针对特定的内核版本进行编译。kernel 2.6.26之后的版本,DRM(DRI kernel模块)源码存放在kernel/drivers/_嵌入式linux hdmi视频环出功能实现
文章浏览阅读2.8k次。homebrew安装后路径只可用一次的解决办法在上次安装后遇到了找不到路径的问题,虽然通过export解决了问题,但是在重启后,又出现了这个问题,现在给出:export PATH=/usr/local/bin:$PATH只能解决一次,重启后又失灵了,是因为没有写进系统环境变量中。下面将把/usr/local/bin路径写进系统环境变量中:1.执行管理权限,使用vim编辑sudo vim ~..._homebrew path
文章浏览阅读10w+次,点赞294次,收藏1.8k次。蚁群算法(AG)是一种模拟蚂蚁觅食行为的模拟优化算法,它是由意大利学者Dorigo M等人于1991年首先提出,并首先使用在解决TSP(旅行商问题)上。之后,又系统研究了蚁群算法的基本原理和数学模型.蚁群算法的基本思想:# -*- coding: utf-8 -*-import randomimport copyimport timeimport sysimport mathimpor..._蚁群算法python代码
文章浏览阅读740次,点赞24次,收藏21次。Port | LoadBalancer(外部负载均衡) | ExternalName (外部DNS解析)ports:
文章浏览阅读235次,点赞28次,收藏9次。括号匹配附栈基本操作_括号匹配 栈应用
文章浏览阅读531次。css垂直居中最常用的八种布局方法 首先定义两个盒子,然后进行下面操作! <body> <div class="box"> <div class="coco"></div> </div></body> 方法一 display:flex /* 1 display:flex */ .box{ width: 40..._css常用垂直居中布局
文章浏览阅读66次。Sublime Text 3 全程详细图文原创教程(持续更新中。。。)[摘要:1、 媒介 应用Sublime Text 也有几个岁首了,版本也从2进级到3了,但如同冷天饮冰火,热热尽自知。最后也是没有晓得从何动手,谦天下天查找材料,但能查阅到的材料,苦于它们的零星]一、前言 使用Sublime Text 也有几个年头了,版本也从2升级到3了,但犹如寒天饮冰水,...
文章浏览阅读1.9k次。针对以下常见的蓝屏错误代码进行问题排除,并未提供所有错误代码的列表,但由于许多错误代码可能具有相同的解决方案,因此最佳做法是按照以下步骤操作来对蓝屏错误进行问题排除。CRITICAL_PROCESS_DIEDSYSTEM_THREAD_EXCEPTION_NOT_HANDLEDIRQL_NOT_LESS_OR_EQUALVIDEO_TDR_TIMEOUT_DETECTEDPAGE_FAU..._interrupt exception not handled/page fault in nonpaged area/system threa
文章浏览阅读1.8k次,点赞3次,收藏12次。1、虚拟机网络设置,设置桥接模式,复制物理网络2、修改网络配置 启用网络vi /etc/sysconfig/network-scripts/ifcfg-ens33修改ONBOOT=yes3、安装网络工具 yum search ifconfig yum install net-tools4、测试ping www.baidu.com......_虚拟机centos7如何重装网络
文章浏览阅读1.4k次。select st_x(st_centroid(geom)) AS x from table_pgsql 获取中心点
文章浏览阅读233次,点赞6次,收藏3次。23-198、基于STM32单片机智能电能表市电抄表交流电表插座电费功率检测TFT彩屏显示无线蓝牙手机APP设计功能描述:本系统由STM32F103C8T6单片机核心板、TFT1.44寸彩屏液晶显示电路、交流电压互感器TV1005M、交流电流互感器TA1005M、继电器驱动电路、无线蓝牙模块、蜂鸣器报警驱动电路及电源组成。【1】220V市电经过互感器后产生微弱交流电信号,经过整流滤波后变为直流,然后通过单片机内容AD转换进行采集,单片机换算出实际值,最终获取到交流电压(单位V)、交流电流(单位A);由功率(_stm32 智能电表
文章浏览阅读10w+次,点赞118次,收藏178次。在使用LaTex进行排版时,一个常见的需求是要把下标放在某个文字或者符号的正下方:LaTex的数学模式下提供了\limits命令,形如expr1\limits_{expr2}^{expr3}中expr2会出现在expr1的正下方,而expr3会出现在expr1的正上方,例如命令$\sum\limits_{i=0}^n {x_i}$会生成效果但是\limits命令..._latex下标在正下方