null - 程序员宅基地

MTCNN 论文学习_mtcnn算法论文-程序员宅基地

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Network

论文地址：https://arxiv.org/ftp/arxiv/papers/1604/1604.02878.pdf

Abstract

在无条件约束的环境下进行人脸检测和对齐是非常具挑战性的，因为你要考虑不同的姿势，光照，和遮挡。最近的研究显示，深度学习方法能在这两个任务上获得不错的效果。这篇论文提出了一个深度级联多任务框架，探索它们内在的关系，进而提升表现。此框架采取了一个级联架构，包含三个阶段的深度卷积网络由粗到细地来预测人脸和特征点位置。此外，在学习过程中，我们提出一个新的 online hard example mining 策略，可以自动提升表现，而不需人工选取样本。此方法在人脸检测的 FDDB 和WIDER FACE benchmarks 上获得了 state of art 的成绩，在人脸对齐的 AFLW benchmark 上也表现不俗。

1. Introduction

人脸检测和对齐对于人脸应用至关重要，如人脸识别和表情分析。但是，面部在视觉呈现上的差异，如遮挡，姿势变化，和极端光照，给现实世界中的人脸应用带来了巨大的挑战。

Viola 与 Jones 提出了一个级联人脸检测器，它利用 Haar 特征和 AdaBoost 来训练一个级联分类器，获得了不错的表现。但是一些实验表明这个检测器在实际应用中效果会下降很多，当人脸的视觉变化很大时。另有一些论文介绍了 deformable part models (DPM) 用于人脸检测，表现优异。但是它们都需要很高的算力，而且在训练阶段需要很多的标注数据。Yang et al. 提出了用于人脸属性识别的深度卷积网络，以获取人脸区域的高响应，然后进一步产生人脸候选框。但是，由于 CNN 结构复杂，在实际应用中很费时。Li et al. 利用级联 CNNs 来识别人脸，但是需要候选框校准，这带来了额外的计算成本，而且忽略了人脸关键点位置和边框回归中的内在关联。

人脸对齐也受到了很大的关注。基于回归的模型与 template fitting approaches 是两个主要的方向。最近，Zhang et al. 提出利用人脸属性识别作为辅助，使用 CNN 来增强人脸对齐表现的方法。

但是，绝大多数的人脸检测和对齐方法都忽略了这两个任务之间的内在联系。尽管有些工作试图去共同解决这俩问题，但是效果有限。例如，Chen et al. 利用随机森林和像素值差异，来共同进行对齐和检测任务。但是，人为选取的特征限制了它的效果。Zhang et al. 使用多任务 CNN 来提升 multi-view 的人脸检测准确率，但是初始检测窗口是由一个弱人脸检测器产生，因而检测精度有限。

另一方面，训练过程中的 mining hard samples 对增强检测器的效果至关重要。但是传统的 hard sample mining 通常是 offline 的方式操作，这就需要更多的人为操作。所以，针对人脸检测和对齐设计一个 online hard sample mining 方法就变得非常迫切，它能自动地适应当前训练过程。

这篇论文中，我们提出了一个新的框架，利用级联 CNNs 整合检测和对齐的任务。它主要包含3个阶段。第一阶段，快速地通过一个较浅的 CNN 来产生候选窗口。然后，通过一个复杂点的 CNN 来优化候选窗口，剔除那些不包含人脸的窗口。最终，使用一个更复杂的 CNN 来优化结果，输出人脸关键点位置。该多任务学习框架能显著地提升了算法的表现。这篇论文的主要贡献如下：

提出了一个新的级联 CNNs 框架，共同进行人脸检测和对齐；
提出了一个高效的方法来进行 online hard sample mining 来提升表现；
在 benchmarks 上进行充分的实验，与目前 state of art 的方法进行比较。

2. Approach

A. Overall Framework

我们的方法流程如图1中所示。给定一张图片，我们首先将它的大小调整为不同的比例，产生图像金字塔，然后将该图像金字塔作为“3-阶段级联框架”的输入：

阶段一：我们使用了一个全卷积网络，叫 Proposal Network (P-Net)，来获取候选框，以及它们的边框回归向量。然后用估计的边框回归向量来校准这些候选框。然后，用非最大抑制（non-maximum suppression, NMS）来合并高度重合的候选框。

阶段二：将所有的候选框输入进另一个 CNN，叫 Refine Network (R-Net)，它进一步剔除那些假的候选框，对边框回归进行校准，然后用 NMS 来合并重合的候选框。

阶段三：它与阶段二类似，但是在这一步我们的目的是获得人脸更多的细节。尤其是，网络将输出人脸的关键点位置。

B. CNN Architecture

在论文“A convolutional neural network cascade for face detection” 中，作者设计了多个 CNNs 来进行人脸检测。但是，我们注意到，它的表现受以下几方面限制：（1）一些滤波器缺乏权值的多样性，这限制了它们去产生 discriminative 信息；（2）与其它多类别目标检测和分类任务相比，人脸检测是一个二元分类任务，所以它需要的滤波器数量就比较少，但是这些滤波器的判别能力要强。所以，作者就降低了滤波器的个数，将 $5\times 5$ 的滤波器改为 $3\times 3$ 的滤波器，降低计算量，增加网络深度，这样来提升性能。有了这些改善，我们就能获得更优的检测效果，运行时间更短。

C. Training

我们使用3个任务来训练我们的 CNN 检测器：有人脸/没人脸分类，边框回归，人脸关键点定位。

人脸分类：学习目标就是一个两类别的分类任务。对每个样本 $x_i$ ，我们使用交叉熵损失函数：
$L_i^{det} = -(y_i^{det} log(p_i)) + (1-y_i^{det})(1-log(p_i))\quad \quad \quad (1)$

$p_i$ 是网络输出的，一个样本是否是人脸的概率。 $y_i^{de} \in \{0,1\}$ 表示 ground-truth 标签。

边框回归：对每个候选框，我们预测它和最近的 ground truth 边框（ground truth 边框的左上角位置，高度和宽度）的偏移量。学习目标是一个回归问题，我们对每个样本 $x_i$ 使用欧式损失：
$L_i^{box} = ||\hat y_i^{box} - y_i^{box}||^2_2 \quad \quad \quad (2)$

$\hat y_i^{box}$ 是从网络中获得的回归值，而 $y_i^{box}$ 是ground truth 坐标。有4个坐标，包括左上角位置，高度和宽度，因此 $y_i^{box} \in \mathbb{R}^4$ 。

人脸关键点定位：与边框回归任务类似，人脸关键点检测也被看作一个回归问题，我们最小化欧式损失：
$L_i^{landmark} = ||\hat y_i^{landmark} - y_i^{landmark}||^2_2\quad \quad \quad (3)$

$\hat y_i^{landmark}$ 是人脸关键点的坐标，从网络中计算得来； $y_i^{landmark}$ 是 ground truth 坐标。有5个关键点，包括左眼，右眼，鼻子，左嘴角，和右嘴角，所以 $y_i^{landmark}\in \mathbb{R}^10$ 。

多源训练：因为我们在每个 CNN 里要做不同的任务，就要有不同类别的训练图像，如人脸，没人脸，部分对齐的人脸。这样，前面的一些损失函数就没有使用。例如，对背景区域的样本，我们只计算 $L_i^{det}$ ，其它两个损失函数都设为0。我们只需要一个样本类型表示器就可以做到。这样，整个学习目标如下：
$\sum_{i=1}^N \sum_{j\in \{det,box,landmark\}} \alpha_j \beta_i^j L_i^j \quad \quad \quad (4)$

$N$ 是训练样本的个数， $\alpha_j$ 表示任务的重要程度。我们在 P-Net 和 R-Net 中使用 $\alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=0.5$ ，在 O-Net 中使用 $\alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=1$ 来更精准地获取人脸关键点位置。 $\beta_i^j \in \{0,1\}$ 是样本类型表示器。这样，我们很自然地就会去选择随机梯度下降法来训练 CNNs。

Online hard example mining：与传统方法的在分类器训练后进行 hard sample mining 不同，我们在人脸分类任务中就进行 online hard example mining，让它自动地适应训练过程。

在每个 mini-batch 中，我们对前向传播中得到的损失值进行排序，选择最高的 $70\%$ 作为 hard samples。然后在反向传播时，我们只计算 hard samples 中的梯度。意思就是，在训练过程中我们忽略容易掉样本，因为它们对提升检测器没有太多帮助。实验表明，这个训练策略能产生更好的表现，而不需要人为的样本选择。

3. Experiments

Pls read paper for more details.

本文链接：https://blog.csdn.net/calvinpaean/article/details/85048918

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下：http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态：[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次，点赞45次，收藏99次。我个人用的是anaconda3的一个python集成环境，自带jupyter notebook，但在我打开jupyter notebook界面后，却找不到对应的虚拟环境，原来是jupyter notebook只是通用于下载anaconda时自带的环境，其他环境要想使用必须手动下载一些库：1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次，点赞19次，收藏28次。选择scoop纯属意外，也是无奈，因为电脑用户被锁了管理员权限，所有exe安装程序都无法安装，只可以用绿色软件，最后被我发现scoop，省去了到处下载XXX绿色版的烦恼，当然scoop里需要管理员权限的软件也跟我无缘了（譬如everything）。推荐添加dorado这个bucket镜像，里面很多中文软件，但是部分国外的软件下载地址在github，可能无法下载。以上两个是官方bucket的国内镜像，所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次，点赞2次，收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了，例如：这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题，所以内核开发者们引入了新的方法，就是在内核中只保留函数，而数据则不包含，由用户（应用程序员）自己把数据按照规定的格式编写，并放在约定的地方，为了不占用过多的内存，还要求数据以根精简的方式编写。boot启动时，传参给内核，告诉内核设备树文件和kernel的位置，内核启动时根据地址去找到设备树文件，再利用专用的编译器去反编译dtb文件，将dtb还原成数据结构，以供驱动的函数去调用。firmware是三星的一个固件的设备信息，因为找不到固件，所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次，点赞24次，收藏42次。Linux系统配置jdkLinux学习教程，Linux入门教程（超详细）_linux配置jdk

随便推点

matlab(4)：特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次，点赞5次，收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图：_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件，可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中，对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数，而关闭则使用fclose函数。在C语言中，可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布阅读量：7 ️文章类型：【 C语言程序设计】在C语言中，用于打开文件的函数是____，用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次，点赞2次，收藏13次。跟随鼠标移动的粒子以grid（SOP）为partical（SOP）的资源模板，调整后连接【Geo组合+point spirit（MAT)】，在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in（CHOP)鼠标位置到metaball的坐标，实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置：Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成，B/S模式 + Maven管理等等。环境需要1.运行环境：最好是java jdk 1.8，我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多，会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析，后面会慢慢更新。另外，博客只作为自己学习记录的一种方式，对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次，点赞41次，收藏13次。java 数据结构与算法 ——快速排序法_快速排序法