[发明专利]一种面向监控场景的行人人脸超分辨率重建方法在审

申请号：	201810224421.0	申请日：	2018-03-19
公开（公告）号：	CN108765279A	公开（公告）日：	2018-11-06
发明（设计）人：	杨金福;王美杰;张京玲;李明爱;许兵兵	申请（专利权）人：	北京工业大学
主分类号：	G06T3/40	分类号：	G06T3/40;G06K9/00;G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种面向监控场景的行人人脸超分辨率重建方法，将行人人脸检测和人脸超分辨率重建统一到一个网络中，实现以端到端的方式输出人脸超分辨率图像，并给出针对行人人脸不可避免的不对齐、含有噪声等问题的解决方法。本发明分为行人人脸检测部分和人脸超分辨重建部分。给定一张行人的图像，首先利用人脸检测网络生成候选人脸的包围盒，然后将得到的包围盒输入人脸超分辨网络中，生成高分辨率的人脸图像。在联合优化的过程中，人脸检测网络和人脸超分辨网络相互适应。本发明能够为视频监控的行人再识别技术提供有效的信息，帮助完成寻找特定行人的任务，突破现有再识别中依靠行人外表等属性来区分不同的行人，有效利用关键的人脸信息。
搜索关键词：	人脸超分辨率人脸检测人脸超分辨重建监控场景包围盒网络图像高分辨率联合优化人脸图像人脸信息视频监控网络生成对齐噪声输出帮助统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向监控场景的行人人脸超分辨率重建方法,其实现过程包括以下步骤：步骤1：数据预处理；视频监控中的静态图像作为输入图像，对输入图像进行预处理，即将输入图像依次进行随机裁剪、尺度变换和水平翻转，得到预处理过的图像样本；步骤2：使用快速消化卷积层得到特征图；步骤2.1：构建包含2个卷积层、2个池化层和含有2个C.ReLU激活函数的快速消化卷积层；步骤2.2：将由步骤1获得的图像样本通过快速消化卷积层，通过卷积层提取特征，再通过C.ReLU，再通过池化层映射特征，获得特征图；步骤3：使用多尺度卷积层获得不同尺度的人脸特征图；步骤3.1：构建Inception模块，该模块包含4个分的卷积层和池化层，第一个分支为核大小为1×1的卷积层，第二个分为依次为核大小为3×3的池化层和1×1的卷积层，第三个分支依次为核大小为1×1的卷积层和3×3的卷积层，第四个分支依次为核大小为1×1的卷积层、3×3的卷积层和3×3的卷积层；步骤3.2：构建包含3个Inception模块和4个卷积层的多尺度卷积层；步骤3.3：将由步骤2获得的特征图通过多尺度卷积层，经过Inception模块和卷积层提取特征，以获取第三个Inception(Inception3)输出的特征图作为第一个特征图，分别以获取第二个(Conv3_2)和第四个卷积层(Conv4_2)的特征作为第二个和第三个特征图；步骤4：利用anchor密集化策略扩充anchor步骤4.1：设置anchor初始尺寸：Inception3层的anchor尺寸为32、64和128像素，卷积层Conv3_2的anchor尺寸为256和512像素，卷积层Conv4_2的anchor尺寸为256和512像素；步骤4.2：计算anchor的密度：其中，Ascale为anchor的尺寸，Ainterval为anchor平移的步长，Adensity为anchor的密度；这里，在Inception3中的Ainterval默认为32、32和32，在Conv3_2中的Ainterval默认为64，在Conv4_2中的Ainterval默认为128；步骤4.3：对密度值不是最高的anchor利用anchor密集化策略进行扩充，得到密度大小相同的anchor：步骤4.3.1：设置Anumber参数，表示anchor扩充的倍数；步骤4.3.2：在每个感受野中心的周围以anchor中心偏移的方式使anchor变为倍；步骤5：获得行人人脸的特征图步骤5.1：将由步骤4获得的每个特征输入分类层和边框回归层：步骤5.1.1：使用Softmax损失函数作为分类器来分类非人脸和人脸，即其中，P(i)为所属类别概率，为模型参数，x为输入，K为分类类别数；此处，K＝2，上式可化简为：步骤5.1.2：边框回归层利用下式调整每个anchor区域：其中，x、y、w和h分别为预测框的中心点坐标、宽和高，x_a、y_a、w_a和h_a分别表示候选区域框的中心点坐标、宽和高，x^*、y^*、w^*和h^*分别表示真实框的中心点坐标、宽和高；t_x、t_y、t_w和t_h分别为anchor的偏移量，即分别为anchor中心点坐标的平移量和anchor宽和高的平移量；和分别为候选区域与真实框之间的中心坐标的平移量、宽和高的平移量；步骤5.2：获得分类标签为人脸的特征：对分类为非人脸的特征图进行去除，仅保留分类为人脸的特征图；步骤6：将特征通过RoI Pooling层获得大小一致的特征图：为了将图像中的anchor定位到特征图中对应部分和获得大小一致的特征图，将由步骤5获得人脸的特征图，通过RoI Pooling层，获得大小一致的特征图，即低分辨率人脸特征图；步骤7：利用变换区分解码模块获得中间的高分辨率人脸全文中低分辨率与高分辨为相对概念，其中低分辨率是由于摄像头设备造成的，即摄像头设备采集监控图像中的人脸则处于低分辨率的水平；高分辨率是通过重建方法提高分辨率来获得高分辨率人脸；步骤7.1：变换区分解码模块包含两个部分：一个对齐上采样模块和一个区分模块；其中，对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层，用于生成高分辨率的人脸图像；区分模块依次包含多个卷积层、池化层和全连接层，用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸；步骤7.1.1：使用STN对齐图像得到对齐的特征图：构建STN，STN包含一个网格生成模块和一个双线性采样器；其中，网格生成网络用于回归出一组六维的变换参数θ，并使用该参数生成网格，其中仿射变换公式如下：其中，为输出特征图上的坐标，为输入特征图上的坐标，θ₁₁、θ₁₂、θ₂₁和θ₂₂是缩放和旋转变换的参数，θ₁₃和θ₂₃是平移变换的参数；双线性采样器的公式如下：其中，为输出特征图的通道c上位置(m,n)的像素值，为输入特征图的通道c上位置(x^s,y^s)的像素值；若(x^t,y^t)与(m,n)很接近，即若|x^t‑m|＜1且|y^t‑n|<1，则在(x^s,y^s)位置插入步骤7.1.2：使用反卷积得到高分辨率人脸：该层在这里相当于进行上采样的操作；通过调整步长来实现对采样因子的调整，两次反卷积分别采用3×3和5×5大小的核；该过程由下面公式表示：F＝σ(Wd·FSTN+B)其中F代表反卷积层的输出，σ代表激活函数，Wd代表反卷积层的权重参数，表示反卷积操作，FSTN为STN输出的特征，B为偏置；步骤7.1.3：使用区分模块进行分类：该区分模块的输入为由对齐上采样模块重建的高分辨率人脸图像，该图像通过多个卷积层和最大池化层，然后通过多个全连接层进行二分类操作；步骤7.2：将由步骤6获得的低分辨率人脸特征图通过由步骤7.1构建的对齐上采样模块获得粗略对齐的高分辨率人脸特征步骤8：利用变换编码模块获得对齐的无噪声的低分辨率人脸特征步骤8.1：依次使用两组卷积层和最大池化层、STN模块、卷积层、最大池化层和STN构建变换编码模块；步骤8.2：将由步骤7所生成的中间的高分辨人脸特征图通过区分模块生成无噪声、对齐的低分辨率人脸图像；步骤9：利用变换区分解码模块获得最终的高分辨率人脸步骤9.1：变换区分解码模块包含两个部分：一个对齐上采样模块和一个区分模块；其中，对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层，用于生成高分辨率的人脸图像；区分模块依次包含多个卷积层、池化层和全连接层，用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸；步骤9.2：将由步骤8所生成的低分辨人脸特征图通过对齐上采样模块生成最终高分辨率的人脸图像；步骤10：网络的训练过程首先分别训练人脸检测部分和人脸超分辨率部分，然后再训练整个网络，微调两个部分的权值，使两者更加适应彼此；步骤10.1：训练参数设置：所有参数使用“xavier”方法进行随机初始化；采用随机梯度下降算法训练模型，其中动量设置为0.9；权重衰减率设置为0.0005，batch‑size设置为32，学习率初始设置为10‑3；步骤10.2：人脸检测部分的训练人脸检测部分训练的损失函数为：L(p,u,tu,v)＝Lcls(p,u)+λ[u＝1]Lloc(tu,v)其中，整体损失函数L是由分类层损失函数L_cls和检测为人脸即u＝1边框定位损失函数L_loc在权重参数λ的平衡下相加得到；L_cls为分类层损失函数，p＝(p₀,...,p_u,...p_k)为softmax层输出k+1类别的概率，此处k＝1，即输出非人脸和人脸两个类别的概率，L_cls＝‑logp_u表示真实的标签为u的误差，此处u＝0表示非人脸或u＝1表示人脸；L_cls为边框定位的损失函数，仅在检测为人脸时起作用，其中，令j＝1,2,3,4，和v_j分别表示v＝(v₁,v₂,v₃,v₄)＝(v_x,v_y,v_w,v_h)表示预测人脸框的横坐标、纵坐标、宽度和高度，表示真实人脸的横坐标、纵坐标、宽度和高度；λ为用于平衡L_cls和L_loc的权重的参数，取值为10；步骤10.3：人脸超分辨率部分的训练步骤10.3.1：变换区分解码模块的训练该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数，其损失函数写为：表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸h_i之误差的L2范数的数学期望，即使得重建的高分辨率人脸与真实的高分辨人脸h_i更加接近；其中，s表示对齐上采样模块的参数，表示L2范数，表示输入的含噪声不对齐的低分辨率的人脸特征图，h_i表示高分辨率的ground‑truth人脸图像，p(lⁿ,h)表示低分辨率和高分辨率人脸的联合概率分布，表示对齐上采样模块输出的高分辨率的人脸图像；该模块中区分模块的损失函数L(t)为最大化分区模块的交叉熵如下：表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸h_i接近使得区分模块难以分辨，即由变换区分解码模块所生成的高分辨率人脸与真实的人脸h_i通过区分模块造成的交叉熵误差损失最大；其中，t表示分区模块的参数，D(h_i)表示真实的人脸h_i通过分区模块的输出，表示高分辨重建的人脸通过区分模块的输出，p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布；更新对齐上采样模块的参数：使用最大化区分模块的损失函数L(t)进行反向传播，其中区分模块的参数t在第i+1次迭代时更新过程如下：其中，r表示学习率，设置为10‑4，γ表示衰减率，设置为0.0005，i表示第i次迭代，Δ表示损失的残差变化，用于参数t的更新；ε被设置为10‑8来避免除数为0；对于对齐上采样模块，联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s：其中，μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子，设置权重因子的初始值为0.01，并用下面公式更新权重因子的值：μk＝max{μ·0.99k,μ/2}其中，k表示epoch的次数；步骤10.3.2：变换编码器模块的训练该模块的目标函数为：表示最小化损失函数E(e)也就是最小化重建的高分辨率人脸通过Ψ产生的低分辨率人脸与真实的低分辨人脸l_i之间误差的L2范数的数学期望，即使得通过变换编码器得到的低分辨率人脸(即)与真实的低分辨人脸l_i更加接近；其中，e表示变换编码模块的参数，l_i表示真实的低分辨率人脸图像，表示低分辨率和高分辨率重建人脸的联合概率分布表示从中间上采样的高分辨率的人脸图像到低分辨率人脸的映射；步骤10.3.3：变换区分解码模块的训练该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数，其损失函数写为：表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸h_i之误差的L2范数的数学期望，即使得重建的高分辨率人脸与真实的高分辨人脸h_i更加接近；其中，s表示对齐上采样模块的参数，表示L2范数，表示输入的含噪声不对齐的低分辨率的人脸特征图，h_i表示高分辨率的ground‑truth人脸图像，p(lⁿ,h)表示低分辨率和高分辨率人脸的联合概率分布，表示对齐上采样模块输出的高分辨率的人脸图像；该模块中区分模块的损失函数L(t)为最大化分区模块的交叉熵如下：表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸h_i接近使得区分模块难以分辨，即由变换区分解码模块所生成的高分辨率人脸与真实的人脸h_i通过区分模块造成的交叉熵误差损失最大；其中，t表示分区模块的参数，D(h_i)表示真实的人脸h_i通过分区模块的输出，表示高分辨重建的人脸通过区分模块的输出，p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布；更新对齐上采样模块的参数：使用最大化区分模块的损失函数L(t)进行反向传播，其中区分模块的参数t在第i+1次迭代时更新过程如下：其中，r表示学习率，设置为10‑4，γ表示衰减率，设置为0.0005，i表示第i次迭代，Δ表示损失的残差变化，用于参数t的更新；ε被设置为10‑8来避免除数为0；对于对齐上采样模块，联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s：其中，μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子，设置权重因子的初始值为0.01，并用下面公式更新权重因子的值：μk＝max{μ·0.99k,μ/2}其中，k表示epoch的次数；步骤10.3：整个网络的训练采用随机梯度下降算法训练整个网络的模型，其中动量设置为0.9；权重衰减率设置为0.0005，batch‑size设置为32，学习率初始设置为10‑4；步骤11：网络的测试输入一张行人图像，通过行人人脸检测部分得到人脸的特征图，然后通过人脸高分辨率部分获得高分辨率重建人脸图像。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810224421.0/，转载请声明来源钻瓜专利网。

上一篇：图像拼接方法、装置、计算机设备和存储介质
下一篇：一种高光谱图像空间分辨率增强方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T3-00 在图像平面内的图形图像转换，例如，从位像到位像地建立一个不同图像
G06T3-20 .整个或部分图形的线性转换，如面位显示
G06T3-40 .整个或部分图形的定标
G06T3-60 .整个或部分图形的旋转

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向监控场景的行人人脸超分辨率重建方法在审

专利文献下载