首页 > 论文范文 > 自然科学论文 > 生物学论文 > 融合人脸图像深度和外观特征的BMI估计方法

融合人脸图像深度和外观特征的BMI估计方法

2024-01-04 12 上传者：管理员

摘要：身体质量指数(BMI)是人类健康重要指标。从2D正脸图像中估计3D人脸信息并提出一个端到端BMI估计框架，以进一步提高BMI估计性能。首先，计算人脸468个3D关键点，并根据关键点相对头部质心的深度绘制深度人脸图；其次，提取人脸图像的方向梯度直方图(HOG)并可视化以表示外观特征；最后，利用卷积神经网络(CNN)VGGNet、ResNet分别对深度人脸图和HOG进行特征提取，并使用Hadamard积融合2个骨干网络的特征以估计BMI。与目前已有方法的对比实验中，本文提出方法在2个公开数据集上的整体平均绝对误差(MAE)分别比最优结果低0.38和1。上述实验结果证明了本文提出的融合3D人脸图像深度和外观特征的BMI估计方法的有效性。

关键词：
人脸3D关键点
人脸网格模型
方向梯度直方图
深度卷积神经网络
身体质量指数估计
加入收藏

体重指数(body mass index, BMI)是一种根据个人身高与体重之间的比率描述体重状况的方法。它将个体分类为体重不足、正常、超重或肥胖。BMI的定义常用体重(kg)除以身高(m)的平方来表示，通常认为体型适当的个体比异常肥胖的个体更具吸引力并且看起来更健康[1,2]。

近年来，研究者发现人们从面部图像感知的体重与他们的实际体重指数呈正相关[3],在心理学和知觉研究中，手动标记面部特征并评估这些面部特征与BMI的关联[4,5]。Wen L等人[6]提出通过机器视觉和统计技术从正面人脸图像中自动估计BMI。Pascali M A等人[7]基于深度传感器构建3D几何人脸重建系统，并定义了3D人脸特征。结果证明了人脸的立体信息能有效地应用于BMI估计中。

基于深度卷积神经网络(deep convolutional neural network, DCNN)[8,9]的深度学习方法也开始应用于从面部图像计算BMI。Kocabey E等人[10]证明通过VGG网络从人脸图像中提取的深层特征与实际BMI值密切相关。Jiang M等人[11]证明了基于深度模型的方法比基于几何模型的方法具有更好的性能。Siddiqui H等人[12]和Jiang M等人[13]进一步优化了基于深层CNN提取面部特征的方法。

然而，虽然3D几何人脸重建具有更好的性能，但由于复杂的建模过程和计算消耗，使其很难大规模应用[7]。其余研究采用的图像数据则都是2D正脸图像，并未充分利用人脸的3D立体信息[12,13]。因此，如果能从2D人脸图像中恢复部分3D信息并用于BMI估计，则能在大范围的应用基础上提高估计的性能。

本文基于上述假设，利用开源框架Mediapipe[14]计算人脸3D关键点，然后基于关键点划分人脸网格，每个网格的灰度值表示该区域的深度信息，以此来生成包含人脸立体信息的2D人脸深度图(在下文中统称为Mesh图)。然后，进一步提取每个样本的方向梯度直方图(histogram of oriented gradient, HOG)并可视化，通过局部梯度或边缘的方向来描述人脸的外观和形状。最后，本文提出一个新的网络框架融合Mesh图和HOG,进行二次特征提取并估计BMI。公开数据集上的对比实验证明了本文方法。

1、人脸视觉外观特征预处理

本文使用基于K-means的方法对齐人脸[15]。将人脸图像处理成224×224,利用Mediapipe框架提取3D关键点。其中每个点的x和y坐标为图像中该点在2D平面的像素坐标，z坐标则为到头部质心的参考平面的深度。通过该框架获取468个3D人脸关键点，然后结合Canonical人脸模型将整个人脸区域划分为902个三角形网格区域。每个三角形网格区域3个顶点均为468个关键点之一，每个三角形灰度值为3个顶点z坐标的均值，然后放缩至0～255之间。如式(1)所示

式中zi,zj,zk为3个顶点的z轴坐标；zmax和zmin为468个顶点的最大和最小z轴坐标；H为灰度值。根据每个区域灰度值重新绘制人脸，如图1所示。

图1 关键点和Mesh图展示，Mesh图各个三角形区域的灰度值代表其深度

由图1可知，经过处理的Mesh图虽然能表示人脸各个区域的深度，但由于每个区域均是由人工定义，由3D关键点划分，丢失了每个样本独特的外观特征。因此，本文利用HOG[16]提取获得的人脸图像外观特征。该方法统计图像局部区域梯度方向信息和计算局部区域HOG来构成特征。图2展示了部分图片可视化后的结果。

图2 HOG可视化

2、二次特征提取融合及BMI估计

得到人脸Mesh图和HOG后，本文使用DCNN进行二次特征提取。骨干网络的选取实验见下节，网络结构如图3所示。针对Mesh图，使用VGGNet—19特征提取器并添加BN层减小过拟合，加速收敛。针对HOG,使用ResNet—18的特征提取器。整个特征提取网络的参数均在ImageNet上预训练并迁移到BMI估计中。之后将2个子网络的输出进行通道上的混合，混合方式如式(2)所示

I=α。 β (2)

式中α为通过VGGNet—19提取的卷积特征图，β为通过ResNet—18提取的卷积特征图，。为哈达玛积。最终形成512×7×7维度的特征图I作为下一步的输入。

图3 特征提取与融合网络结构

BMI估计模块如图4所示，首先对输入的特征图I进行全局平均池化(Global AvgPooling),如式(3)所示

在本文中，N设置为7。

之后对输出展平(Flatten)以放入第一个全连接层中，该层包含512个神经元，输出通道为256,并使用一维批归一化、ReLU非线性激活函数和丢弃法提高泛化性能，减少过拟合。最后使用包含256个神经元的全连接层估计BMI值。

图4 BMI估计器网络结构

3、实验与分析

3.1 数据集获取

本文在公开的VIP数据集[17]和Reddit数据集[18]上进行了实验。VIP数据集于2017年从社交媒体中获得，该数据集包括513名女性和513名男性，样本BMI值分布范围为16～56,78例体重不足(BMI<18.5),697例正常(18.5<BMI<25),204例超重(25<BMI<30),47例肥胖(30<BMI)。Reddit数据集于2019年从社交媒体上收集，总共包含982名受试者，其中600名男性，382名女性。所有样本的BMI值分布范围为12～56,7例体重不足(BMI<18.5),241例正常(18.5<BMI<25),283例超重(25<BMI<30),451例肥胖(30<BMI)。

3.2 应用细节

由于所使用数据集在4类中极度不平衡。体重不足，超重和肥胖类别样本数量太少。相反，正常类别样本数量要大得多。因此，对数据集实施数据增强以解决这种不平衡问题，包括随机裁剪、随机翻转和随机旋转。此外利用过采样的方法控制训练集每个批次的每个类别都具有相同数量的样本。随机使用80 %的样本进行训练，20 %的样本进行验证，但保证每类样本都会出现在验证集中。

整个网络使用32 GB NVIDIA V100显卡，在Pytorch—1.40上训练。平滑L1loss作为损失函数，如式(4)所示

使用的梯度下降算法为Adam(adaptive moment estimation)算法，初始学习率baselr设置为1×10-4,初始动量分别为β1=0.9和β2=0.999。每个最小的训练批次包含40个样本，学习率的衰减原则如式(6)所示

baselr×γ×iter (6)

式中γ设置为0.8,iter为迭代的步数。

3.3 骨干网络选择及消融实验

首先，本文选择了在图像识别、定位和人脸检测等方面常见几个网络。它们分别是VGGNet—19、ResNet—18、DenseNet—101和ResNeXt—121。以MAE作为评价指标，在VIP数据集上进行实验，各个骨干网络的性能如图5所示，用类似混淆矩阵的形式进行结果呈现，其中横坐标Mesh表示输入为Mesh图的骨干网络选择，纵坐标HOG表示输入为HOG的骨干网络选择。

图5 骨干网络选取实验结果

从图5中可以得到，当2个骨干网络均选择相同的DCNN框架时，对角线上MAE的值依次递增，考虑到从VGG到ResNeXt, 网络的深度、层数和参数量依次增加，出现过拟合的情况，泛化性能下降，所以MAE逐渐增大。此外，对角线上的MAE均大于同行或者同列上的值，此种情况说明当针对不同输入使用相同的骨干网络时，出现特征冗余的情况，导致BMI的估计误差增大。由图5可得，当人脸Mesh图采用VGGNet—19作为骨干网络，HOG采用ResNet—18作为骨干网络时，本文方法能取得最佳性能。

为了证明本文提出的Mesh图和HOG的联合使用以及特征融合的有效性。本文进一步在VIP数据集上进行了消融实验，结果如表1和图6所示。

表1 单输入和联合输入方法的消融实验

图6 不同输入基于误差的箱型图

如表1所示，整体上，Mesh-HOG融合方法在MAE、RMSE和MAPE上均优于只有Mesh图或者HOG的单输入方法。由图6可见，从HOG到Mesh-HOG,误差箱型图的极大值、75 %分位数、中位数以及25 %分位数依次递减，均证明了结合人脸各个区域相对头部质心的深度特征和人脸外观的融合特征能够有效降低BMI估计的误差。此外，单输入Mesh图方法的性能优于单输入HOG方法，一定程度上反映了相对于人脸的2D外观，人脸的立体信息更适合作为BMI估计的特征。

同时，BMI正常类别的3项指标(MAE、RMSE和MAPE)最小，体重不足和超重类别的3项指标其次，而肥胖类别的3项指标最大。这是因为数据集的BMI分布不均，某个类别的训练图像较少会导致相应类别的性能较差。此外，由于朴素的过采样方法的缺点，该模型在体重不足和肥胖的类别过拟合。但由于肥胖类别里BMI的分布最广，为30～56的区间，其他三类的BMI分布区间远小于肥胖类别分布区间，最终导致肥胖类别拟合性能最低，估计误差最大。

考虑到Mesh-HOG融合输入方法的模型复杂度和参数量均高于单输入方法，为评估计算量的差异，横向对比在VIP数据集上，训练集每完成1次训练所需时间和估计单张图像所需时间。其中，训练集使用800张图像，对整个训练集累计训练20次并计算每次的平均训练时长。对200张图像进行预测，并计算单张图像的评价预测时长。具体结果如表2所示。由表2可知，融合方法的训练时长和预测时长更久。但考虑在实际应用中，当训练完成后，针对单张图像的预测时间差距不超过20 ms左右，作为被测试者则完全感受不到这种差异。因此，时间上的微小牺牲换取估计性能的提升显然更有意义。

表2 单输入和联合输入方法的计算时长比较

3.4 对比实验

本文进一步将提出的方法在VIP数据集上与已有的最新研究方法进行比较：1)LDL-CPNN和LDL-IIS由Wen Y等人[19]提出，使用Centerloss模型提取特征并进行估计。2)ResNet—50由Dantcheva A等人[17]提出，是基于50层ResNet体系结构的回归方法。3)LD-PLS和LD-CCA由Jiang M等人[13]提出，是基于标签分布的BMI估计学习方法。比较结果如表3所示。由表3可见，无论是整体的还是区分性别的实验结果，本文方法均较已有研究方法取得了较大的性能提升，所得BMI估计的MAE最小。

表3 基于VIP数据集不同方法MAE比较

此外，本文还在Reddit数据集上进行了对比实验。Haritosh A等人[18]使用XceptionNet, VGG-Face和ResNet等多个模型提取特征并计算BMI。如表4所示，本文方法相比已有研究算法，所得BMI估计的MAE最小。

表4 基于Reddit数据集不同方法MAE比较

4、结论

考虑人脸各个区域深度大小对BMI估计的影响，通过人脸3D关键点结合人脸模型手动定义Mesh图，并在BMI估计中使用HOG特征，搭建了一个基于DCNN的框架进行特征融合，通过融合后的深度和外观特征进行BMI回归，实验结果证明融合的特征能进一步降低BMI估计的误差。

参考文献:

[8]梁礼明,邓广宏,卢明建,等.基于改进YOLOv3的有遮挡行人检测[J].传感器与微系统,2020,39(5):148-151.

[9]曾兵,李小霞,王学渊.结合级联卷积目标检测和跟踪的快速人头检测[J].传感器与微系统,2020,39(1):109-112.

[15]李云红,刘旭东,陈锦妮,等.基于K-means的精确人脸对齐算法[J].传感器与微系统,2021,40(3):120-122,126.

基金资助:成都市重点研发支撑计划技术创新研发项目(2020—YF05—00056—SN);

文章来源:向成豪,郑秀娟,庄嘉良等.融合人脸图像深度和外观特征的BMI估计方法[J].传感器与微系统,2024,43(01):135-138+144.