摘要:身体质量指数(BMI)是人类健康重要指标。从2D正脸图像中估计3D人脸信息并提出一个端到端BMI估计框架,以进一步提高BMI估计性能。首先,计算人脸468个3D关键点,并根据关键点相对头部质心的深度绘制深度人脸图;其次,提取人脸图像的方向梯度直方图(HOG)并可视化以表示外观特征;最后,利用卷积神经网络(CNN)VGGNet、ResNet分别对深度人脸图和HOG进行特征提取,并使用Hadamard积融合2个骨干网络的特征以估计BMI。与目前已有方法的对比实验中,本文提出方法在2个公开数据集上的整体平均绝对误差(MAE)分别比最优结果低0.38和1。上述实验结果证明了本文提出的融合3D人脸图像深度和外观特征的BMI估计方法的有效性。
加入收藏
体重指数(body mass index, BMI)是一种根据个人身高与体重之间的比率描述体重状况的方法。它将个体分类为体重不足、正常、超重或肥胖。BMI的定义常用体重(kg)除以身高(m)的平方来表示,通常认为体型适当的个体比异常肥胖的个体更具吸引力并且看起来更健康[1,2]。
近年来,研究者发现人们从面部图像感知的体重与他们的实际体重指数呈正相关[3],在心理学和知觉研究中,手动标记面部特征并评估这些面部特征与BMI的关联[4,5]。Wen L等人[6]提出通过机器视觉和统计技术从正面人脸图像中自动估计BMI。Pascali M A等人[7]基于深度传感器构建3D几何人脸重建系统,并定义了3D人脸特征。结果证明了人脸的立体信息能有效地应用于BMI估计中。
基于深度卷积神经网络(deep convolutional neural network, DCNN)[8,9]的深度学习方法也开始应用于从面部图像计算BMI。Kocabey E等人[10]证明通过VGG网络从人脸图像中提取的深层特征与实际BMI值密切相关。Jiang M等人[11]证明了基于深度模型的方法比基于几何模型的方法具有更好的性能。Siddiqui H等人[12]和Jiang M等人[13]进一步优化了基于深层CNN提取面部特征的方法。
然而,虽然3D几何人脸重建具有更好的性能,但由于复杂的建模过程和计算消耗,使其很难大规模应用[7]。其余研究采用的图像数据则都是2D正脸图像,并未充分利用人脸的3D立体信息[12,13]。因此,如果能从2D人脸图像中恢复部分3D信息并用于BMI估计,则能在大范围的应用基础上提高估计的性能。
本文基于上述假设,利用开源框架Mediapipe[14]计算人脸3D关键点,然后基于关键点划分人脸网格,每个网格的灰度值表示该区域的深度信息,以此来生成包含人脸立体信息的2D人脸深度图(在下文中统称为Mesh图)。然后,进一步提取每个样本的方向梯度直方图(histogram of oriented gradient, HOG)并可视化,通过局部梯度或边缘的方向来描述人脸的外观和形状。最后,本文提出一个新的网络框架融合Mesh图和HOG,进行二次特征提取并估计BMI。公开数据集上的对比实验证明了本文方法。
1、人脸视觉外观特征预处理
本文使用基于K-means的方法对齐人脸[15]。将人脸图像处理成224×224,利用Mediapipe框架提取3D关键点。其中每个点的x和y坐标为图像中该点在2D平面的像素坐标,z坐标则为到头部质心的参考平面的深度。通过该框架获取468个3D人脸关键点,然后结合Canonical人脸模型将整个人脸区域划分为902个三角形网格区域。每个三角形网格区域3个顶点均为468个关键点之一,每个三角形灰度值为3个顶点z坐标的均值,然后放缩至0~255之间。如式(1)所示
式中zi,zj,zk为3个顶点的z轴坐标;zmax和zmin为468个顶点的最大和最小z轴坐标;H为灰度值。根据每个区域灰度值重新绘制人脸,如图1所示。
图1 关键点和Mesh图展示,Mesh图各个 三角形区域的灰度值代表其深度
由图1可知,经过处理的Mesh图虽然能表示人脸各个区域的深度,但由于每个区域均是由人工定义,由3D关键点划分,丢失了每个样本独特的外观特征。因此,本文利用HOG[16]提取获得的人脸图像外观特征。该方法统计图像局部区域梯度方向信息和计算局部区域HOG来构成特征。图2展示了部分图片可视化后的结果。
图2 HOG可视化
2、二次特征提取融合及BMI估计
得到人脸Mesh图和HOG后,本文使用DCNN进行二次特征提取。骨干网络的选取实验见下节,网络结构如图3所示。针对Mesh图,使用VGGNet—19特征提取器并添加BN层减小过拟合,加速收敛。针对HOG,使用ResNet—18的特征提取器。整个特征提取网络的参数均在ImageNet上预训练并迁移到BMI估计中。之后将2个子网络的输出进行通道上的混合,混合方式如式(2)所示
I=α。 β (2)
式中α为通过VGGNet—19提取的卷积特征图,β为通过ResNet—18提取的卷积特征图,。为哈达玛积。最终形成512×7×7维度的特征图I作为下一步的输入。
图3 特征提取与融合网络结构
BMI估计模块如图4所示,首先对输入的特征图I进行全局平均池化(Global AvgPooling),如式(3)所示
在本文中,N设置为7。
之后对输出展平(Flatten)以放入第一个全连接层中,该层包含512个神经元,输出通道为256,并使用一维批归一化、ReLU非线性激活函数和丢弃法提高泛化性能,减少过拟合。最后使用包含256个神经元的全连接层估计BMI值。
图4 BMI估计器网络结构
3、实验与分析
3.1 数据集获取
本文在公开的VIP数据集[17]和Reddit数据集[18]上进行了实验。VIP数据集于2017年从社交媒体中获得,该数据集包括513名女性和513名男性,样本BMI值分布范围为16~56,78例体重不足(BMI<18.5),697例正常(18.5<BMI<25),204例超重(25<BMI<30),47例肥胖(30<BMI)。Reddit数据集于2019年从社交媒体上收集,总共包含982名受试者,其中600名男性,382名女性。所有样本的BMI值分布范围为12~56,7例体重不足(BMI<18.5),241例正常(18.5<BMI<25),283例超重(25<BMI<30),451例肥胖(30<BMI)。
3.2 应用细节
由于所使用数据集在4类中极度不平衡。体重不足,超重和肥胖类别样本数量太少。相反,正常类别样本数量要大得多。因此,对数据集实施数据增强以解决这种不平衡问题,包括随机裁剪、随机翻转和随机旋转。此外利用过采样的方法控制训练集每个批次的每个类别都具有相同数量的样本。随机使用80 %的样本进行训练,20 %的样本进行验证,但保证每类样本都会出现在验证集中。
整个网络使用32 GB NVIDIA V100显卡,在Pytorch—1.40上训练。平滑L1loss作为损失函数,如式(4)所示
使用的梯度下降算法为Adam(adaptive moment estimation)算法,初始学习率baselr设置为1×10-4,初始动量分别为β1=0.9和β2=0.999。每个最小的训练批次包含40个样本,学习率的衰减原则如式(6)所示
baselr×γ×iter (6)
式中γ设置为0.8,iter为迭代的步数。
3.3 骨干网络选择及消融实验
首先,本文选择了在图像识别、定位和人脸检测等方面常见几个网络。它们分别是VGGNet—19、ResNet—18、DenseNet—101和ResNeXt—121。以MAE作为评价指标,在VIP数据集上进行实验,各个骨干网络的性能如图5所示,用类似混淆矩阵的形式进行结果呈现,其中横坐标Mesh表示输入为Mesh图的骨干网络选择,纵坐标HOG表示输入为HOG的骨干网络选择。
图5 骨干网络选取实验结果
从图5中可以得到,当2个骨干网络均选择相同的DCNN框架时,对角线上MAE的值依次递增,考虑到从VGG到ResNeXt, 网络的深度、层数和参数量依次增加,出现过拟合的情况,泛化性能下降,所以MAE逐渐增大。此外,对角线上的MAE均大于同行或者同列上的值,此种情况说明当针对不同输入使用相同的骨干网络时,出现特征冗余的情况,导致BMI的估计误差增大。由图5可得,当人脸Mesh图采用VGGNet—19作为骨干网络,HOG采用ResNet—18作为骨干网络时,本文方法能取得最佳性能。
为了证明本文提出的Mesh图和HOG的联合使用以及特征融合的有效性。本文进一步在VIP数据集上进行了消融实验,结果如表1和图6所示。
表1 单输入和联合输入方法的消融实验
图6 不同输入基于误差的箱型图
如表1所示,整体上,Mesh-HOG融合方法在MAE、RMSE和MAPE上均优于只有Mesh图或者HOG的单输入方法。由图6可见,从HOG到Mesh-HOG,误差箱型图的极大值、75 %分位数、中位数以及25 %分位数依次递减,均证明了结合人脸各个区域相对头部质心的深度特征和人脸外观的融合特征能够有效降低BMI估计的误差。此外,单输入Mesh图方法的性能优于单输入HOG方法,一定程度上反映了相对于人脸的2D外观,人脸的立体信息更适合作为BMI估计的特征。
同时,BMI正常类别的3项指标(MAE、RMSE和MAPE)最小,体重不足和超重类别的3项指标其次,而肥胖类别的3项指标最大。这是因为数据集的BMI分布不均,某个类别的训练图像较少会导致相应类别的性能较差。此外,由于朴素的过采样方法的缺点,该模型在体重不足和肥胖的类别过拟合。但由于肥胖类别里BMI的分布最广,为30~56的区间,其他三类的BMI分布区间远小于肥胖类别分布区间,最终导致肥胖类别拟合性能最低,估计误差最大。
考虑到Mesh-HOG融合输入方法的模型复杂度和参数量均高于单输入方法,为评估计算量的差异,横向对比在VIP数据集上,训练集每完成1次训练所需时间和估计单张图像所需时间。其中,训练集使用800张图像,对整个训练集累计训练20次并计算每次的平均训练时长。对200张图像进行预测,并计算单张图像的评价预测时长。具体结果如表2所示。由表2可知,融合方法的训练时长和预测时长更久。但考虑在实际应用中,当训练完成后,针对单张图像的预测时间差距不超过20 ms左右,作为被测试者则完全感受不到这种差异。因此,时间上的微小牺牲换取估计性能的提升显然更有意义。
表2 单输入和联合输入方法的计算时长比较
3.4 对比实验
本文进一步将提出的方法在VIP数据集上与已有的最新研究方法进行比较:1)LDL-CPNN和LDL-IIS由Wen Y等人[19]提出,使用Centerloss模型提取特征并进行估计。2)ResNet—50由Dantcheva A等人[17]提出,是基于50层ResNet体系结构的回归方法。3)LD-PLS和LD-CCA由Jiang M等人[13]提出,是基于标签分布的BMI估计学习方法。比较结果如表3所示。由表3可见,无论是整体的还是区分性别的实验结果,本文方法均较已有研究方法取得了较大的性能提升,所得BMI估计的MAE最小。
表3 基于VIP数据集不同方法MAE比较
此外,本文还在Reddit数据集上进行了对比实验。Haritosh A等人[18]使用XceptionNet, VGG-Face和ResNet等多个模型提取特征并计算BMI。如表4所示,本文方法相比已有研究算法,所得BMI估计的MAE最小。
表4 基于Reddit数据集不同方法MAE比较
4、结 论
考虑人脸各个区域深度大小对BMI估计的影响,通过人脸3D关键点结合人脸模型手动定义Mesh图,并在BMI估计中使用HOG特征,搭建了一个基于DCNN的框架进行特征融合,通过融合后的深度和外观特征进行BMI回归,实验结果证明融合的特征能进一步降低BMI估计的误差。
参考文献:
[8]梁礼明,邓广宏,卢明建,等.基于改进YOLOv3的有遮挡行人检测[J].传感器与微系统,2020,39(5):148-151.
[9]曾兵,李小霞,王学渊.结合级联卷积目标检测和跟踪的快速人头检测[J].传感器与微系统,2020,39(1):109-112.
[15]李云红,刘旭东,陈锦妮,等.基于K-means的精确人脸对齐算法[J].传感器与微系统,2021,40(3):120-122,126.
基金资助:成都市重点研发支撑计划技术创新研发项目(2020—YF05—00056—SN);
文章来源:向成豪,郑秀娟,庄嘉良等.融合人脸图像深度和外观特征的BMI估计方法[J].传感器与微系统,2024,43(01):135-138+144.
分享:
伴随日新月异的工业发展,一些快速发展的弊端逐渐涌现出来,如加速工业化所带来化学用品的残留,生活用水污染及土壤重金属超标等一系列危害。大量重金属物质的残留无法在短时内得到妥善处理,使土壤中重金属超标,而土壤又是植物所必不可缺的生长资源[1]。
2024-12-02血小板的主要作用是参与止血。循环中的血小板一般处于静息状态,当血小板遇到受损的血管壁并暴露内皮下基质成分时,血小板被迅速激活并黏附在血管壁和其他血小板上以恢复血管完整性,在生理止血过程中起重要作用[1-2]。检测血小板活化和凋亡变化是反映血小板功能的主要指标。
2024-10-08鉴于人脐带取材方便,p HUVECs是研究众多心血管疾病理想的体外细胞模型的材料。而lnc RNA在内皮细胞中研究相对较少,且p HUVECs基因沉默效率较低。因此,通过成功分离高纯度的p HUVECs培养并建立经济且高效的沉默lnc RNA的方法,将方便众多科研学者更高效建立研究lnc RNA调控内皮功能的疾病模型。
2024-08-27目前,乳腺癌已成为威胁女性健康的主要恶性肿瘤之一,世界卫生组织国际癌症研究机构发布的2020年全球最新癌症数据显示,全球乳腺癌新发病例数占新增癌症病例数的11.7%,死亡病例数占所有癌症死亡病例数的6.9%[1]。近年来,基于不同分子分型的精准个体化治疗极大提高了乳腺癌患者的生存,但晚期难治性乳腺癌仍是临床面临的棘手问题。
2024-07-10高强度聚焦超声(High intensity focused ultrasound,HIFU)治疗被称为继临床手术切除、放疗以及化疗之后的一种创新的肿瘤治疗“绿色疗法”[1,2,3]。在HIFU临床治疗过程中,能否准确、实时地识别HIFU治疗区域生物组织变性是确保HIFU治疗安全高效的关键,对指导临床医生进行准确的HIFU疗效评价具有重要意义[4,5,6]。
2024-07-09习近平总书记在党的二十大报告中指出:“坚持和发展马克思主义,必须同中华优秀传统文化相结合[1]”。2017年《关于实施中华优秀传统文化传承发展工程的意见》提出,要推动中华优秀传统文化的创造性转化和创新性发展,要将中华优秀传统文化融入高校思想政治教育。
2024-06-19在从传统力场驱动的蛋白质结构预测到当前数据驱动的AI结构建模的发展历程中,蛋白质结构模板检测是蛋白质结构预测中的关键环节,如何检测高精度蛋白质结构远程模板对提升结构的预测精度具有重要的研究意义。该研究提出了一种基于自适应特征向量提取的远程同源模板检测算法ASEalign。首先,采用多特征信息融合的深度学习技术预测蛋白质接触图;然后,设计了融合接触图、二级结构、序列谱谱比对和溶剂可及性等多维度特征打分函数,并通过自适应地提取接触图矩阵中的特征值和特征向量进行模板比对;最后,将检测出的高质量模板输入Alpha
2024-06-17支架内再狭窄(in-stent restenosis, ISR)是影响经皮冠状动脉介入治疗效果的主要问题[1]。第四代生物可降解血管支架(biodegradable vascular stent, BVS)可有效促进血管重构,恢复血管弹性和其自然舒缩功能,在避免ISR方面比永久性支架具有更大的潜力[2]。
2024-06-14血管弯曲度与多种疾病呈现高度相关性。通过对血管弯曲度的评估,临床医生可以及时诊断相关疾病,可以监控治疗效果并及时调整治疗方案,还可以预测疾病的发展趋势和患者的预后。因此,血管弯曲度的准确评估对于临床诊断、治疗和预后具有重要价值。
2024-06-14随着社会进步,科学技术的发展,人们越来越重视实验动物在生命科学研究和药物研发中所起到的不可或缺的作用。动物实验是研究人员验证其科学设想的重要途径,其地位与价值目前还没有任何其他技术与方法可以完全取代。随着时代的发展,国内对实验动物福利伦理的要求必将与欧美实验动物发达国家接轨,受到越来越多的关注。
2024-06-14人气:4340
人气:3713
人气:2635
人气:2568
人气:2319
我要评论
期刊名称:生物学杂志
期刊人气:5016
主管单位:安徽省科学技术协会
主办单位:合肥市科学技术协会
出版地方:安徽
专业分类:生物
国际刊号:2095-1736
国内刊号:34-1081/Q
邮发代号:26-50
创刊时间:1983年
发行周期:双月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:1.343
影响因子:1.227
影响因子:1.286
影响因子:0.000
影响因子:1.349
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!