摘要:宁夏产地的宁夏枸杞属于《中华人民共和国药典》收录的道地药材,药用价值较高、消费者青睐度更高,然而优质宁夏枸杞的种植面积较小、产量较低、枸杞子市场以乱充好、以其他产地冲抵道地产区产品的现象频发。因此,建立快速有效的宁夏枸杞产地鉴别模型对监督市场具有重要的意义。日常的市场交易枸杞子的鉴定一般凭借经验,但是该方法误差较大,可信度较低。传统的理化实验鉴别周期较长,非专业人员无法操作。近些年一些学者研究发现不同产地的宁夏枸杞成分含量具有差异性,然而枸杞子样本较小、形状不规则、成分分布不均匀,近红外光谱鉴别通常需要碾碎成粉末然后采集光谱信息,无法做到无损批量地采集枸杞子数据来鉴别枸杞子产地。近红外高光谱图像结合了近红外光谱和图像,包含丰富的空间信息和光谱信息,可以实现无损批量地采集非均匀样本光谱信息。利用近红外高光谱图像对甘肃、青海、新疆、宁夏和内蒙5个产地的宁夏枸杞进行产地鉴别。使用近红外高光谱图像系统采集了1650个样本数据之后,通过阈值分割、图像去噪等方法提取出感兴趣区域。对比了ZCA白化预处理方法和常用的标准化预处理方法,实验结果表明ZCA白化预处理是一种有效的高光谱数据预处理方法,可以去除特征之间的相关性,提升产地鉴别模型的准确率。对预处理后的数据采用偏最小二乘降维降低模型复杂度,结果表明经过ZCA白化预处理后的数据可以由288维特征降低到4个主成分,使得去除相关性后的特征可以被更少的隐藏特征来表示,这样可以极大程度上降低模型复杂性。最后,将降维后的特征输入到不同的分类器中进行训练,包括支持向量机、Fisher线性判别分析和Softmax分类。其中,基于ZCA白化、PLSDR和Softmax分类的模型表现最好,在测试集上的平均准确率为94.06%,可以有效的鉴别宁夏枸杞产地。
宁夏枸杞是茄科枸杞属的一种,果实称为枸杞子[1]。近现代医学研究表明,枸杞子具有抗氧化、抗疲劳、降血脂、降血糖等多方面的药理功效[2]。宁夏枸杞是《中华人民共和国药典》中唯一列为药品的枸杞品种[3]。宁夏产地的枸杞由于色艳,皮薄,肉厚,甘甜,活性成分多以及药用价值高而受到消费者的青睐。但是品质优良的枸杞子受制于种植面积,产量有限,市场流通的商品来源无法确保,致使枸杞子市场混乱,以其他产地假冒宁夏产地的现象频发[4]。
鉴别枸杞子的传统方法有性状鉴别、显微鉴别、化学成分分析鉴别、分子生物学技术鉴别等,但是这些方法周期都比较长且具有破坏性,不能批量鉴别[5,6]。王欢[7]等研究了不同产地宁夏枸杞药用活性成分的差异,发现不同产地的枸杞多糖及甜菜碱含量存在显著性差异。曲云卿[8]等研究了不同产地枸杞类胡萝卜素含量的差异。不同产地中枸杞成分含量的不同,可以反映出枸杞内部含氢基团对近红外谱区具有不同的吸收强度,以上研究为使用近红外光谱建立枸杞产地鉴别模型提供了依据。然而枸杞子样本较小、形状不规则、成分分布不均匀,近红外光谱鉴别通常需要把样品碾碎成粉末,无法做到无损批量地采集光谱数据。近红外高光谱图像结合了近红外光谱和图像,包含丰富的空间信息和光谱信息,可以实现无损批量地采集非均匀样本光谱信息。
采用近红外高光谱图像技术进行枸杞产地的鉴别,为建立快速有效的枸杞产地鉴别模型提供实验依据。通过比较ZCA白化[9]预处理和常用的标准化预处理,采用偏最小二乘降维[10,11]算法对输入数据进行降维,验证SVM[12],LDA[13],Softmax[14]不同分类器性能表现,提出了在当前应用场景下快速有效鉴别枸杞产地的方法。
1、实验部分
1.1枸杞样本
样品的品种都为宁杞1号,产地分别为内蒙新安镇、甘肃靖远县、青海都兰县、新疆精河县和宁夏银川市。样品从产地收集,每个地方采集330个样本,统一烘干保存。使用近红外高光谱图像设备分三批采集数据,每批每个产地采集110个样本的高光谱信息。接下来使用随机采样的方法分割训练集、验证集和测试集。从第一批和第二批中每个产地随机选取150个样本作为训练集,剩下的作为验证集,第三批数据单独作为测试集,该方法重复50次用来观察模型稳定性。
1.2近红外高光谱图像系统
采集数据用的是实验室级别的高光谱相机,相机是(NEO)公司研发的HySpex系列的SN3124SWIR-384。光谱范围是948.72~2512.97nm,波段间隔5.45nm,总共288个波段。采集数据参数设置包括高光谱成像仪的镜头与枸杞子距离为20~30cm;平台移动速度为1.5mm·s-1;积分时间4500。高光谱图像采集系统示意图如图1所示。
图1高光谱图像系统示意图
图1高光谱图像系统示意图
1.3获取高光谱图像数据
批量的把样本按图1所示摆放在移动平台上,样本之间没有重叠,高光谱设备采集数据,数据分析全部采用MATALB2017b。
枸杞在近红外谱区吸收较弱的波段,对应的反射率相对较大,可以体现出样本与黑板之间更明显的差异性,有利于通过图像处理分割出样本位置。选择1107nm波段进行图像处理操作,然后进行掩模处理。阈值分割可以从背景中分离出样本,通过公式(1)计算样本平均反射率,Iraw其中表示样本光谱反射值,Idark表示黑板光谱反射值,Iwhite表示白板光谱反射值,Inew为计算得到的光谱反射率。
Inew=Iraw−IdarkIwhite−Idark (1)
1.4数据处理
1.4.1ZCA白化
采集的高光谱图像光谱波段之间具有很强的相关性,常用的去均值和标准化(特征去均值除方差)等方法都是基于高斯归一化去平移或缩放原始数据的特征,并没有有效的去除特征之间的相关性。因此,采用白化让原始数据经过一个线性变换得到的新数据的协方差矩阵为单位矩阵来去除相关性。白化的方式并不唯一,本实验选择了ZCA白化得到接近原始数据的新特征。ZCA白化的算法实现步骤如下:
(1)先对原始高光谱数据X按波段减去均值得到X¯¯¯。
(2)然后计算X¯¯¯X¯¯¯T得到原始高光谱数据X的协方差矩阵Σ。
(3)接下来对Σ进行奇异值分解得到左特征向量矩阵U和特征值矩阵S。
(4)最后通过Xnew=U(1S+eps√)UTX计算白化变换后的新特征矩阵。实际应用ZCA白化时,S中可能会有一些特征值在数值上接近于0,这样在缩放过程会除以一个接近0的数而导致数据溢出或不稳定。因此,一般应用正则化实现缩放过程,加上一个很小的常数eps。
1.4.2偏最小二乘降维(PLSDR)
近红外高光谱图像系统波段较多,数据具有多维度的特点。对输入数据降低维度可以使后续的分类器设计在计算上更容易实现。常用的主成分分析(principalcomponentanalysis,PCA)在映射过程中只是保留数据集中对方差贡献较大的特征,映射时没有利用数据内部的分类信息,所以降维后的特征在分类器的表现可能相对较差。PLSDR结合PCA的优点,使得原始数据的隐藏特征和预测变量具有最大相关性,可以减少原始数据中与预测变量无关的信息,使新的隐藏特征更有利于分析,该方法在光谱数据处理中应用十分广泛。
定义矩阵T=[t1,…,tK]∈Rm×K表示m个观测样本的K个隐藏特征,T与预处理后的数据X的关系表述如式(2)。
T=XW (2)
W=[w1,…,wk]∈Rn×K是线性映射矩阵。第一个隐藏特征为t1=Xw1,通过拉格朗日乘子法求解公式(3)可以得到w1=XTY/‖XTY‖。
{J=max(cov(Xw1,Y))wT1w1=1 (3)
基于第一个隐藏特征,X和Y可以按照式(4)做如下分解。
{X=t1pT1+EY=t1qT1+F (4)
式中,p1和q1可以通过最小二乘算法求解,残差矩阵E,F可以作为新的X和Y,通过迭代继续求解新的隐藏特征。
1.5产地鉴别模型
要对多个产地进行分类,一般有onevsall和onevsone投票的方法进行多分类。为了避免分界面具有不确定性区域、投票时票数相同以及增加模型复杂度等问题,采用了基于统计学中最大似然估计框架的Softmax进行多分类,同时和SVM和LDA模型做比较。
2、结果和讨论
2.1光谱特征曲线
不同产地的宁夏枸杞的全波段(948~2512nm)平均反射率光谱如图2所示。通过图2可以看出不同产地的平均曲线趋势相似,但是每个波段对应反射率值不同,代表内部的化学成分含量不同。相似性可以体现在它们都是宁夏枸杞这一品种;差异性的影响因素可能比较多,包括地理环境,天气,种植培育过程等。
图2不同产地的枸杞的全波段(948~2512nm)平均反射率
图2不同产地的枸杞的全波段(948~2512nm)平均反射率
2.2ZCA白化预处理结果
训练集经过ZCA白化预处理后,对青海和宁夏两个产地的数据取平均得到图3。从图3可以清楚的看出经过ZCA白化处理后的数据变的具有离散性,放大了每一个波段的差异性,同时去除了原始数据不同波段之间的相关性,结合ZCA白化的理论分析表明ZCA白化可以很好的去除特征之间的相关性。
图3ZCA白化预处理结果示意图
图3ZCA白化预处理结果示意图
2.3调参结果
使用不同的数据分析方法建模时,都需要进行调参。采用PLSDR和Softmax进行分类时,可以设定主成分数ncomp=[1∶60]以及正则项参数λ(lambda)=[1e-1,1e-2,…,1e-8]进行网格调参。图4和图5是分别使用标准化和ZCA白化预处理后的调参结果。从图4可以看出经过标准化预处理后PLSDR算法降低到40个主成分,识别结果趋于稳定(96.54%±0.05%),当主成分数大于40时,正则项参数的影响弱化。ZCA白化预处理后的调参结果与标准化类似,但是可以降低到4个主成分来表示。正则项参数是用来防止模型过拟合的,但是这个参数不是非常敏感。如果设置太大,会出现欠拟合现象。由于降低到一定主成分数之后,正则项参数的影响效果不是很明显,本实验统一设置λ为1e-6。
图4标准化模型的调参结果
图4标准化模型的调参结果
图5ZCA白化模型的调参结果
图5ZCA白化模型的调参结果
当使用SVM分类器时,也有两个重要的参数c和g进行调参。参数c是惩罚因子,表示对错误分类的容忍度。c越大越容易导致过拟合,反之c越小越容易欠拟合。参数g是RBF核自带的参数,隐含地决定了数据映射到新的特征空间后的分布,g越大,支持向量越少,g越小,支持向量越多。同样使用网格调参法,设定c=[0.1,0.3,1,3,10,30]和g=[0.01,0.03,0.1,0.3,1,3]寻找一组相对较好的模型参数。最后寻找到合适的参数为c=1,g=0.01。
2.4识别性能
通过对比实验,得到了如表1所示的不同模型的识别结果。对比模型1和模型2的结果,ZCA白化预处理模型在测试集上的平均准确率(93.87%)比标准化预处理模型在测试集上的平均准确率(87.23%)要高出大约6.6%。ZCA白化模型在测试集上的准确率标准差(0.0088)相对较低,说明多次随机采样建模测试结果的离散程度较低,ZCA白化模型的鲁棒性更好,而且ZCA白化模型具有较低的建模测试运行时间(3.54s)。以上实验结果表明ZCA白化去除特征之间的相关性的同时,还可以提升模型准确率。因此,ZCA白化是一个有效的预处理方法。
表1不同模型的结果导出到EXCEL
从模型1(87.23%)和模型3(90.17%)的结果来看,PLSDR算法提升了模型1大约3%的准确率。原始数据的288个特征可以降低成40个特征,这一点也可以表明原始数据的冗余性。同时,建模及测试运行时间被大大压缩。
通过分析模型2(93.87%)和模型4(94.06%)的结果表明PLSDR算法稍微增加了模型2的准确率。但是,使用PLSDR算法可以把输入特征降低成四个特征去表示。经过ZCA白化变换后的数据,相对原始数据来说丢失了一部分原始信息,因此PLSDR并没有显著的提升ZCA白化模型的效果,但是可以从ZCA白化后不相关的特征中提取更有效表示输入数据的特征。经过降维后,模型4的识别率仍是远远优于模型3的识别率,而且从模型复杂度角度来看,ZCA白化后的模型也是优于标准化模型,建模测试运行时间也更短,方便实时测试。
模型6使用了SVM分类器,编程实现借用了LIBSVM提供的工具箱。另外,该多分类问题的实现采用了onevsone方法。SVM模型降低到100个主成分时,在测试集上的准确率趋于稳定仅有88.25%,并且建模及测试运行时间为134s。这个结果表明SVM分类器表现相对较差,而且采用onevsone方法建模复杂度太高。
LDA多分类的实现同样采用了onevsone方法,建立了10个LDA分类器投票分类。从模型5的结果可以看出在测试集上的准确率为93.85%。同时该模型的准确率也具有较小的标准差(0.0076)和建模测试运行时间(3.51s)。LDA的结果表现不错也可以反映出当前实验的数据集有很强的线性关系,所以使用Softmax的结果很好是可以预期到的。仅从当前数据集来看,LDA和Softmax模型都表现不错,但是Softmax模型具有很强的泛化能力,当面对非线性数据时,它可以作为神经网络的最后一层处理非线性数据。
3、结论
近红外高光谱图像结合图像和近红外光谱可以快速无损批量采集样本数据,通过图像处理可以有效提取出对应样本信息。结合理论分析和实践验证,提出了一种快速有效处理高光谱数据的方法。先使用ZCA白化预处理去除输入特征的相关性,接着通过PLSDR算法提取输入特征与类别之间具有最大相关性的主成分,降低模型复杂度,最后通过Softmax分类器从概率角度对输入数据进行分类。这个模型在当前枸杞产地鉴别的应用场景得到了很好的表现,50次结果测试集的平均准确率达到了94.06%,同时标准差仅有0.009,说明模型的鲁棒性很好。在当前数据量不是很多且分类类别相对较少的情况下,这个模型的优势并没有完全体现出来。未来有新的应用场景,而且数据非线性特征较强时,模型也可以很好的迁移新问题上面,把Softmax分类器作为神经网络的最后一层去处理非线性数据。
王磊,覃鸿,李静,张小波,于丽娜,李卫军,黄璐琦.近红外高光谱图像的宁夏枸杞产地鉴别[J].光谱学与光谱分析,2020,40(04):1270-1275.
基金:国家重大科学仪器设备开发专项(2014YQ470377);国家重点研发计划(2017YFC1701603);国家中医药管理局委托项目(GZY-KJS-2018-004);宁夏回族自治区重点研发计划(2017BY079)资助.
分享:
提出了一种利用数码相机进行观测的新型分光计方案及其调节方法,并研制了实验样机.利用数码相机替代了传统分光计中的望远镜部分,可观察并记录相关光学现象.调节分光计时,首先利用数码相机镜头对焦于无穷远作为标准进行平行光调节,然后利用反射狭缝像的位置调节载物台与旋转轴的垂直,最后以载物台为基准调节数码相机及平行光管与旋转轴垂直.对新型分光计的特性分析及实验结果表明:该新型分光计具有调节难度低、测量误差小、能同时观测多条光谱线的特点。
2020-12-08长波红外光谱(8~14μm)是介于中红外波段和太赫兹波之间的重要电磁辐射,对应着地球表面常温目标物体的辐射波段和地球“第三大气窗口”,相对于短波和中波红外辐射,长波红外辐射受大气散射影响较小。因此,长波红外辐射在红外夜视、资源探测、精确制导、安防报警等科研及国防领域具有极其重要的应用,为国家综合实力的重要体现。
2020-12-08气体浓度检测一直是十分重要的工作,它与人类生活、环境变化和工业生产都息息相关,尤其是有毒有害气体的检测。近年来随着光谱技术的大力发展,可调谐半导体激光光谱技术(tunablediodelaserabsorptionspectroscopy,TDLAS)已逐渐发展成熟,它具有灵敏度高、响应速度快、实时监测以及优秀的便携性等优点,成为了气体检测的重要技术之一。
2020-12-08随着科学技术的不断发展进步,军事和镜头相关的工商业领域都越来越多的使用红外光学系统。尤其在军事方面,光学系统发展迅速,导致军事方面对光学系统的性能有越来越高的要求。通常情况下,摄远物镜的系统长度小于其焦距[1],所以焦距相同时,把红外物镜设计成红外摄远物镜就可以很大程度上减少系统的制作成本。
2020-12-05光刻工艺是集成电路制造中最重要、最关键的工艺步骤之一。随着半导体技术的飞速发展,图形越来越密集,特征尺寸越来越小,对光刻工艺分辨率的要求越来越高。光刻工艺中一个重要的性能指标是每个图形的分辨率。在先进的半导体集成电路制造中,为获得高集成度器件分辨率很关键。
2020-11-20激光加工是一种非接触、无污染、无磨损的加工工艺,它包含激光切割、激光打孔、激光标刻等加工方式。激光打标技术已经在众多领域占有很大的比例,国家根据激光标刻行业制定了一系列的标准。工艺参数的设定在激光标刻过程中对其加工质量和效率起到了重要作用[1]。本文以激光标刻文字、条形码为研究对象,通过优化汉字笔画打标顺序和圆弧代替直线加工,能够激光标刻质量和效率。
2020-10-19在我们最近的工作中[11],将RF白噪声和波长调制被同时添加到OA-ICOS系统中,提出了一种痕量气体检测的新方法(RF-WM-OA-ICOS)。与未受RF噪声干扰的OA-ICOS相比,RF-WM-OA-ICOS的探测极限提高了约6倍。本文将进一步地详细研究RF噪声扰动对WM-OA-ICOS系统的二次谐波信号的影响,并基于该技术建立了一套高精密的甲烷气体测量装置。
2020-09-09自动随着公路建设的不断发展,对公路建设的质量提出了更高的要求,需要构建公路磨耗层质量自动监测模型,结合大数据信息处理方法,进行公路磨耗层质量自动监测的信息处理,提高公路磨耗层质量监测的自动化水平[1],从而提高公路建设的质量,提高对公路磨耗层质量信息健康管理水平[2],采用大数据信息管理和优化融合调度技术,进行公路磨耗层质量自动监测系统开发设计,在信息化管理平台下,进行公路磨耗层质量自动监测方法改进,对相关的公路磨耗层质量自动监测模型研究具有重要意义。
2020-08-10激光线性结构光传感器具有结构简单,体积小等特点,广泛用于焊接的焊缝追踪,轨迹规划等,称为焊接过程自动化的关键技术之一。而在结构光条定位中,为了提高定位精度,提出了亚像素的概念,是指在相机得到的像素和像素之间还有几十到十几个微米的距离。而通常我们计算出的坐标都是正整数,这表示的是我们是在对像素进行操作,而亚像素计算出来的坐标是实数,能够极大地提高算法的精度。
2020-08-10强度关联成像,又称为鬼成像或量子成像[1,2],是一种全新的成像体制,具有非局域性、抗干扰能力强和超分辨等优点,在遥感成像、显微成像、医学成像和超分辨成像等领域都具有巨大的应用潜力,目前已经成为研究热点[3,4].压缩感知理论首先在数学领域提出来[5],随后压缩成像作为压缩感知的一个研究方向迅速引起广大研究者的兴趣.由于多光谱成像数据是三维的,系统一次只能探测多个谱段内一个空间维度上的数据,一般需要扫描获得二维空间上的图像.
2020-08-10人气:6600
人气:3692
人气:3255
人气:3051
人气:2641
我要评论
期刊名称:应用光学
期刊人气:2828
主管单位:中国兵器工业集团公司
主办单位:中国兵工学会,中国兵器工业第二〇五研究所
出版地方:陕西
专业分类:科学
国际刊号:1002-2082
国内刊号:61-1171/O4
邮发代号:52-245
创刊时间:1980年
发行周期:双月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.735
影响因子:0.645
影响因子:1.369
影响因子:0.874
影响因子:0.385
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!