光子学报  2019, Vol. 48 Issue (10): 1030001  DOI: 10.3788/gzxb20194810.1030001
0

引用本文  

王翀, 张笑墨, 朱香平, 等. 基于LIBS技术对岩石识别的数据降噪方法[J]. 光子学报, 2019, 48(10): 1030001. DOI: 10.3788/gzxb20194810.1030001.
WANG Chong, ZHANG Xiao-mo, ZHU Xiang-ping, et al. Data Denoising Method for Rock Identification Based on LIBS Technology[J]. Acta Photonica Sinica, 2019, 48(10): 1030001. DOI: 10.3788/gzxb20194810.1030001.

基金项目

国家重点研发计划(No.2016YFB0303804)

第一作者

王翀(1972-), 男, 副教授, 硕士, 主要研究方向为光信息及光纤传输、通信技术、光电子学.Email:cw72@xupt.edu.cn

通讯作者

朱香平(1974-), 男, 副研究员, 博士, 主要研究方向为激光诱导拉曼、荧光和LIBS等.Email:xpzhu@opt.ac.cn

文章历史

收稿日期:2019-04-30
录用日期:2019-06-14
基于LIBS技术对岩石识别的数据降噪方法
王翀1 , 张笑墨1 , 朱香平2,3 , 罗文峰1 , 单娟3     
(1 西安邮电大学 电子工程学院, 西安 710121)
(2 中国科学院大学, 北京 100049)
(3 中国科学院西安光学精密机械研究所 瞬态光学与光子技术国家重点实验室, 西安 710119)
摘要:利用激光诱导击穿光谱技术进行原岩分类与识别存在可重复性差,数据残差值高等问题,导致其分类识别准确率较低.针对此问题,提出了一种基于格拉布斯准则法的异常值判别方法,该方法可以有效替换残差值较大的数据,从而降低分类识别算法过拟合的概率.使用线性判别分析法、随机森林分类法、支持向量机三种分类识别算法对岩石的LIBS光谱进行识别.在数据降噪前,三种方法的识别准确率为:线性判别分析法79.6%、随机森林分类法75.2%、支持向量机94.5%,而数据降噪后的识别准确率为:线性判别分析法92%、随机森林分类法97%、支持向量机99.4%.
关键词激光诱导击穿光谱技术    等离子体    原岩识别    主成分分析法    降噪    
中图分类号:P575;O433.5      文献标识码:A      
Data Denoising Method for Rock Identification Based on LIBS Technology
WANG Chong1 , ZHANG Xiao-mo1 , ZHU Xiang-ping2,3 , LUO Wen-feng1 , SHAN Juan3     
(1 School of Electronic Engineering Institute, Xi'an University of Posts and Telecommunications, Xi'an, 710121, China)
(2 University of Chinese Academy of Sciences, Beijing 100049, China)
(3 State Key Laboratory of Transient Optics and Photonics, Xi'an Institute of Optics and Precision Mechanics, Chinese Academy of Sciences, Xi'an 710119, China)
Foundation item: The National Key Research and Development Program of China (No. 2016YFB0303804)
Abstract: There have been confront with a low identification accuracy problem due to the poor repeatability and high data residual value of laser-induced breakdown spectrum. In order to solve such problems, an distinguishing method of abnormal value based on Grubbs criterion (3δ-Grubbs) was proposed. The method can effectively replace the data of large residual values to reduce the probability of over-fitting in the classification recognition algorithm. Finally, by using three classification recognition algorithms:linear discriminant analysis, random forest classification and support vector machine, we identified the LIBS spectrum of rocks. Before the data noise reduces, the recognition accuracy of the three methods were:linear discriminant analysis 79.6%, random forest classification 75.2%, support vector machine 94.5%.After data noise is reduced, the recognition accuracy of the three methods is as follows:linear discriminant analysis 92%, random forest classification 97%, support vector machine 99.4%.
Key words: Laser induced breakdown spectroscopy    Plasma    Rock    Principal component analysis    Noise reduction    
OCIS Codes: 300.6170;300.6210;300.6365;300.6490;300.6520
0 引言

激光诱导击穿光谱技术(Laser-Induced Breakdown Spectroscopy,LIBS)具有速度快、全元素、非接触的特点[1-2],结合机器学习算法,被广泛应用于爆炸物的鉴定[3]、文物年代测定[4]、塑料制品的识别[5]、岩石识别等现实问题.其中岩石识别是地质调查中一项重要的基础工作,无人环境下的原岩识别可为地层评价、矿物起源、矿物分布和地外行星表面成分的物质探测提供关键依据.美国国家航空航天局(National Aeronautics and Space Administration,NASA)好奇号火星探测器的化学相机(ChemCam)中已经成功搭载了LIBS载荷,用于火星表层岩石、土壤分类、识别[6-10].

近年来,利用LIBS技术结合化学计量学方法对岩石进行分类与识别是一种主要研究手段之一.SENESI G S等[11]使用手持式LIBS设备结合偏最小二乘判别分析法(Partial least squares discriminant,PLS-DA),对不同成分的陨石进行模糊分类,其中需要用PLS-DA提取出光谱中的有用谱线,但是这种方法只适用于模糊分类.HARMONA R S等[12]使用手持式LIBS系统结合PLS-DA通过火山岩来识别火山岩的种源,发现当只收集火山岩上单个特征区域时,准确率高达100%,但收集两个不同特征区域时,分类准确率仅有77.3%.杨洪星等[13]对岩石样品先进行打碎研磨,并对岩石粉末压片,得到物质分布较为均匀的样品,再对处理后的样品进行识别.虽然识别准确率较为理想,但是由于条件限制无法在现场对岩石进行研磨压片,而岩石的原位LIBS光谱数据相较于均匀样品光谱数据点的距离更远,更容易导致分类识别算法得到错误的结果.LI W T等[14]讨论了对少量岩石样品使用紧凑型LIBS系统结合线性判别分析法(Linear Discriminant Analysis,LDA)进行识别,识别准确率为100%,但需要经过复杂的特征谱线选取.当样本中出现较多相似样本时,需要大量的特征谱线信息来保证识别结果的准确性,导致无法做到快速识别.YU Jian-long [15]等对软玉的种源进行分类,对比了三种分类算法,支持向量机(Support Vector Machine, SVM);线性判别分析法(Linear Discriminant Analysis, LDA);偏最小二乘分析(Partial Least Squares Discrimination Analysis, PLS-DA)的结果,发现当样品相似度较高时,SVM的分类准确性相较于其他分类算法较好.该研究是基于软玉岩石样本成分分布比较均匀,表面较为平整状况,对于岩石表面不平整、成分存在差异的情况,LIBS光谱数据存在较大的残差值,YELAMELI M等[16]实验验证了SVM用于残差值较大的海底沉积物原位LIBS数据的识别,识别准确率下降明显.

本文针对前人岩石分类识别研究的不足,针对原位岩石LIBS光谱可重复性低,且数据会出现较大偏差的问题提出了一种结合格拉布斯准则法(Grubbs)和拉依达准则(3δ)的3δ-Grubbs法,以判别数据中的异常值并且将其替换,从而得到残差值更小的数据集合.并且建立起了一套探测距离为1~5 m的中远程LIBS系统,对原岩样品的LIBS光谱数据进行采集和识别.收集了4大类(自然元素、硫化物、卤化物、氧化物)共50种岩石的2 500组LIBS光谱数据.为了保证分类算法的准确性,收集了岩石上每一个特征区域的至少5个LIBS光谱.使用主成分分析法[17](Principal Component Analysis,PCA)对岩石的LIBS光谱数据降维,以减少冗余的数据,提高了算法的运算速度,并保留了原始数据中大部分信息.最后使用三种分类识别算法(线性判别分析法[18](Linear Discriminant Analysis, LDA)、随机森林分类法[19](Random Forest Classification, RFC)和支持向量机[20](Support Vector Machine, SVM))分别对降噪前和降噪后的岩石LIBS光谱数据进行分类识别,并对分类结果进行比较.

1 实验及算法 1.1 实验系统及参数设置

实验系统是由中阶梯光谱仪(Andar Mechelle5000)、ICCD(Andor DH334T18)、纳秒脉冲激光器(Nd:YAG,镭宝DAWA-200)组成.为实现中远距离的激光照射与光谱收集,使用了卡塞格林收集光路将激光聚焦至远处, 并通过同轴光路收集光谱.为了方便在一个岩石样本上收集不同点的LIBS数据,在焦点位置固定了一个三轴可调样品台,实验系统如图 1所示.

图 1 实验系统 Fig.1 Experiment system

实验参数如下,激光脉冲能量:20 mJ;脉宽:8 nm;频率:1 Hz;ICCD延迟:1.5 μs,快门设置为积分模式;曝光时间:100 μs,增益:4 000 dB.样品与卡塞格林聚焦镜次镜的距离为1 m.

1.2 试验样品

实验中,选择了四大类(自然元素6种,硫化物32种,卤化物1种,氧化物11种)共50种原位岩石样品,岩石样本名称如表 1所示.其中,黄铁矿分为单晶、双晶、晶簇、葵花状晶簇,它们的化学元素极为相似,不易进行区分,将其作为相似物质识别验证样本.而剩余样本,比如斑铜矿、雄黄晶体、辉锑矿晶体辰砂等,由于其表面物质分布不均匀,呈现出多个明显的特征区域,用其作为验证去噪算法效果的样本.如图 2所示,为雄黄晶体4个明显不同的特征区域,四个特征区域的元素组成较为相似,但是元素含量区别较大,并且Ⅳ号区域表面不平整,更容易出现异常数据.

表 1 岩石名称 Table 1 Rocks name
图 2 雄黄晶体四个特征区域 Fig.2 Four characteristic regions of realgar crystal
1.3 算法

图 3为雄黄晶体在四个不同特征区域得到的四个不同的全光谱和部分光谱图像,图 3(b)中蓝色谱线与其他三个谱线差距较大,很明显是一个异常值,同理由于这些异常值的存在导致同一个岩石的LIBS光谱在多维坐标轴(超平面)上点的距离较远,这种情况下算法会出现过拟合现象并导致算法在训练阶段出现用时过长或陷入局部最优解的情况.因此,替换LIBS数据中异常值数据在理论上可以明显提升分类识别算法的准确率和运算速度.xij是编号为i的岩石的第j个样本点的LIBS光谱数据,可以看作为在超平面上的坐标,则每一个样本中心点的$ \bar{x}_{i}=\frac{\sum\limits_{i=1}^{n} x_{i j}}{n} $.然后求出每一个样本点离中心点的距离,$ l_{i j}=\left(\sum\limits_{i=1}^{n}\left|x_{i j}-\overline{x_{i}}^{2}\right|\right)^{1 / 2} $,并分别对每一组50个距离进行归一化.得到50个样品共2 500个数据点与每个样品数据中心点距离集合L={l1, 1, l1, 2, l1, 3, …, l1, 50, …, l50, 50},为了更加直观地看出距离的概率密度分布规律,将Lnew={l1, 1, l1, 2, l1, 3, …, l1, 50, …, l50, 50, -l1, 1, -l1, 2, -l1, 3, …, -l1, 50, …, -l50, 50}通过Matlab画出分段距离与概率密度的关系,如图 4所示,发现距离的概率密度近似于正态分布.

图 3 雄黄晶体四个特征区域的LIBS光谱 Fig.3 LIBS spectra of four characteristic regions of realgar crystal
图 4 数据点距离每个样本中心点距离的概率密度 Fig.4 Probability density of the distance from the sample to the center point of each sample

由于拉依达准则(3δ)和格拉布斯准则法(Grubbs)都是基于正态概率分布来判断异常值数据的,所以可用于判断光谱的异常值点.但3δ准则所需要的数据点较多,每类样品的验证数据点仅有50个,无法满足算法的需求.同样格拉布斯准则法(Grubbs)也适用于正态分布的数据且可以处理数据量较少的数据集,但需要主观判断置信区间P的数值,而P作为异常值与非异常值之间的界限应该越准确越好,通过主观判断的P值通常误差较大.

针对岩石的LIBS光谱异常值的问题提出了一种结合格拉布斯准则法(Grubbs)和拉依达准则(3δ)的3δ-Grubbs法,去除光谱数据的异常值.采用3δ-Grubbs法可以解决无法对异常值与非异常值确定其界限的问题.

采用Grubbs法则对(li1, li2, li3…, li50)进行异常值判断,令$ \bar{l}=\frac{1}{n}\sum\limits_{i=1}^{50}{{{l}_{i}}} $l为每个样品的50个样本点距离中心点的平均距离,过程如表 2所示,第一步:将每个岩石的50个LIBS光谱数据看作一组,每组数据求出各个点到中心点的距离,及其平均距离.第二步:求出Gi=(lil)/s作为单个数据点是否为异常点的判定依据,s为50个样本点与中心点距离的标准差,GP(n)为查表得到,P(0 < P < 1)是置信概率,n为样本数量.第三步:确定置信区间P,从而可以得到确定的GP(n)值,GP(n)的数值查表可得,如果GiGP(30)则此数据判定为异常值.然而P为不确定值,通常需要主观判断,为了使结果较为准确,根据3δ准则将置信区间P=1-3δ,其中δ是正态分布的标准差且$ \delta=\frac{1}{n-1} \sum_{i=1}^{50}\left(l_{i}-\bar{l}\right)^{2} $从而得到准确的GP(n),最后3δ-Grubbs法的计算步骤可以总结成表 3.

表 2 Grubbs法则步骤 Table 2 Grubbs rule steps
表 3 3δ-Grubbs步骤 Table 3 3δ-Grubbs steps
2 实验结果与讨论 2.1 PCA降维结果

原始数据由2 500个岩石LIBS光谱组成,而每个LIBS光谱由一个27 898维的向量组成,最后所有数据组成27 898×2 500的二维矩阵.使用PCA对大小为27 898×2 500的原始数据矩阵进行降维,图 5为PCA降维后的前十个主成分的贡献率,而前十个主成分的总贡献率仅有88.21%,部分细节无法还原,导致较为相似的两类岩石光谱识别准确率并不高.如图 6所示,同属于氧化物的黄铁矿单晶、双晶、晶簇、葵花状晶簇的LIBS光谱图像,由于光谱图像相似度很高,且只有某些细节不相似,在运算时很容易出现过拟合现象导致识别结果不准确.通过对前100个主成分贡献率的累加(如图 7所示),在前50个主成分处的总贡献率已经接近100%,故取前50个主成分作为降维后的新数据矩阵.最终,通过PCA降维得到的新数据相较于原始数据大小压缩了99.8%,同时保留了99.2%的数据信息.

图 5 前10个主成分贡献率 Fig.5 Top 10 principal component contribution rates
图 6 相近岩石的LIBS光谱图像 Fig.6 LIBS spectral image of similar rocks
图 7 前100个主成分贡献率之和 Fig.7 The sum of the top 100 principal component contributions
2.2 降噪结果

图 8为雄黄晶体的50个LIBS光谱经过PCA降维至前三个主成分所组成的三维坐标图,其中,实心圆为计算出的中心点,三角代表被3δ-Grubbs法判定为的异常值,空心圆代表正常值.从图中可以看出3δ-Grubbs法可以有效地将数据中的异常值点去除,并保留非异常点数据.

图 8 雄黄晶体的光谱降噪结果 Fig.8 Spectral noise reduction results of realgar crystals
2.3 识别结果

图 9分别为LDA,RFC,SVM对未经降噪的岩石LIBS数据分类结果,图中,蓝点为正确分类的标签,红点为错误分类的标签.在本实验中,使用50个岩石样品,每种样品在不同位置取50个LIBS光谱,组成3 500个样本数据集.其中将每种样品中30个LIBS光谱作为分类器的训练集,20个LIBS光谱作为分类器的测试集,另外,每个样品额外取20个LIBS光谱作为替换集以替换残差值较大的数据.

图 9 三种算法的识别结果 Fig.9 Recognition results of three algorithms

图 9 (a)(b)为LDA和RFC的分类结果,计算得到分类准确率仅有79.6%和75.2%.RFC对每一种类岩石的分类并不理想,出现了明显的欠拟合现象,错误分类的数据分布比较分散.LDA则是明显的过拟合现象,错误分类的数据大部分被分类到几类中.由于原始数据中,有过多残差值较大的数据点,导致分类结果容易出现欠拟合或者过拟合现象.图 9(c)中, 传统SVM的分类准确率为94.6%,相较于LDA和RFC的分类准确率来说较好,但是数据中残差值较大的点并没有去除,出现了过拟合现象.最后,使用3δ-Grubbs处理前后LDA,RFC,SVM的识别准确率如图 10所示,经过3δ-Grubbs降噪后的三种分类算法识别准确率(LDA 92%、RFC 97%、SVM 99.4%)得到了较大的提升.

图 10 降噪前后LDA,RFC,SVM的识别准确率 Fig.10 Recognition accuracy of LDA, RFC and SVM before and after noise reduction
3 结论

针对岩石分类、识别问题,建立了一套远程LIBS系统.实验研究了四大类(硫化物、卤化物、氧化物、自然元素)共50种不同矿物的LIBS光谱,发现部分岩石由于其物质分布不均匀、表面不平整容易得到异常光谱数据,从而降低分类算法的准确率.为提高分类识别准确率,提出了3δ-Grubbs法识别光谱中的异常数据,分别对分类识别算法所需要的训练集和测试集的异常值进行替换,得到残差值较小的数据.最后分别使用三种分类识别算法(LDA,RFC,SVM)对降噪效果进行验证,数据降噪前的识别准确率为LDA 79.6%、RFC 75.2%、SVM 94.5%;降噪后的识别准确率为LDA 92%、RFC 97%、SVM 99.4%,相较于降噪前的数据,降噪后数据的识别准确率有了较大的提升.对岩石LIBS光谱中异常值进行识别替换,可有效优化分类算法的准确率,对无人环境下原岩的分类识别问题具有重要的意义.

参考文献
[1]
罗文峰.激光诱导击穿光谱技术的初步研究[D].西安: 中国科学院研究生院(西安光学精密机械研究所), 2011. http://cdmd.cnki.com.cn/Article/CDMD-80142-1013010146.htm
[2]
FORTES F J, MOROS J, LUCENA P, et al. Laser-induced breakdown spectroscopy[J]. Analytical Chemistry, 2013, 85(2): 640-669.
[3]
LUCIA F C D, GOTTFRIED J L, MIZIOLEK A W. Evaluation of femtosecond laser-induced breakdown spectroscopy for explosive residue detection[J]. Optics Express, 2009, 17(2): 419-425. DOI:10.1364/OE.17.000419
[4]
TANKOVA V, MALCHEVA G, BLAGOEV K, et al. Investigation of archaeological metal artefacts by laser-induced breakdown spectroscopy (LIBS)[J]. Journal of Physics: Conference Series, 2018, 992: 012003. DOI:10.1088/1742-6596/992/1/012003
[5]
VAHID D M, MOUSAVI S J, SOLTANOLKOTABI M, et al. Identification and sorting of PVC polymer in recycling process by laser-induced breakdown spectroscopy (LIBS) combined with support vector machine (SVM) model[J]. Iranian Journal of Science and Technology Transaction A-Science, 2016, 42(2): 959-965.
[6]
LANZA N L, WIENS R C, CLEGG S M, et al. Calibrating the ChemCam laser-induced breakdown spectroscopy instrument for carbonate minerals on Mars[J]. Applied Optics, 2010, 49(13): C211-C217. DOI:10.1364/AO.49.00C211
[7]
OLLILA A M, LASUE J, NEWSOM H E, et al. Comparison of two partial least squares-discriminant analysis algorithms for identifying geological samples with the ChemCam laser-induced breakdown spectroscopy instrument[J]. Applied Optics, 2012, 51(7): B130-B142. DOI:10.1364/AO.51.00B130
[8]
SIRVEN J B, BEATRICE S, MAUCHIEN P, et al. Feasibility study of rock identification at the surface of Mars by remote laser-induced breakdown spectroscopy and three chemometric methods[J]. Journal of Analytical Atomic Spectrometry, 2007, 22(12): 1471-1480. DOI:10.1039/b704868h
[9]
MOROS J, ELFAHAM M, LASERNA, et al. Dual-spectroscopy platform for the surveillance of mars mineralogy using a decisions fusion architecture on simultaneous LIBS-Raman data[J]. Analytical Chemistry, 2018, 90(3): 2079-2087.
[10]
EBO E A, SURMICK D M, NOUREDDINE M, et al. Simulated laser-induced breakdown spectra of graphite and synthetic shergottite glass under Martian conditions[J]. Spectrochimica Acta Part B: Atomic Spectroscopy, 2018, 148: 31-43. DOI:10.1016/j.sab.2018.06.006
[11]
SAVERIO S G, PAOLA M, ARIANNA C, et al. Identification and classification of meteorites by a handheld LIBS instrument coupled with a fuzzy logic-based method[J]. Journal of Analytical Atomic Spectrometry, 2016, 31: 1-13. DOI:10.1039/C6JA90001A
[12]
HARMON R S, THROCKMORTON C S, HARK R R, et al. Discriminating volcanic centers with handheld laser-induced breakdown spectroscopy (LIBS)[J]. Journal of Archaeological Science, 2018, 98: 112-127. DOI:10.1016/j.jas.2018.07.009
[13]
YANG Hong-xing, FU Hong-bo, WANG Hua-dong, et al. Laser-induced breakdown spectroscopy applied to the characterization of rock by support vector machine combined with principal component analysis[J]. Chinese Physics B, 2016, 25(6): 065201. DOI:10.1088/1674-1056/25/6/065201
[14]
LI W, ZHU Y, LI X, et al. In situ classification of rocks using stand-off laser-induced breakdown spectroscopy with a compact spectrometer[J]. Journal of Analytical Atomic Spectrometry, 2018, 33: 461-467. DOI:10.1039/C8JA00001H
[15]
YU Jian-long, HOU Zong-yu, SHETE S, et al. Provenance classification of nephrite jades using multivariate LIBS: a comparative study[J]. Analytical Methods, 2018, 10: 281-289. DOI:10.1039/C7AY02643A
[16]
YELAMELA M, THORNTON B, TAKAHASHI T, et al. Support vector machine based classification of seafloor rock types measured underwater using Laser Induced Breakdown Spectroscopy[C] Shanghai: IEEE, 2016.
[17]
HUANG Su-yun, YEH Y R, EGUCHI S. Robust kernel principal component analysis[J]. Neural Computation, 2009, 21(11): 3179-3213. DOI:10.1162/neco.2009.02-08-706
[18]
VITKOV A, GABRIEL A. Comparative study on fast classification of brick samples by combination of principal component analysis and linear discriminant analysis using stand-off and table-top laser-induced breakdown spectroscopy[J]. Spectrochimica Acta Part B: Atomic Spectroscopy, 2014, 101: 191-199. DOI:10.1016/j.sab.2014.08.036
[19]
HO T K. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(8): 832-844. DOI:10.1109/34.709601
[20]
YANG Guang, QIAO Shu-jun, CHEN Peng-fei, et al. Rock and soil classification using PLS-DA and SVM combined with a laser-induced breakdown spectroscopy library[J]. Plasma Science & Technology, 2015, 17(8): 656-663.