CN113191618A - 一种基于中红外光谱技术及特征提取的小米产地溯源方法 - Google Patents
一种基于中红外光谱技术及特征提取的小米产地溯源方法 Download PDFInfo
- Publication number
- CN113191618A CN113191618A CN202110448025.8A CN202110448025A CN113191618A CN 113191618 A CN113191618 A CN 113191618A CN 202110448025 A CN202110448025 A CN 202110448025A CN 113191618 A CN113191618 A CN 113191618A
- Authority
- CN
- China
- Prior art keywords
- millet
- infrared spectrum
- mid
- feature extraction
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000062793 Sorghum vulgare Species 0.000 title claims abstract description 133
- 235000019713 millet Nutrition 0.000 title claims abstract description 133
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005516 engineering process Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000012706 support-vector machine Methods 0.000 claims abstract description 17
- 238000000513 principal component analysis Methods 0.000 claims abstract description 14
- 238000007417 hierarchical cluster analysis Methods 0.000 claims abstract description 10
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004519 manufacturing process Methods 0.000 claims description 24
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 8
- 238000004476 mid-IR spectroscopy Methods 0.000 abstract description 4
- 241000209094 Oryza Species 0.000 description 13
- 235000007164 Oryza sativa Nutrition 0.000 description 13
- 235000009566 rice Nutrition 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 9
- 235000013312 flour Nutrition 0.000 description 5
- 235000013305 food Nutrition 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 235000018102 proteins Nutrition 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 3
- 235000014633 carbohydrates Nutrition 0.000 description 3
- 150000001720 carbohydrates Chemical class 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003925 fat Substances 0.000 description 3
- 235000019197 fats Nutrition 0.000 description 3
- 238000002834 transmittance Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003801 milling Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- OWEGMIWEEQEYGQ-UHFFFAOYSA-N 100676-05-9 Natural products OC1C(O)C(O)C(CO)OC1OCC1C(O)C(O)C(O)C(OC2C(OC(O)C(O)C2O)CO)O1 OWEGMIWEEQEYGQ-UHFFFAOYSA-N 0.000 description 1
- 244000144730 Amygdalus persica Species 0.000 description 1
- 101100127891 Caenorhabditis elegans let-4 gene Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 240000001624 Espostoa lanata Species 0.000 description 1
- 235000009161 Espostoa lanata Nutrition 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 238000005033 Fourier transform infrared spectroscopy Methods 0.000 description 1
- GUBGYTABKSRVRQ-PICCSMPSSA-N Maltose Natural products O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@@H]1O[C@@H]1[C@@H](CO)OC(O)[C@H](O)[C@H]1O GUBGYTABKSRVRQ-PICCSMPSSA-N 0.000 description 1
- 244000236458 Panicum colonum Species 0.000 description 1
- 235000015225 Panicum colonum Nutrition 0.000 description 1
- 241000209504 Poaceae Species 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 238000001237 Raman spectrum Methods 0.000 description 1
- 235000005775 Setaria Nutrition 0.000 description 1
- 241000232088 Setaria <nematode> Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 244000098338 Triticum aestivum Species 0.000 description 1
- 241000196252 Ulva Species 0.000 description 1
- 238000007605 air drying Methods 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 239000010903 husk Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- HTUMBQDCCIXGCV-UHFFFAOYSA-N lead oxide Chemical compound [O-2].[Pb+2] HTUMBQDCCIXGCV-UHFFFAOYSA-N 0.000 description 1
- YEXPOXQUZXUXJW-UHFFFAOYSA-N lead(II) oxide Inorganic materials [Pb]=O YEXPOXQUZXUXJW-UHFFFAOYSA-N 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 235000010755 mineral Nutrition 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 239000002366 mineral element Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010298 pulverizing process Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000001055 reflectance spectroscopy Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N2021/3595—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using FTIR
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Primary Health Care (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Accounting & Taxation (AREA)
- Marine Sciences & Fisheries (AREA)
- Biochemistry (AREA)
- Mining & Mineral Resources (AREA)
- Chemical & Material Sciences (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
Abstract
本发明公开一种基于中红外光谱技术及特征提取的小米产地溯源方法,包括如下步骤:步骤1,分别采集不同产地的小米样品的红外光谱,进行预处理;步骤2,将步骤1预处理后的红外光谱数据首先进行主成分分析,然后利用窗口分析法对变量数据进行分组,分别采用支持向量机建立分类模型,再利用层次聚类分析法确定相关性小的一组变量数据,构建小米产地鉴别模型;步骤3,采集未知产地的小米样品的红外光谱,进行预处理后,输入小米产地鉴别模型,输出得到小米样品的产地。此种基于中红外光谱技术及特征提取的小米产地溯源方法,能够快速判别小米的产地。
Description
技术领域
本发明属于食品产地鉴别技术领域,特别涉及一种基于中红外光谱技术及特征提取的小米产地溯源方法。
背景技术
小米为谷子去壳的籽实,又称粟(米),禾本科狗尾草属。谷子耐旱,在我国北部地区广泛种植,占全世界总产量的80%。小米富含碳水化合物、脂肪及脂肪酸、蛋白质及氨基酸、维生素和矿物质等营养物质,其功能不仅可以作为主食还可以酿酒、制作饴糖等,同时还具有“易丹田,补虚损,开肠胃,助睡眠”的功效。小米的品质与其产地来源密切相关,中国已出现许多名优原产地域小米产品群落,如:山东省济宁市金乡县马庙镇的金米(金小米)、山西省沁州(沁县)的沁州黄(黄小米)、山东省济南章丘县的龙山米(龙山小米)和河北省蔚县的桃花小米是我国“四大著名小米”品种。“四大著名小米”色味俱佳、品质优良,深得广大消费者的喜爱。优质小米产量有限,价格较高,一些不法分子为谋取暴利,制售假冒产品,以假乱真欺骗消费者。假冒产地不仅损害消费者和企业利益,同时也增加了食品安全问题追溯与风险管理难度。因此,对优质小米的产地保护问题亟待解决。
在食品产地溯源技术研究中主要是探寻表征不同地区来源食品的特异性指标,包括同位素指纹溯源技术、矿物元素指纹溯源技术、有机成分指纹溯源技术等。传统的小米鉴别多凭借颜色、气味和口感等人工感官鉴别,具有主观性强、标准不统一等不足。现有分析仪器对小米的产地鉴别研究主要包括高光谱、拉曼光谱和近红外光谱技术。近红外光谱技术具有快速、简单、高效、无损检测等特点,谱区体现的基团信息主要以氢基团为主,包括C-H、O-H、S-H、N-H等,也包含一些其他的基团信息,如C=C、C=O等,谱区包含的丰富信息决定了近红外技术既可测定化学成分又能分析物理性质,因此被较多应用于小米产地溯源领域。
由于绝大多数有机物和无机物的基频吸收带都出现在中红外区,因此中红外区是研究和应用最多的区域,广泛应用于有机物结构研究中。相较近红外光谱而言,中红外光谱中的频谱峰通常更尖锐、分辨率好且峰值高,且市场上更新换代后的中红外光谱分析仪不需要压片制样,大大节约了测试耗时,是一种理想的快速检测技术。同种农作物由于生长环境差异,其内部成分与结构也会有较大区别,可通过其相应光谱显现。目前,中红外技术在小米组织结构及品质评价等方面的研究取得了较大成果,但有关小米产地判别的中红外研究较少。赵晓燕等人采用中红外光谱技术开展5种小米蛋白质同步二维相关红外光谱研究,可以鉴别5种小米。然而该研究的样本数量较少,未考虑样品间的质量波动情况,该方法对大样本鉴别准确度的情况未知。
基于以上分析,本案由此产生。
发明内容
本发明的目的,在于提供一种基于中红外光谱技术及特征提取的小米产地溯源方法,能够快速判别小米的产地。
为了达成上述目的,本发明的解决方案是:
一种基于中红外光谱技术及特征提取的小米产地溯源方法,包括如下步骤:
步骤1,分别采集不同产地的小米样品的红外光谱,进行预处理;
步骤2,将步骤1预处理后的红外光谱数据首先进行主成分分析,然后利用窗口分析法对变量数据进行分组,分别采用支持向量机建立分类模型,再利用层次聚类分析法确定相关性小的一组变量数据,构建小米产地鉴别模型;
步骤3,采集未知产地的小米样品的红外光谱,进行预处理后,输入小米产地鉴别模型,输出得到小米样品的产地。
上述步骤1中,在分辨率0.4821cm-1、采集次数32次、光谱波段范围525-4000cm-1的参数下采集红外光谱。
上述步骤1中,对红外光谱进行预处理包括依次进行去噪、标准正态变量变换、多元散射校正和归一化处理。
上述步骤2中,进行主成分分析时,主成分数为12。
上述步骤2中,采用支持向量机进行建模时,将每种小米样品的2/3数据作为训练集,1/3数据作为预测集,采用径向基核函数,通过网格搜索技术对gamma和c参数进行优化,通过预测集的识别率比较模型的优劣。
上述步骤2中,利用窗口分析法进行分组后,对于每一组分别采用支持向量机建模,还将任意至少两组进行组合后采用支持向量机建模。
上述步骤2中,利用层次聚类分析法确定相关性小的一组变量数据的方法是:
步骤A,选择识别率高的分类模型所对应的分组数据,对该数据缩小窗口再次进行分组;
步骤B,分别利用欧氏距离、标准欧氏距离、城市街区距离和余弦距离四种距离计算方法计算波数间的相似性,采用平均距离法、最短距离法和最长距离法分别创建系统聚类树,计算各种方法下的同表象型相关系数,选择相关性小于设定值的变量数据,即为需要的变量数据。
采用上述方案后,本发明以来源于5个主产地的177份小米样品为研究对象,应用傅里叶变换中红外漫反射光谱法结合化学计量学以产地溯源判别率为指标,建立小米产地的判别模型,为利用中红外光谱技术实现快速判别小米的产地提供理论依据。
附图说明
图1是5种小米的中红外光谱经去噪、SNV、MSC、归一化后的图;
其中,横轴表示谱峰;
图2是主成分贡献率(Contribution rate)和累计贡献率(AccumulatedContribution rate)的示意图;
图3是5种小米在前3主成分上的分布图;
图4是5种小米前3主成分的载荷图;
其中,横轴表示谱峰,纵轴表示回归系数;
图5是本发明的整体流程示意图。
具体实施方式
如图5所示,本发明提供一种基于中红外光谱技术及特征提取的小米产地溯源方法,包括如下步骤:
步骤1,分别采集不同产地的小米样品的红外光谱,进行预处理;
步骤2,将步骤1预处理后的红外光谱数据首先进行主成分分析,然后利用窗口分析法对变量数据进行分组,分别采用支持向量机建立分类模型,再利用层次聚类分析法确定相关性小的一组变量数据,构建小米产地鉴别模型;
步骤3,采集未知产地的小米样品的红外光谱,进行预处理后,输入小米产地鉴别模型,输出得到小米样品的产地。
以下将结合附图,对本发明实施例的技术方案及有益效果进行详细说明。
1、材料与方法
1.1材料
5种地理标志小米均为粳性小米,分别为河北省蔚县的蔚州贡米(WZ),山西省沁县的黄小米(H),吉林省乾安县的乾安黄小米(QAH),山西省广灵县的广灵小米(GL),内蒙古赤峰市敖汉旗的刘僧小米(LS)。小米为2019年间种植,为了保证样品的代表性,在地理标志小米种植区域内分散采样,蔚州贡米、黄小米、乾安黄小米、广灵小米和刘僧小米分别在33、36、36、36、36个采样点采集样品,每个采样点采集约1kg样品。
1.2仪器与设备
NA-JCB碾米机,宁波科麦仪器有限公司;JYS-M01型磨粉机,九阳股份有限公司;Nicolet IS-10型傅立叶变换红外光谱仪,美国赛默飞世尔科技公司;JA1003电子分析天平,上海力辰仪器科技有限公司。
1.3方法
1.3.1供试品制备
将谷子进行晾晒、脱粒、挑选和碾米等加工,每份谷子碾米3次。称取加工后的每份米100g,粉碎1.5min,作为中红外光谱测试的供试品,置于冰柜中冷藏储存,使用前置于干燥器中平衡至室温。
1.3.2光谱采集
红外光谱采集参数如下:分辨率0.4821cm-1,采集次数32次,光谱波段范围525-4000cm-1,仪器两小时自动扫描并扣除背景信号。将适量米粉覆盖在测试窗口,压紧磨具测试,每个样品重复测定3次,取平均光谱,每做完一个米粉样品用酒精棉球擦拭窗口。每个样品从装样、测试、图谱保存到卸样、清洁仪器大约耗时2.5min。
1.3.3数据处理
为了从原始谱图数据中去除干扰的和无关的信息,在数据分析之前应对原始数据做一些预处理。中红外光谱数据首先经wden小波函数进行去噪处理,经wden(X,TPTR,SORH,SCAL,N,'wname')返回输入信号X去噪后的信号,经优化去噪参数的最佳组合为TPTR='rigrsure',SORH='s',SCAL='mln',N=5,'wname'='sym5'。其次,用标准正态变量变换(standard normal variable transformation,SNV)和多元散射校正(multiplicativescatter correction,MSC)消除散射对光谱的影响,用mapminmax函数进行归一化。再次,基于主成分分析与支持向量机(support vector machine,SVM)联用对样本地理来源进行鉴别,将每种小米2/3的数据作为训练集数据,1/3的数据作为预测集数据,训练集用于构建指纹因子-小米产地模型,预测集用于对构建的模型进行验证、评价,SVM建模使用径向基核函数(Radial Basis Function,RBF),通过网格搜索技术对gamma和c参数进行优化,通过预测集的识别率比较模型的优劣。最后,通过主成分分析、窗口分析和层次聚类分析组合方法提取差异特征。所有数据预处理和模型构建均基于MATLAB 2019b进行。
2、结果与分析
2.1中红外光谱数据分析
以5种小米的1个中红外光谱为例,经去噪、SNV、MSC、归一化处理后的谱图如图1所示,部分谱峰代表的官能团信息见表1。整体上看,5种小米的中红外光谱高度相似,吸收较强的峰位置在758、859、928、997、1077、1149、1240、1338、1419、1537、1645、1744、2855、2925和3287cm-1附近。蔚州贡米(WZ)在525-600cm-1的透光率相较其它小米而言较强,表明蔚州贡米对该范围内的光吸收较少。乾安黄小米(QAH)在2750-3000cm-1范围内的谱图与其它小米的谱图有细微差异,根据表1,2750-3000cm-1对应的是不同蛋白质、脂肪和碳水化合物的亚甲基CH2的对称和不对称伸缩振动,因此,不同产地小米在蛋白质、脂肪和碳水化合物的含量上有差异。
表1主要的中红外谱峰及归属
2.2中红外光谱主成分分析
将光谱范围中每个波数点对应的透光率作为一个变量,5种小米的177个红外光谱数据则列为177×7209的数据矩阵X,177为样本数,7209为变量数,由于变量数远高于样本数,容易导致模型过拟合的问题。考虑到某些峰之间含有关联性,对预处理后的数据矩阵进行降维分析,结果如图2所示。前3个主成分的累计贡献率为84.9%,前12个主成分的累计贡献率为98.3%,前3个主成分可以代表原始谱图绝大部分的信息。5种大米在前3主成分构成的空间中的分布图如图3所示。黄小米可以很好地与其它小米区分开,广灵小米和蔚州小米样本簇重叠严重,刘僧小米和乾安黄小米样本簇重叠较多,5种小米无法通过主成分聚类分析准确鉴别。
2.3小米产地鉴别模型建立
对红外光谱数据矩阵进行主成分分析,采用不同主成分的信息构建分类鉴别模型,以主成分数12为例,将中红外光谱前12个主成分对应的数据作为自变量,以产地分类作为因变量,5种小米的177个红外光谱数据则列为177×12的数据矩阵Y和177×1的数据矩阵Z,177为样本数,12为主成分数,1为分类变量。取2/3的样品作为训练集,1/3的样品作为预测集,利用SVM判断样品所属类别,分别考察了累计贡献率达85%、88%、90%、95%、98%和100%对应主成分数建模的情况,结果如表2所示。前3主成分所建模型的识别准确率仅为55.2%,这与图3结果相吻合。随着主成分数的增加,识别准确率有增大趋势,主成分数为12时,训练集和验证集的识别率最高,分别为99.2%和98.3%。当主成分数为176,累计贡献率为100%时,模型的准确率反而比主成分数为12时要低,说明部分数据是无用数据会干扰模型,由于主成分数为12时的累计贡献率已达98%,基本代表了全部的成分信息,因此主成分数为12所建模型为最优模型,对小米产地的鉴别效果较理想。该模型将1个刘僧小米误认为广灵小米,从图3可见,某些刘僧小米分散在广灵小米的团簇中,容易产生误判。
表2红外光谱不同主成分数下模型的鉴别结果
2.4不同产地小米中红外光谱差异特征分析
依次采用主成分分析、窗口分析和层次聚类分析挖掘小米差异性的特征峰信息。177份小米的中红外光谱经主成分分析,得到176个主成分,可以使用此176个主成分的信息表示原始信息。根据前3主成分的载荷图(图4)分析区分5种产地小米的主要特征波段,以红外光谱位移对PC1的载荷值为主要参考指标,参考PC2和PC3的载荷值,可得525-1778和2820-3687cm-1范围内的信息对5种产地小米鉴别的贡献率较大。从每个载荷向量看,特征波段比较复杂,特征维数较多,难以找出关键性的信息。
为实现小米产地鉴别特征数据的挖掘,在上述载荷分析的基础上,利用窗口分析法,采用小米红外光谱局部波段数据建立SVM分类模型。波段范围525-1778和2820-3687cm-1对应数据矩阵变量范围1-2600和4761-6560,以变量间隔200将波段范围划分为22个窗口,得到每个窗口数据下的模型识别率,其中变量范围1001-1200、1801-2000、2001-2200、2201-2400、2401-2600和6361-6560共6个窗口的训练集和预测集识别率均在80%之上。考虑到波段的连续性与完整性,把变量范围1801-2000、2001-2200、2201-2400和2401-2600组合成1801-2600,训练集和预测集的识别准确率分别为98.3%和89.7%,组合后的结果与2401-2600的类似,说明变量范围1801-2000、2001-2200和2201-2400对鉴别模型的贡献较小,可舍弃。进一步地,对变量范围1001-1200,2401-2600和6361-6560进行不同的组合,分别建立SVM分类模型(表3)。组合4建立的分类识别模型识别率最高,且与表2相比识别率类似,说明变量范围1001-1200、2401-2600和6361-6560对5种小米分类识别的贡献最大,可作为区分5种小米的特征变量。窗口分析法结果与PCA载荷分析结果相比,进一步缩小了特征波段的范围,使得特征波段越来越精确。
表3 4种组合变量范围下的模型分类识别实验结果
进一步地,以变量间隔100为窗口,将表3中组合4划分为6个窗口,经层次聚类分析探究信号间的相关性,筛选出不相关的信号。分别使用欧氏距离、标准欧氏距离、城市街区距离和余弦距离四种距离计算方法计算波数间的相似性,采用平均距离法、最短距离法和最长距离法分别创建系统聚类树,计算各种方法下的同表象型相关系数。研究表明,当距离度量方法为余弦距离法、创建系统聚类树的方法为平均距离法时,大多数窗口的同表象型相关系数最大,该方法下创建的系统聚类树最佳。从聚类树图中可见连续的波数往往紧挨在一起,这是由于相邻波数代表分子中相同共价键经不同的跃迁能级振动产生的,因此样品固定,这些共价键及其含量就是固定的,对应的波数和吸收强度就是固定的,即具有相关性。经筛选,变量1041、1096、2408、2469和2530的相关性较小,以每个样本的这5个变量数据按照1.3.3中的方法建立鉴别模型,训练集和预测集的识别率分别为95.8%和100%,所筛选的变量即区分不同产地小米的特征变量,对应的波数分别为1026、1053、1685、1715、1744cm-1。
3、结论
本实施例以广灵小米、黄小米、刘僧小米、乾安黄小米和蔚州小米5种产地小米为例,探究红外光谱技术鉴别小米产地的可行性,并挖掘影响小米产地鉴别模型准确度的特征信息。首先,谷子样品分别经碾米、粉碎操作制得小米米粉。其次,分别采集每份米粉样品的红外光谱,所得红外光谱依次经去噪、标准正态变量变换、多元散射校正和归一化预处理。最后,采用主成分分析结合支持向量机建立小米产地鉴别模型,主成分数为12时,所得模型的训练集和预测集识别准确率为99.2%和98.3%,本实施例所探究的中红外光谱方法为构建小米产地溯源模型提供了更为准确、有效的数据,所提出的数据预处理方法、产地鉴别模型具有潜在推广应用价值。同时,为了明确不同产地小米中红外光谱的特征信息,采用主成分分析—窗口分析—层次聚类分析—支持向量机组合方法提取中红外光谱的特征,采用波数为1026、1053、1685、1715、1744cm-1对应的红外光谱透射率构建小米产地鉴别模型,5种小米的训练集和预测集识别准确率为95.8%和100%。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种基于中红外光谱技术及特征提取的小米产地溯源方法,其特征在于包括如下步骤:
步骤1,分别采集不同产地的小米样品的红外光谱,进行预处理;
步骤2,将步骤1预处理后的红外光谱数据首先进行主成分分析,然后利用窗口分析法对变量数据进行分组,分别采用支持向量机建立分类模型,再利用层次聚类分析法确定相关性小的一组变量数据,构建小米产地鉴别模型;
步骤3,采集未知产地的小米样品的红外光谱,进行预处理后,输入小米产地鉴别模型,输出得到小米样品的产地。
2.如权利要求1所述的基于中红外光谱技术及特征提取的小米产地溯源方法,其特征在于:所述步骤1中,在分辨率0.4821cm-1、采集次数32次、光谱波段范围525-4000cm-1的参数下采集红外光谱。
3.如权利要求1所述的基于中红外光谱技术及特征提取的小米产地溯源方法,其特征在于:所述步骤1中,对红外光谱进行预处理包括依次进行去噪、标准正态变量变换、多元散射校正和归一化处理。
4.如权利要求1所述的基于中红外光谱技术及特征提取的小米产地溯源方法,其特征在于:所述步骤2中,进行主成分分析时,主成分数为12。
5.如权利要求1所述的基于中红外光谱技术及特征提取的小米产地溯源方法,其特征在于:所述步骤2中,采用支持向量机进行建模时,将每种小米样品的2/3数据作为训练集,1/3数据作为预测集,采用径向基核函数,通过网格搜索技术对gamma和c参数进行优化,通过预测集的识别率比较模型的优劣。
6.如权利要求1所述的基于中红外光谱技术及特征提取的小米产地溯源方法,其特征在于:所述步骤2中,利用窗口分析法进行分组后,对于每一组分别采用支持向量机建模,还将任意至少两组进行组合后采用支持向量机建模。
7.如权利要求1或6所述的基于中红外光谱技术及特征提取的小米产地溯源方法,其特征在于:所述步骤2中,利用层次聚类分析法确定相关性小的一组变量数据的方法是:
步骤A,选择识别率高的分类模型所对应的分组数据,对该数据缩小窗口再次进行分组;
步骤B,分别利用欧氏距离、标准欧氏距离、城市街区距离和余弦距离四种距离计算方法计算波数间的相似性,采用平均距离法、最短距离法和最长距离法分别创建系统聚类树,计算各种方法下的同表象型相关系数,选择相关性小于设定值的变量数据,即为需要的变量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110448025.8A CN113191618A (zh) | 2021-04-25 | 2021-04-25 | 一种基于中红外光谱技术及特征提取的小米产地溯源方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110448025.8A CN113191618A (zh) | 2021-04-25 | 2021-04-25 | 一种基于中红外光谱技术及特征提取的小米产地溯源方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113191618A true CN113191618A (zh) | 2021-07-30 |
Family
ID=76978922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110448025.8A Pending CN113191618A (zh) | 2021-04-25 | 2021-04-25 | 一种基于中红外光谱技术及特征提取的小米产地溯源方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191618A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114113035A (zh) * | 2021-11-18 | 2022-03-01 | 北京理工大学 | 转基因大豆油鉴别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101532954A (zh) * | 2008-03-13 | 2009-09-16 | 天津天士力现代中药资源有限公司 | 一种用红外光谱结合聚类分析鉴定中药材的方法 |
CN109668859A (zh) * | 2019-03-03 | 2019-04-23 | 西南大学 | 基于svm算法的花椒产地和品种的近红外光谱识别方法 |
CN110132938A (zh) * | 2019-05-29 | 2019-08-16 | 南京财经大学 | 一种拉曼光谱法鉴别大米种类的特征数据提取方法 |
-
2021
- 2021-04-25 CN CN202110448025.8A patent/CN113191618A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101532954A (zh) * | 2008-03-13 | 2009-09-16 | 天津天士力现代中药资源有限公司 | 一种用红外光谱结合聚类分析鉴定中药材的方法 |
CN109668859A (zh) * | 2019-03-03 | 2019-04-23 | 西南大学 | 基于svm算法的花椒产地和品种的近红外光谱识别方法 |
CN110132938A (zh) * | 2019-05-29 | 2019-08-16 | 南京财经大学 | 一种拉曼光谱法鉴别大米种类的特征数据提取方法 |
Non-Patent Citations (1)
Title |
---|
MIN SHA等: "Enhanced Raman and Mid-Infrared Spectroscopic Discrimination of Geographical Origin of Rice by Data Mining and Data Fusion", SPECTROSCOPY, vol. 36, no. 3, pages 34 - 43 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114113035A (zh) * | 2021-11-18 | 2022-03-01 | 北京理工大学 | 转基因大豆油鉴别方法 |
CN114113035B (zh) * | 2021-11-18 | 2024-02-02 | 北京理工大学 | 转基因大豆油鉴别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Near infrared reflectance spectroscopy for determination of the geographical origin of wheat | |
Hu et al. | Assessing the authenticity of black pepper using diffuse reflectance mid-infrared Fourier transform spectroscopy coupled with chemometrics | |
Shakiba et al. | Determination of the geographical origin of hazelnuts (Corylus avellana L.) by Near-Infrared spectroscopy (NIR) and a Low-Level Fusion with nuclear magnetic resonance (NMR) | |
CN110376153B (zh) | 一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 | |
Li et al. | Multi-information based on ATR-FTIR and FT-NIR for identification and evaluation for different parts and harvest time of Dendrobium officinale with chemometrics | |
Cui et al. | Identification of maize seed varieties based on near infrared reflectance spectroscopy and chemometrics | |
Zheng et al. | Data fusion of FT-NIR and ATR-FTIR spectra for accurate authentication of geographical indications for Gastrodia elata Blume | |
CN102937575A (zh) | 一种基于二次光谱重组的西瓜糖度快速建模方法 | |
Shen et al. | Rapid identification of producing area of wheat using terahertz spectroscopy combined with chemometrics | |
Wang et al. | Extraction and classification of origin characteristic peaks from rice Raman spectra by principal component analysis | |
CN108760677A (zh) | 一种基于近红外光谱技术的法半夏掺伪鉴别方法 | |
Xu et al. | Nondestructive detection of total soluble solids in grapes using VMD‐RC and hyperspectral imaging | |
Chen et al. | Application of UV-Vis and infrared spectroscopy on wild edible bolete mushrooms discrimination and evaluation: a review | |
Li et al. | Manufacturer identification and storage time determination of “Dong’e Ejiao” using near infrared spectroscopy and chemometrics | |
Biancolillo et al. | ATR-FTIR-based rapid solution for the discrimination of lentils from different origins, with a special focus on PGI and Slow Food typical varieties | |
Jin et al. | Rapid discrimination of Anji Baicha origin using field-portable spectroradiometer | |
CN103353443A (zh) | 一种基于近红外光谱的中宁枸杞子判别方法 | |
Xu et al. | Untargeted detection of illegal adulterations in Chinese glutinous rice flour (GRF) by NIR spectroscopy and chemometrics: specificity of detection improved by reducing unnecessary variations | |
Chen et al. | Rapid discrimination of xiaokeng green tea geographical origin using surface-enhanced Raman spectroscopy coupled with chemometrics | |
CN113191618A (zh) | 一种基于中红外光谱技术及特征提取的小米产地溯源方法 | |
CN115436318A (zh) | 一种基于近红外光谱技术鉴别樟属植物品种的方法 | |
Xu et al. | Hyperspectral imaging with machine learning for non-destructive classification of Astragalus membranaceus var. mongholicus, Astragalus membranaceus, and similar seeds | |
CN108844942A (zh) | 粉碎粒度对大米拉曼光谱影响的研究方法 | |
Xiao et al. | Identification of geographical origin and adulteration of Northeast China soybeans by mid-infrared spectroscopy and spectra augmentation | |
He et al. | A rapid method for identification of Lanxangia tsaoko origin and fruit shape: FT‐NIR combined with chemometrics and image recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |