ES2955072T3 - Método de predicción de un valor de propiedad de un material usando análisis de componentes principales - Google Patents
Método de predicción de un valor de propiedad de un material usando análisis de componentes principales Download PDFInfo
- Publication number
- ES2955072T3 ES2955072T3 ES19203750T ES19203750T ES2955072T3 ES 2955072 T3 ES2955072 T3 ES 2955072T3 ES 19203750 T ES19203750 T ES 19203750T ES 19203750 T ES19203750 T ES 19203750T ES 2955072 T3 ES2955072 T3 ES 2955072T3
- Authority
- ES
- Spain
- Prior art keywords
- spectra
- spectrum
- population
- prediction function
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 239000000463 material Substances 0.000 title claims abstract description 32
- 238000000513 principal component analysis Methods 0.000 title abstract description 6
- 238000001228 spectrum Methods 0.000 claims abstract description 164
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 35
- 239000000203 mixture Substances 0.000 claims abstract description 29
- 230000003595 spectral effect Effects 0.000 claims abstract description 20
- 238000005259 measurement Methods 0.000 claims description 43
- 238000010200 validation analysis Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 23
- 238000011524 similarity measure Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 16
- 239000006185 dispersion Substances 0.000 claims description 13
- 238000004445 quantitative analysis Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000002790 cross-validation Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000011068 loading method Methods 0.000 abstract description 3
- 238000012935 Averaging Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 106
- 239000000523 sample Substances 0.000 description 85
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 52
- 239000013598 vector Substances 0.000 description 49
- 229940024606 amino acid Drugs 0.000 description 39
- 235000001014 amino acid Nutrition 0.000 description 39
- 150000001413 amino acids Chemical class 0.000 description 39
- 239000004472 Lysine Substances 0.000 description 38
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 36
- 239000000243 solution Substances 0.000 description 32
- 230000000875 corresponding effect Effects 0.000 description 28
- 229910052757 nitrogen Inorganic materials 0.000 description 26
- 235000018102 proteins Nutrition 0.000 description 25
- 102000004169 proteins and genes Human genes 0.000 description 25
- 108090000623 proteins and genes Proteins 0.000 description 25
- 230000000694 effects Effects 0.000 description 20
- 230000009102 absorption Effects 0.000 description 19
- 238000010521 absorption reaction Methods 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 18
- 239000007858 starting material Substances 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 14
- 239000000126 substance Substances 0.000 description 13
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 12
- 241001465754 Metazoa Species 0.000 description 12
- 102000004142 Trypsin Human genes 0.000 description 12
- 108090000631 Trypsin Proteins 0.000 description 12
- 238000002835 absorbance Methods 0.000 description 12
- 239000000725 suspension Substances 0.000 description 12
- 239000012588 trypsin Substances 0.000 description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 11
- 150000001875 compounds Chemical class 0.000 description 10
- 229940122618 Trypsin inhibitor Drugs 0.000 description 9
- 101710162629 Trypsin inhibitor Proteins 0.000 description 9
- 238000013459 approach Methods 0.000 description 9
- 239000000839 emulsion Substances 0.000 description 9
- 239000002753 trypsin inhibitor Substances 0.000 description 9
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 description 8
- 108010046334 Urease Proteins 0.000 description 8
- 230000007062 hydrolysis Effects 0.000 description 8
- 238000006460 hydrolysis reaction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004566 IR spectroscopy Methods 0.000 description 7
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 7
- 229960002433 cysteine Drugs 0.000 description 7
- 235000018417 cysteine Nutrition 0.000 description 7
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 7
- 241000698776 Duma Species 0.000 description 6
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 6
- 235000010469 Glycine max Nutrition 0.000 description 6
- 244000068988 Glycine max Species 0.000 description 6
- QUOGESRFPZDMMT-UHFFFAOYSA-N L-Homoarginine Natural products OC(=O)C(N)CCCCNC(N)=N QUOGESRFPZDMMT-UHFFFAOYSA-N 0.000 description 6
- QUOGESRFPZDMMT-YFKPBYRVSA-N L-homoarginine Chemical compound OC(=O)[C@@H](N)CCCCNC(N)=N QUOGESRFPZDMMT-YFKPBYRVSA-N 0.000 description 6
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 6
- 239000012491 analyte Substances 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 6
- 239000012470 diluted sample Substances 0.000 description 6
- 235000013305 food Nutrition 0.000 description 6
- RMAHPRNLQIRHIJ-UHFFFAOYSA-N methyl carbamimidate Chemical compound COC(N)=N RMAHPRNLQIRHIJ-UHFFFAOYSA-N 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 108090000765 processed proteins & peptides Proteins 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- LEVWYRKDKASIDU-QWWZWVQMSA-N D-cystine Chemical compound OC(=O)[C@H](N)CSSC[C@@H](N)C(O)=O LEVWYRKDKASIDU-QWWZWVQMSA-N 0.000 description 5
- 239000003513 alkali Substances 0.000 description 5
- 239000012670 alkaline solution Substances 0.000 description 5
- 229960003067 cystine Drugs 0.000 description 5
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 4
- VEXZGXHMUGYJMC-UHFFFAOYSA-N Hydrochloric acid Chemical compound Cl VEXZGXHMUGYJMC-UHFFFAOYSA-N 0.000 description 4
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 4
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 4
- 238000004497 NIR spectroscopy Methods 0.000 description 4
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 4
- 239000004202 carbamide Substances 0.000 description 4
- 125000000524 functional group Chemical group 0.000 description 4
- 230000005764 inhibitory process Effects 0.000 description 4
- 229930182817 methionine Natural products 0.000 description 4
- 229960004452 methionine Drugs 0.000 description 4
- 150000002894 organic compounds Chemical class 0.000 description 4
- 229960004799 tryptophan Drugs 0.000 description 4
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 3
- 108010005094 Advanced Glycation End Products Proteins 0.000 description 3
- 239000004475 Arginine Substances 0.000 description 3
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 3
- 239000004471 Glycine Substances 0.000 description 3
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 description 3
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 3
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 3
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 3
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 3
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 3
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 3
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 3
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 3
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 3
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 3
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 3
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 3
- KWYUFKZDYYNOTN-UHFFFAOYSA-M Potassium hydroxide Chemical compound [OH-].[K+] KWYUFKZDYYNOTN-UHFFFAOYSA-M 0.000 description 3
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 3
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 3
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 3
- 239000004473 Threonine Substances 0.000 description 3
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 3
- 239000011149 active material Substances 0.000 description 3
- 229960003767 alanine Drugs 0.000 description 3
- 235000004279 alanine Nutrition 0.000 description 3
- 229960003121 arginine Drugs 0.000 description 3
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 3
- 238000000149 argon plasma sintering Methods 0.000 description 3
- 229960005261 aspartic acid Drugs 0.000 description 3
- 235000003704 aspartic acid Nutrition 0.000 description 3
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005119 centrifugation Methods 0.000 description 3
- 239000012916 chromogenic reagent Substances 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000029087 digestion Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 229960002989 glutamic acid Drugs 0.000 description 3
- 235000013922 glutamic acid Nutrition 0.000 description 3
- 239000004220 glutamic acid Substances 0.000 description 3
- 229960002449 glycine Drugs 0.000 description 3
- 229960002885 histidine Drugs 0.000 description 3
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 3
- -1 i.e. Chemical compound 0.000 description 3
- 150000002484 inorganic compounds Chemical class 0.000 description 3
- 229910010272 inorganic material Inorganic materials 0.000 description 3
- 229960000310 isoleucine Drugs 0.000 description 3
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 3
- 229960003136 leucine Drugs 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 229960005190 phenylalanine Drugs 0.000 description 3
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 3
- 235000020777 polyunsaturated fatty acids Nutrition 0.000 description 3
- 229960002429 proline Drugs 0.000 description 3
- 235000013930 proline Nutrition 0.000 description 3
- 229960001153 serine Drugs 0.000 description 3
- 235000004400 serine Nutrition 0.000 description 3
- 239000006228 supernatant Substances 0.000 description 3
- 229960002898 threonine Drugs 0.000 description 3
- 229960004441 tyrosine Drugs 0.000 description 3
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 3
- 229960004295 valine Drugs 0.000 description 3
- 239000004474 valine Substances 0.000 description 3
- LOTKRQAVGJMPNV-UHFFFAOYSA-N 1-fluoro-2,4-dinitrobenzene Chemical compound [O-][N+](=O)C1=CC=C(F)C([N+]([O-])=O)=C1 LOTKRQAVGJMPNV-UHFFFAOYSA-N 0.000 description 2
- PRCSBHBEAWPOAV-UHFFFAOYSA-N 2-(benzylamino)-5-(diaminomethylideneamino)-n-(4-nitrophenyl)pentanamide Chemical compound C=1C=C([N+]([O-])=O)C=CC=1NC(=O)C(CCCN=C(N)N)NCC1=CC=CC=C1 PRCSBHBEAWPOAV-UHFFFAOYSA-N 0.000 description 2
- TYMLOMAKGOJONV-UHFFFAOYSA-N 4-nitroaniline Chemical compound NC1=CC=C([N+]([O-])=O)C=C1 TYMLOMAKGOJONV-UHFFFAOYSA-N 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 108010016626 Dipeptides Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 108010038807 Oligopeptides Proteins 0.000 description 2
- 102000015636 Oligopeptides Human genes 0.000 description 2
- 229910021529 ammonia Inorganic materials 0.000 description 2
- RQPZNWPYLFFXCP-UHFFFAOYSA-L barium dihydroxide Chemical compound [OH-].[OH-].[Ba+2] RQPZNWPYLFFXCP-UHFFFAOYSA-L 0.000 description 2
- 229910001863 barium hydroxide Inorganic materials 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 239000012496 blank sample Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000013375 chromatographic separation Methods 0.000 description 2
- 238000004587 chromatography analysis Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 238000006911 enzymatic reaction Methods 0.000 description 2
- 238000000227 grinding Methods 0.000 description 2
- 238000004128 high performance liquid chromatography Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 239000003112 inhibitor Substances 0.000 description 2
- 238000005342 ion exchange Methods 0.000 description 2
- 239000011707 mineral Substances 0.000 description 2
- 235000010755 mineral Nutrition 0.000 description 2
- FEMOMIGRRWSMCU-UHFFFAOYSA-N ninhydrin Chemical compound C1=CC=C2C(=O)C(O)(O)C(=O)C2=C1 FEMOMIGRRWSMCU-UHFFFAOYSA-N 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 230000003647 oxidation Effects 0.000 description 2
- 238000007254 oxidation reaction Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 102000004196 processed proteins & peptides Human genes 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 150000004671 saturated fatty acids Chemical class 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000004611 spectroscopical analysis Methods 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- 235000000346 sugar Nutrition 0.000 description 2
- 150000008163 sugars Chemical class 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 239000012224 working solution Substances 0.000 description 2
- LJGHYPLBDBRCRZ-UHFFFAOYSA-N 3-(3-aminophenyl)sulfonylaniline Chemical compound NC1=CC=CC(S(=O)(=O)C=2C=C(N)C=CC=2)=C1 LJGHYPLBDBRCRZ-UHFFFAOYSA-N 0.000 description 1
- HVBDBNBRWGIRLT-UHFFFAOYSA-N 4-nitrosoprocainamide Chemical compound CCN(CC)CCNC(=O)C1=CC=C(N=O)C=C1 HVBDBNBRWGIRLT-UHFFFAOYSA-N 0.000 description 1
- 101100283604 Caenorhabditis elegans pigk-1 gene Proteins 0.000 description 1
- 101710089042 Demethyl-4-deoxygadusol synthase Proteins 0.000 description 1
- 235000019733 Fish meal Nutrition 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000005903 acid hydrolysis reaction Methods 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000013543 active substance Substances 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 239000006053 animal diet Substances 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 150000004649 carbonic acid derivatives Chemical class 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 150000001732 carboxylic acid derivatives Chemical class 0.000 description 1
- 150000001735 carboxylic acids Chemical class 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000002925 chemical effect Effects 0.000 description 1
- 238000011210 chromatographic step Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000011365 complex material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 235000019621 digestibility Nutrition 0.000 description 1
- 229940042399 direct acting antivirals protease inhibitors Drugs 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007515 enzymatic degradation Effects 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 239000000706 filtrate Substances 0.000 description 1
- 239000004467 fishmeal Substances 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-M hydroxide Chemical compound [OH-] XLYOFNOQVPJJNP-UHFFFAOYSA-M 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000002198 insoluble material Substances 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 150000002668 lysine derivatives Chemical class 0.000 description 1
- 125000003588 lysine group Chemical group [H]N([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])(N([H])[H])C(*)=O 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000003333 near-infrared imaging Methods 0.000 description 1
- 150000002823 nitrates Chemical class 0.000 description 1
- 239000012038 nucleophile Substances 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 239000000137 peptide hydrolase inhibitor Substances 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 235000021317 phosphate Nutrition 0.000 description 1
- 150000003013 phosphoric acid derivatives Chemical class 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000985 reflectance spectrum Methods 0.000 description 1
- 239000012488 sample solution Substances 0.000 description 1
- 235000003441 saturated fatty acids Nutrition 0.000 description 1
- 239000011734 sodium Substances 0.000 description 1
- 238000005063 solubilization Methods 0.000 description 1
- 230000007928 solubilization Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 239000012086 standard solution Substances 0.000 description 1
- 238000012109 statistical procedure Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 150000003467 sulfuric acid derivatives Chemical class 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 235000021122 unsaturated fatty acids Nutrition 0.000 description 1
- 150000004670 unsaturated fatty acids Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/27—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
- G01N21/274—Calibration, base line adjustment, drift correction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/27—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J3/00—Spectrometry; Spectrophotometry; Monochromators; Measuring colours
- G01J3/28—Investigating the spectrum
- G01J2003/2866—Markers; Calibrating of scan
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2201/00—Features of devices classified in G01N21/00
- G01N2201/12—Circuits of general importance; Signal processing
- G01N2201/129—Using chemometrical methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
La presente invención se refiere a un método implementado por computadora para predecir un valor de propiedad de interés en un material, que comprende los pasos de a) proporcionar una población de espectros infrarrojos de muestras, en donde dichos espectros forman una matriz X de datos de entrada de m × n, con siendo m el número de muestras en filas y n siendo los puntos de datos en columnas, b) eliminar los valores atípicos espectrales de la población de espectros del paso a), que comprende los pasos de b1) obtener los componentes principales sometiendo la matriz X a un componente principal análisis, b2) producir una matriz diagonal Σ, que contiene valores singulares σm de la matriz X, y una matriz de cargas V, a partir de la matriz de datos de entrada X, b3) calcular una puntuación xm para cada espectro multiplicando cada punto de datos de los datos de entrada matriz X con las cargas para cada componente del paso b2), formando la media de cada columna de la matriz X para proporcionar valores B0,m, y calculando un índice de puntuación si mediante la fórmula si=∑ixm-B0,mσm, b4) determinar el número de componentes NC cuyos valores propios conducen a una convergencia en la regresión de X en las puntuaciones de al menos el 99 %, y calcular un valor umbral de medida de distancia para cada espectro del paso a), mediante la fórmula Di=NC×si2 ×NCNC-12, b5) calculando la media para todas las puntuaciones de cada componente principal de cada espectro del paso a) y calculando la medida de distancia entre dicha media y cada una de las puntuaciones de cada componente principal, b6) considerando un espectro de muestra como valor atípico espectral cuando el valor de la medida de distancia para una puntuación de un componente principal obtenido en el paso b4) es mayor que el valor umbral de la medida de distancia del paso b4), b7) eliminando el valor atípico espectral del paso b6) de la población de espectros del paso a) dar una población de espectros limpios, c) generar una función de predicción sobre la población de espectros limpios del paso b7), d) proporcionar un espectro infrarrojo de una muestra de origen y/o composición desconocidos o del mismo origen y/o composición como muestra en el paso a), y e) predecir un valor de propiedad de interés del espectro del paso d) mediante la función de predicción del paso c). (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Método de predicción de un valor de propiedad de un material usando análisis de componentes principales
La presente invención se refiere a un método implementado por ordenador para predecir un valor de propiedad de interés de un material y a un dispositivo para este método que comprende una unidad de procesamiento adaptada para llevar a cabo dicho método.
La espectroscopía de infrarrojo cercano (NIR) es una herramienta útil para predecir un valor de propiedad de interés de un material, en particular cuando está lejos de un laboratorio analítico donde normalmente se realizaría el análisis, cualitativo y/o cuantitativo. En particular, los productos agrícolas, tales como materiales de partida para piensos y/o piensos, se pueden analizar para la presencia y concentración de ingredientes específicos antes de y después de las etapas de procesamiento, tales como tratamientos de tostado y a presión, durante o después del almacenamiento y después de la preparación del alimento que los contiene. Sin embargo, necesita una función de calibración adecuada para proporcionar predicciones precisas y fiables por medio de espectroscopía de infrarrojo cercano.
Dicha función de calibración se genera normalmente por medio de análisis multivariante. Esto permite una consideración adecuada de correlaciones para estimar la composición de mezclas complejas con una compensación para interferencias de señales de fondo. Una predicción de un valor de propiedad de interés por medio de espectroscopía NIR y una función de calibración representa un proceso de dos etapas. En la primera etapa, se construye un modelo de calibración utilizando un conjunto de datos obtenido por mediciones indirectas, por ejemplo, de intensidad de señal óptica, y mediciones directas, por ejemplo, de la concentración de analitos, en varias situaciones que abarcan una variedad de diferentes condiciones de analito e instrumentales. Una forma general para la relación entre mediciones directas (por ejemplo, concentración del analito) e indirectas (por ejemplo, intensidad de señal óptica) es y = f(x1,x2,..,xn), donde y es el valor de propiedad deseado de interés a predecir (por ejemplo, concentración del analito), f es alguna función (modelo) y X1,X2,---Xn son los argumentos del modelo, y específicamente los resultados de cualquier medición indirecta, por ejemplo, mediciones ópticas transformadas en un número (específico) de longitudes de onda. El objetivo de esta primera etapa es desarrollar una función útil f que refleja la relación entre la(s) medición (mediciones) indirecta(s) y el valor de propiedad deseado de interés a predecir. En la segunda etapa (predicción), esta función se evalúa con un juego medido de mediciones indirectas (ópticas) X1,X2, •••,Xn para obtener una estimación de la medición directa (por ejemplo, concentración del analito) en algún momento en el futuro cuando se hacen mediciones ópticas sin una medición directa correspondiente.
Existe una gran cantidad de bibliografía relativa a la creación de una función de calibración para realizar predicciones de un valor de propiedad de interés de un material mediante espectroscopia NIR. La mayor parte del estado de la técnica se refiere a los conceptos generales y específicos para crear una función de calibración. Parte de la bibliografía está dedicada a la compensación de interferencias, por ejemplo, interferencias ambientales y errores específicos del dispositivo, tales como errores de medición y fuentes de emisión de envejecimiento, en la creación de la función de calibración. Sin embargo, el estado de la técnica no siempre tiene en cuenta la identificación de valores espectrales atípicos, y mucho menos cómo tratarlos en la creación de la función de calibración, pero es muy probable que se produzcan durante la acumulación de mediciones indirectas (ópticas). Como consecuencia de ello, también es muy probable que perjudiquen la creación de la función de calibración.
El documento de patente US5606164 A proporciona un método de obtención de un modelo de calibración mediante la eliminación de valores atípicos antes de la formación del modelo. Los valores atípicos se identifican calculando distancias generalizadas entre un centroide de las muestras de calibración y una muestra de calibración específica. Específicamente, los espectros se consideran atípicos si la distancia calculada es superior a 3-5 veces la variación estándar.
Un valor atípico puede ser debido a variabilidad en la medición o puede ser el resultado de un error instrumental; los últimos se excluyen algunas veces del conjunto de datos. En general, y en particular en estadística, un valor atípico se considera un punto de datos que se diferencia significativamente de otras observaciones, que sin embargo deja mucho espacio a la interpretación subjetiva y a interpretaciones erróneas. Por otra parte, la inclusión de puntos de datos en los márgenes de un conjunto de datos es necesaria para una calibración significativa y robusta y, por lo tanto, no deben debe omitirse simplemente debido a que parezcan extraños. Esto ya muestra que uno problema asociado a los valores atípicos, si no el principal, es su detección o identificación debido a que no existe una definición rígida de un valor atípico. Por último lugar, sigue siendo todavía un ejercicio subjetivo determinar si una observación es un valor atípico o no. Debido a la ausencia de una definición generalmente aceptada de un valor atípico, existen diversos métodos de detección de un valor atípico. Algunos son gráficos, tales como diagramas de probabilidad normal, otros son métodos basados en modelos, e híbridos, tales como los denominados diagramas de cajas. Y la elección del método y cómo tratar un valor atípico depende frecuentemente del caso individual. Incluso cuando un modelo de distribución normal es apropiado para los datos que se analizan, cabe esperar valores atípicos para grandes tamaños de muestras y no deben despreciarse automáticamente cuando están presentes. La aplicación respectiva debe usar un algoritmo de clasificación que sea robusto para los valores atípicos para modelar datos con valores atípicos naturales. La supresión de datos de valores atípicos es una práctica controvertida mal
vista por muchos científicos y profesores de ciencias. Es más aceptable en las áreas de práctica, donde el modelo subyacente del proceso y la distribución usual de errores de medición son conocidos con seguridad. Se puede excluir un valor atípico resultante de un error de lectura instrumental, pero se desea que la lectura sea al menos verificada. En particular, en el caso de espectroscopía de infrarrojos, es un gran reto identificar valores atípicos con tanta exactitud como sea posible y también muy eficientemente, en el mejor de los casos ambos al mismo tiempo. Esto es incluso más relevante cuando los espectros de infrarrojos respectivos (mediciones indirectas) y los datos de referencia correspondientes (mediciones directas) deben ser la base para la creación de una función de calibración que es adecuada para predecir un valor de propiedad de interés de un material por medio de espectroscopía de infrarrojos. Por lo tanto, hubo una necesidad de un método de predicción de un valor de propiedad de interés de un material por medio de espectroscopía de infrarrojos, que permita la identificación fiable y automática y la eliminación de valores atípicos espectrales durante la creación de la función de calibración.
Es, por lo tanto, un objeto de la presente invención un método implementado por ordenador para predecir un valor de propiedad de interés de un material, que comprende las etapas de
a) proporcionar una población de espectros de infrarrojos de muestras, en donde dichos espectros forman una matriz de m x n datos de entrada X, siendo m el número de muestras en filas y siendo n los puntos de datos en columnas,
b) eliminar los valores atípicos espectrales de la población de espectros de la etapa a), que comprende las etapas de
b1) obtener los componentes principales sometiendo la matriz X a un análisis de componentes principales, b2) producir una matriz diagonal I , que contiene valores singulares Qm de la matriz X, y una matriz de cargas V, de la matriz de datos de entrada X,
b3) calcular una puntuación xm para cada espectro multiplicando cada punto de datos de la matriz de entrada de datos X con las cargas por cada componente de la etapa b2), formando la media de cada columna de la matriz X para proporcionar valores B0,m, y calcular un índice de puntuación si por la fórmula
b4) determinar el número de componentes Nc cuyos valores propios conducen a una convergencia en la regresión de X en las puntuaciones de al menos el 99 %, y calcular un valor umbral de medida de distancia Di para cada espectro de la etapa a), por la fórmula
b5) calcular la media para todas las puntuaciones de cada componente principal de cada espectro de la etapa a) y calcular la medida de distancia entre dicha media y cada una de las puntuaciones de cada componente principal,
b6) considerar un espectro de muestra como un valor atípico espectral cuando el valor de la medida de distancia para una puntuación de un componente principal obtenido en la etapa b5) es mayor que el valor umbral de la medida de distancia de la etapa b4),
b7) eliminar el valor atípico espectral de la etapa b6) de la población de espectros de la etapa a) para dar una población de espectros depurada,
c) generar una función de predicción en la población de espectros depurada de la etapa b7),
d) proporcionar un espectro de infrarrojos de una muestra de origen y/o composición desconocida o del mismo origen y/o composición que una muestra en la etapa a),
y
e) predecir un valor de propiedad de interés del espectro de la etapa d) por medio de la función de predicción de la etapa c).
La población de espectros de infrarrojos de muestras proporcionadas en la etapa a) define un especio de datos ndimensional, donde n es el número de puntos de datos en los espectros y m es el número de muestras. Por lo tanto, los datos de los espectros de infrarrojos se pueden representar por una matriz de entrada de datos del tipo Xmxn con m filas para las muestras y n columnas para los puntos de datos, frecuentemente también escrita como matriz X m x n. La enorme cantidad de datos hace que la matriz resultante sea bastante compleja. Por tanto, la matriz de entrada de datos se somete a una reducción de datos, sin perder información relevante. Esto se hace normalmente en un análisis de componentes principales (PCA). Esto es un procedimiento estadístico que usa una transformación ortogonal para convertir un conjunto de observaciones de variables posiblemente correlacionadas (entidades cada una de las cuales adopta diversos valores numéricos) en un conjunto de valores de variables linealmente no correlacionadas denominadas componentes principales. Esta transformación se define de tal forma que el primer
componente principal tenga la mayor varianza posible, es decir, conduce a la mayor variabilidad posible en los datos. Cada componente adicional es ortogonal al (a los) componente(s) precedente(s) y es segundo al componente precedente en términos de la mayor varianza posible. Los vectores resultantes (cada uno de los cuales es una combinación lineal de las variables y que contiene n observaciones) son un conjunto de base ortogonal no corregido. En un análisis de componentes principales, la matriz de entrada de datos Xm*n se descompone en dos matrices que
son ortogonales entre si, la matriz l / m*n y la matriz V nTxn. Matemáticamente, esta etapa se describe por la formula
nxn es la llamada matriz de cargas, que contiene las cargas, es decir, los nuevos ejes resultantes de la transformación, y Um*n también se denomina la llamada matriz de puntuaciones, que contiene las nuevas coordenadas. Las cargas se pueden entender como los pesos por los que las variables originales se van a multiplicar para calcular los componentes principales.
Según la presente invención, la matriz de entrada de datos X se descompone en un producto de varias matrices por medio de una descomposición de valores singulares, que matemáticamente se describe por
donde X m*n es una matriz m x n del rango k, l / m*m es una matriz mx m unitaria, I m*n es una matriz m x n real que
contiene los valores singulares om de la matriz n es el adjunto de la matriz n x n unitaria V que contiene las
En el contexto de la presente invención, una población de espectros de infrarrojos no está sujeta a ninguna limitación referente al número de espectros, a condición de que el número de espectros sea suficiente para generar una función de predicción significativa. Por tanto, el número de espectros en una población de espectros puede variar de 50 a 10.000, de 50 de 5.000, de 50 a 2.500, de 50 a 2.000, de 50 a 1.500, de 50 a 1.000, de 100 a 1.000, de 50 a 500, de 100 a 500, de 50 a 250, de 100 a 250, o de 50 a 100.
El espectro/espectros de infrarrojos se pueden registrar en longitudes de onda entre 400 y 2,800 nm con cualquier espectrómetro adecuado que funcione ya sea en el principio de monocromador o en el principio de transformada de Fourier. Preferentemente, un espectro de infrarrojos se registra entre 1.100 y 2.500 nm. Las longitudes de onda son fácilmente convertibles en los números de onda respectivos y, por lo tanto, un espectro de infrarrojos también se puede registrar en los números de onda correspondientes. En general, la espectroscopia de infrarrojos requiere la presencia de grupos o restos funcionales, que permiten la excitación de la vibración molecular en el material por irradiación, y la frecuencia de la luz que viene a través se registra entonces por el espectrómetro. Sin embargo, también es posible registrar los espectros de infrarrojos de un material que no tiene ningún grupo o resto funcional, por ejemplo, minerales, que por si solos no permiten vibraciones (moleculares). Sin embargo, esto requiere la presencia simultánea de un material activo de infrarrojos, que interactúa con el material activo no de infrarrojos, por ejemplo, en la formación de un compuesto complejo y, por lo tanto, se somete a cambios vibracionales en la excitación de las vibraciones moleculares. La comparación de los espectros de infrarrojos asi obtenidos con un espectro del material activo de infrarrojos (puro) en ausencia del material inactivo de infrarrojos adicional permite extraer conclusiones sobre la identidad y concentración del material inactivo de infrarrojos. Por consiguiente, la espectroscopia de infrarrojos permite la predicción de un valor de propiedad de interés de una amplia variedad de materiales diferentes. Sin embargo, una muestra biológica, tal como un pienso, contiene una multitud de diferentes compuestos orgánicos e inorgánicos y asi representa una matriz bastante compleja. A pesar de ello, cada sustancia biológica da un espectro de infrarrojo cercano único, comparable a una huella dactilar individual. Por consiguiente, se puede asumir que dos sustancias biológicas que dan espectros idénticos tienen la misma composición fisica y química y asi son idénticos. Por otra parte, si dos sustancias biológicas dan diferentes espectros, se puede asumir que son diferentes, ya sea en términos de sus caracteristicas fisicas o quimicas, o en ambos términos. Debido a sus bandas de absorción individuales y altamente especificas, las señales de compuestos orgánicos e inorgánicos y sus intensidades en los espectros de infrarrojos pueden ser fácilmente atribuidas y correlacionadas con un compuesto orgánico especifico y su concentración en una muestra de peso conocido. Por lo tanto, la espectroscopia de infrarrojos permite la predicción de un valor de propiedad de interés de un material bastante complejo, tal como la identidad y concentración de diferentes aminoácidos y proteinas en una muestra biológica. Sin embargo, el espectro de infrarrojos también permite identificar incluso un parámetro abstracto en muestras complejas, cuando es posible identificar tendencias generales en el mismo tipo de muestra debido a los cambios de dichos parámetros abstractos. Por ejemplo, es posible atribuir y correlacionar absorciones y sus intensidades en un espectro de infrarrojos de muestra compleja de un pienso o material de partida para pienso con parámetros abstractos, tales como la actividad del inhibidor de tripsina, la actividad de ureasa, la solubilidad de proteinas en álcali y el indice de dispersabilidad de proteinas, y sus concentraciones. En la siguiente etapa, el espectrómetro de infrarrojos implicado se debe calibrar. Una vez se han emparejado satisfactoriamente las intensidades de absorción a las longitudes de onda o números de onda respectivos, es decir, atribuido y correlacionado con los parámetros de interés y sus valores, la espectroscopia
de infrarrojo cercano permite una predicción fiable de un valor de propiedad de interés de un material. Para este fin, se registra un número suficiente de espectros de infrarrojos, si fuera necesario 100, 200, 300, 400, 500 o más, del material en cuestión, y se emparejan las intensidades de absorción en las longitudes de onda o números de onda respectivos con los parámetros correspondientes y sus valores. Un espectro de infrarrojos se puede medir en modo de transmisión o reflectancia. En uso académico, el modo de medición más común es el modo de transmisión, pero para la medición de materiales insolubles o granulares se prefiere medir en modo de reflectancia. En el último caso, la reflectancia de la luz reflejada de la muestra se mide y la diferencia entre la luz emitida y reflejada se facilita como absorción.
En general, el método según la presente invención no está sujeto a ninguna limitación referente al material cuyo valor de propiedad de interés se va a predecir. Por tanto, puede ser una sustancia singular o una mezcla de diferentes sustancias. Como se ha explicado anteriormente con más detalle, el material debe contener al menos una sustancia activa de infrarrojos para permitir la excitación de vibración (vibraciones) molecular(es). Aparte de eso, el material puede ser de cualquier tipo de composición y/u origen. Materiales adecuados en el contexto de la presente invención son compuestos orgánicos, tales como aminoácidos, péptidos, proteínas, ácidos carboxílicos, ácidos grasos, ácidos grasos saturados y/o insaturados, ácidos grasos poliinsaturados, o mezclas de los mismos, o materiales de origen humano, animal o vegetal, por ejemplo, digestos, partes del cuerpo, partes del animal o partes de la planta, o productos técnicamente producidos basados en productos de origen vegetal y/o animal, por ejemplo, piensos, dietas para animales y/o materiales de partida para pienso, tales como granos de destilería con solubles (DDGS), harina de pescado hidrolizada o harina de plumas hidrolizada, y compuestos inorgánicos, tales como carbonatos, fosfatos, nitratos y sulfatos, o una mezcla de los mismos. Preferentemente, el material cuyo valor de propiedad de interés se va a predecir es un aminoácido, una proteína, un péptido, un ácido carboxílico, un ácido graso saturado, insaturado y/o parcialmente saturado, un ácido graso poliinsaturado, un alimento, un pienso, un material de partida para pienso, una sustancia de origen humano, animal y/o vegetal o una mezcla de los mismos.
El material que se somete al método según la presente invención influye fuertemente en el valor de propiedad de interés a predecir. Por ejemplo, cuando un alimento, un pienso o un material de partida para pienso es el material sometido al método según la presente invención, entonces un valor de propiedad de interés a predecir es en particular un aminoácido, un ácido graso poliinsaturado y/o un nutriente mineral. Por ejemplo, cuando digestos, partes del cuerpo o partes del animal son el material sometido al método según la presente invención, entonces un valor de propiedad de interés a predecir es en particular una proteína, un péptido y/o un aminoácido. Por tanto, el método según la presente invención no está sujeto en principio a ninguna limitación referente al valor de propiedad de interés a predecir. Por lo tanto, el valor de propiedad de interés puede ser cualquier tipo de parámetro de un material, que se puede determinar ya sea directa o indirectamente por medio de espectroscopía de infrarrojos.
Según la presente invención, la muestra cuyo espectro de infrarrojos se proporciona en la etapa d) es una muestra de origen y/o composición desconocida o del mismo origen y/o composición que una muestra en la etapa a). Preferentemente, la muestra en la etapa d) es de origen y/o composición desconocida. Alternativamente, se prefiere que la muestra en la etapa d) sea del mismo origen que una muestra en la etapa a) pero de composición desconocida. Preferentemente, la muestra cuyo espectro de infrarrojos se proporciona en la etapa d) es una muestra de origen y/o composición desconocida o del mismo origen y/o composición que la población de muestras en la etapa a). Preferentemente, la muestra en la etapa d) es de origen y/o composición desconocida. Alternativamente, se prefiere que la muestra en la etapa d) sea del mismo origen que la población de muestras en la etapa a) pero de composición desconocida.
Puesto que los espectros de infrarrojos se pueden medir en modo de transmisión o reflectancia, la muestra puede ser una muestra no triturada y/o triturada, en donde la muestra triturada puede ser de diferente granularidad.
En principio, el método según la presente invención no está sujeto a ninguna limitación referente al uso de la medida de distancia. Por lo tanto, cualquier medida de distancia adecuada se puede usar en principio en el método, por ejemplo, la medida de distancia euclídea, la medida de distancia de Pearson o la medida de distancia de Mahalanobis. En general, es posible definir una medida de distancia, facilitada como el coeficiente de distancia d(i,j) de dos observaciones i y j, a partir de una medida de similitud s(i,j) de dos observaciones i y j, por medio de la fórmula
Por lo tanto, también es posible obtener la medida de distancia indirectamente, es decir, primero se determina la medida de similitud, seguido por obtener la medida de distancia a partir de la medida de similitud.
En una realización del método según la presente invención, la medida de distancia es la medida de distancia euclídea, la medida de distancia de Pearson, la medida de distancia de Mahalanobis, o una medida de distancia obtenida a partir de una medida de similitud.
Normalmente, cualquier tipo de análisis de similitud trabaja con un valor umbral que define algún tipo de límite,
observaciones que todavía son aceptables y que ya no son aceptables. El uso de valores umbral rigurosos para una distancia o medida de similitud normalmente puede funcionar bien en el laboratorio y así condiciones muy reproducibles, con personal bien formado y espectrómetros, que están calibrados idealmente y son parte de una red. Sin embargo, el uso de valores umbral rigurosos para una medida de distancia o similitud no funciona bien cuando se usan los llamados espectrómetros autónomos, que normalmente no funcionan en condiciones de laboratorio. Además, la elección de un valor umbral riguroso para una medida de distancia sería nuevamente algo bastante subjetivo, en particular si dicho valor umbral solo se selecciona aleatoriamente o se adoptada de otros procedimientos. Es, por lo tanto, bastante probable que el uso de valores umbral rigurosos predefinidos para una medida de distancia o similitud condujera a problemas similares como en el estado de la técnica. Sin embargo, el método según la presente invención también debe ser adecuado para predecir los valores de propiedad de interés usando los llamados espectrómetros autónomos, que normalmente no funcionan en condiciones de laboratorio. En el contexto de la presente invención, se descubrió que estos problemas se resuelven por uso de un llamado valor umbral dinámico para la medida de distancia. Este enfoque de un valor umbral dinámico implica un aumento escalonado del valor umbral de la medida de distancia obtenido en la etapa b4) por 1. El "nuevo" valor umbral de medida de distancia así obtenido sirve de base para evaluar si un espectro de muestra es un valor atípico espectral, aquí el valor umbral de la medida de distancia obtenido en la etapa b4) está sustituido por el "nuevo" valor umbral de medida de distancia. Este procedimiento se repite hasta que la diferencia entre las dos medidas de distancia con los mayores valores sea al menos 1 y el valor más alto de una distancia sea 8 como máximo.
En otra realización del método según la presente invención, la etapa b) comprende además las etapas de b5.1) aumentar el valor umbral de la medida de distancia obtenido en la etapa b4) por 1,
b5.2) determinar las dos medidas de distancia obtenidas en la etapa b5) con los valores más altos usando el valor umbral de la medida de distancia de la etapa b5.1),
b5.3) determinar la diferencia entre los valores de las medidas de distancia determinadas en la etapa b5.2), y b5.4) repetir las etapas b5.1) a b5.3) con el valor umbral de la medida de distancia de la etapa b5.1) hasta que la diferencia determinada en la etapa b5.3) sea al menos 1, y el valor más alto de una medida de distancia sea 8 como máximo.
Cada vez que se repiten las etapas b5.1) a b5.3), el valor umbral de la medida de distancia de la última ejecución sustituye el valor umbral de la medida de distancia de la ejecución precedente, es decir, la ejecución antes de la última ejecución, y entonces se incrementa por 1 en la etapa repetida b5.1). Por tanto, cuando las etapas b5.1) a b5.3) se repiten por primera vez, el valor umbral de la medida de distancia obtenido en la etapa b4) está sustituido por el valor umbral de la medida de distancia obtenido en la etapa b5.1) y este valor umbral de medida de distancia se incrementa entonces por 1 en la etapa repetida b5.1). Cuando las etapas b5.1) a b5.3) se repiten otra vez más, el valor umbral de la medida de distancia de la última ejecución sustituye el valor umbral de la medida de distancia de la segunda a última ejecución en la etapa repetida b5.1) y el valor umbral de la medida de distancia de la última ejecución se incrementa entonces por 1 en la etapa repetida b5.1).
Preferentemente, la generación de la función de predicción en la población de espectros depurada de la etapa b7) implica el uso de un conjunto de datos de referencia, obtenidos de la determinación del valor de propiedad de interés en cada muestra de la etapa a) en un análisis cuantitativo.
En otra realización, el método según la presente invención comprende además la etapa
a1) determinar los valores de propiedad de interés en cada muestra de la etapa a) en un análisis cuantitativo para dar un conjunto de datos de referencia.
En el contexto de la presente invención, el término análisis cuantitativo se usa en su sentido más amplio conocido por el experto en la técnica, preferentemente en la técnica de química analítica, e indica cualquier método químico y/o físico para la determinación de la presencia absoluta o relativa de uno, varios o todos los parámetros particulares, por ejemplo, la presencia de sustancia(s) específica(s), en una muestra. Por ejemplo, cuando la muestra en cuestión es de un alimento, pienso o material de partida para pienso, el parámetro particular puede ser la presencia absoluta o relativa de uno, varios o todos los aminoácidos de la lista que consiste en metionina, cisteína, cistina, treonina, leucina, arginina, isoleucina, valina, histidina, fenilalanina, tirosina, triptófano, glicina, serina, prolina, alanina, ácido aspártico, ácido glutámico, la cantidad total de lisina, la cantidad reactiva de lisina y la relación entre la cantidad reactiva de lisina y la cantidad total de lisina. El término cantidad reactiva de lisina se usa para indicar la cantidad de lisina, que está en realidad disponible para el animal, en particular para la digestión en el animal. Por comparación, el término cantidad total de lisina se usa para indicar la suma de la cantidad de lisina, que está en realidad disponible para el animal, en particular para la digestión en el animal, y de la cantidad de lisina, que no está disponible para el animal, en particular no para la digestión en el animal. La última cantidad de lisina es normalmente debida a las reacciones de degradación de lisina, tales como la ya mencionada reacción de Maillard.
Se procesan muchos piensos que conducen a posibles daños a los aminoácidos. Esto puede hacer que algunos de los aminoácidos no estén disponibles para su uso en nutrición. Esto es particularmente el caso de la lisina, que tiene
un grupo £-amino que puede reaccionar con el grupo carbonilo de otros compuestos, por ejemplo, azúcares reductores, presentes en la dieta para dar compuestos que pueden ser parcialmente absorbidos por el intestino, pero que no tienen valor nutritivo para el animal. La reacción del grupo £-amino de lisina libre y/o unida a proteína con azúcares reductores durante el tratamiento térmico se conoce como la reacción de Maillard. Esta reacción da productos de Maillard tanto tempranos como tardíos. Los productos de Maillard tempranos son derivados de lisina estructuralmente alterados que se denominan compuestos de Amadori, mientras que los productos de Maillard tardíos se denominan melanoidinas. Las melanoidinas no interfieren con el análisis normal de la lisina y no tienen influencia en los valores de digestibilidad que se calculan. Solo dan como resultado menores concentraciones de lisina que se absorbe. Por lo tanto, las melanoidinas no se identifican normalmente en el análisis de aminoácidos regular. Por comparación, los compuestos de Amadori no interfieren con el análisis de aminoácidos y dan concentraciones de lisina inexactas para la muestra que se analiza. La lisina que se une en estos compuestos se denomina "lisina bloqueada" y no está disponible biológicamente debido a que es resistente a cualquier degradación enzimática gastrointestinal.
El contenido de lisina reactiva en una muestra se puede determinar usando el reactivo de Sanger, es decir, 1-fluoro-2,4-dinitrobenceno (FNDB). Por lo tanto, la lisina determinada por medio de este método también se denomina FDNB-lisina. El reactivo de Sanger convierte la lisina en la dinitrofenil (DNP)-lisina amarilla, que se puede extraer y medir espectrofotométricamente a una longitud de onda de 435 nm o por cromatografía de líquidos de alta resolución.
Alternativamente, el contenido de lisina reactiva en una muestra también se puede determinar con la reacción de guanidinación usando el reactivo suave O-metilisourea. En este método, la O-metilisourea solo reacciona con el grupo £-amino de la lisina, pero no reacciona con el grupo a-amino de la lisina. Por lo tanto, la reacción de guanidinación se puede usar para determinar lisina libre y lisina unida a péptido. Por lo tanto, se da preferencia a la reacción de guanidinación para la determinación de la lisina reactiva. La reacción de guanidinación de lisina da una homoarginina, que se derivatiza adicionalmente con ninhidrina y el cambio resultante en la absorción se puede medir a longitud de onda de 570 nm. Posteriormente, la muestra derivatizada se hidroliza dando otra vez la homoarginina. La determinación de lisina reactiva también se puede hacer por medio de la reacción de guanidinación de la lisina unidad a proteína no dañada en un medio alcalino para dar homoarginina. En este tipo de reacción, la guanidinación se efectúa normalmente mediante la acción de O-metilisourea (OMIU).
Puesto que es un método más fácil de usar, se da preferencia a usar la reacción de guanidinación para la determinación de lisina reactiva. La reacción de guanidinación implica la incubación de una muestra de un material de partida para pienso y/o pienso en O-metilisourea. Preferentemente, la relación entre O-metilisourea y lisina es superior a 1000. La muestra así tratada obtenida de la etapa i) se seca y analiza para homoarginina, preferentemente usando cromatografía líquida de alta resolución con intercambio iónico. Posteriormente, dicha muestra se derivatiza con ninhidrina y la absorbancia de la muestra derivatizada se mide a una longitud de onda de 570 nm. Después, dicha muestra se somete a una hidrólisis.
Se determinan el peso y la cantidad molar de homoarginina en la muestra. Finalmente, la cantidad reactiva de lisina se calcula a partir de la cantidad molar de homoarginina.
Sin embargo, no solo la lisina se somete a daños por calor en el procesamiento de materiales de partida para pienso y/o piensos, sino también otros aminoácidos. Según el método de la presente invención, los aminoácidos metionina, cisteína, cistina, treonina, leucina, arginina, isoleucina, valina, histidina, fenilalanina, tirosina, triptófano, glicina, serina, prolina, alanina, ácido aspártico y ácido glutámico se analizan cuantitativamente en una muestra de un material de partida para pienso y/o pienso. Hasta un cierto grado, los aminoácidos no solo están presentes como compuestos individuales, sino también como oligopéptidos, por ejemplo, dipéptidos, tripéptido o péptidos superiores, formados en una reacción de equilibrio de dos, tres o incluso más aminoácidos. El grupo amino de un aminoácido es normalmente demasiado débil como nucleófilo para reaccionar directamente con el grupo carboxilo de otro aminoácido o está presente en forma protonada (-NH3+). Por lo tanto, el equilibrio de esta reacción está normalmente en el lado izquierdo en condiciones normales. A pesar de depender de los aminoácidos individuales y la condición de una disolución de muestra, algunos de los aminoácidos a determinar pueden no estar presentes como compuestos individuales, sino a un cierto grado como oligopéptidos, por ejemplo, dipéptido, tripéptido o péptido superior, formados de dos, tres o incluso más aminoácidos. Por lo tanto, la muestra de un material de partida para pienso y/o pienso se debe someter a un tratamiento de hidrólisis, preferentemente una hidrólisis ácida o básica, usando, por ejemplo, ácido clorhídrico o hidróxido de bario. Para facilitar la separación de los aminoácidos libres y/o la identificación y determinación de los aminoácidos, los aminoácidos libres se derivatizan con un reactivo cromogénico, si fuera necesario. El experto en la técnica conoce reactivos cromogénicos adecuados. Posteriormente, los aminoácidos libres o los aminoácidos libres derivatizados someten a una separación cromatográfica, en la que los diferentes aminoácidos se separan entre sí debido a los diferentes tiempos de retención debido a los diferentes grupos funcionales de los aminoácidos individuales. El experto en la técnica conoce columnas de cromatografía adecuadas, por ejemplo, columnas de intercambio iónico o columnas de fase inversa, y adecuados disolventes eluyentes para la separación cromatográfica de aminoácidos. Los aminoácidos separados se determinan finalmente en los eluatos de la etapa de cromatografía comparando con un patrón calibrado, preparado para el análisis. Normalmente, los aminoácidos, que eluyen de la columna de cromatografía, se detectan con un
detector adecuado, por ejemplo, con un detector de conductividad, un detector específico de masa o un detector de fluorescencia o un detector de UV/VIS dependiendo de cuándo los aminoácidos se derivatizaron con un reactivo cromogénico. Esto da un cromatograma con áreas de los picos y alturas de los picos para los aminoácidos individuales. La determinación de los aminoácidos individuales se realiza comparando las áreas de los picos y las de alturas los picos con un patrón calibrado o una curva de calibración para cada aminoácido. Puesto que la cistina (HO2C(-H2N)CH-CH2-S-S-CH2-CH(NH2)-CO2H) y la cisteína (HS-CH2-CH(NH2)-CO2H) se determinan ambas como ácido cistéico (HO3S-CH2-CH(NH2)-CO2H) después de la hidrólisis ácida, el análisis cuantitativo no hay ninguna distinción entre los dos aminoácidos debido al hecho de que cisteína es muy susceptible a la oxidación.
El procedimiento descrito anteriormente se usa en general para el análisis cuantitativo de la cantidad total de lisina, que se requiere para la determinación de la relación entre la cantidad reactiva de lisina y la cantidad total de lisina, y para el análisis cuantitativo de al menos un aminoácido seleccionado del grupo que consiste en metionina, cisteína, cistina, treonina, leucina, arginina, isoleucina, valina, histidina, fenilalanina, tirosina, triptófano, glicina, serina, prolina, alanina, ácido aspártico y ácido glutámico.
El punto más crítico en el análisis cuantitativo de aminoácidos es la preparación de muestras, que se diferencia con respecto al tipo de ingredientes y los aminoácidos de mayor interés. La mayoría de los aminoácidos se pueden hidrolizar por una hidrólisis en ácido clorhídrico (6 mol/l) durante una duración de hasta 24 horas. Para los aminoácidos que contienen azufre metionina, cisteína y cistina, la hidrólisis va precedida de una oxidación, preferentemente con ácido perfórmico. Para el análisis cuantitativo de triptófano, la hidrólisis se realiza con hidróxido de bario (1,5 mol/l) durante 20 horas.
Cuando la muestra en cuestión es de un alimento, pienso o material de partida para pienso, el parámetro particular también puede ser uno, varios o todos de la lista que consiste en actividad del inhibidor de tripsina, actividad de ureasa, solubilidad de proteínas en álcali e índice de dispersabilidad de proteínas de la muestra.
El análisis cuantitativo de la actividad del inhibidor de tripsina se basa en la capacidad de los inhibidores para formar un complejo con la enzima tripsina y así reducir su actividad. La tripsina cataliza la hidrólisis de los sustratos sintéticos W-alfa-benzoil-D,L-arginina-p-nitroanilida (DL-BAPNa , nombre IUPAC N-[5-(diaminometilidenamino)-1 -(4-nitroanilino)-1 -oxopentan-2-il]bencilamida) y N-alfa-benzoil-L-arginina-p-nitroanilida (L-BAPNA, nombre IUPAC N-[5-(diaminometilidenamino)-1-(4-nitroanilino)-1-oxopentan-2-il]bencilamida). Esta hidrólisis catalizada libera el producto de color amarillo p-nitroanilina libre y, por lo tanto, conduce a un cambio en la absorbancia. La actividad de tripsina es proporcional al color amarillo. La concentración de p-nitroanilina se puede determinar por medio de espectroscopía a una longitud de onda de 410 nm. L-BAPNA se usa normalmente en el método ISO 14902 (2001) y DL-BApNa se usa normalmente en el método AACC 22.40-01 (una modificación del método originalmente inventado por Hamerstrand en 1981).
En el método ISO 14902, la muestra se tritura finamente en primer lugar con un tamiz de 0,50 mm. Durante la trituración se debe evitar cualquier evolución de calor. La muestra triturada se mezcla con disolución alcalina acuosa, por ejemplo, 1 g de muestra en 50 ml de disolución de hidróxido sódico (0,01 N), y la disolución, suspensión, dispersión o emulsión así obtenida se almacena entonces durante un periodo de hasta aprox. 24 horas a una temperatura de 4 °C como máximo. La mezcla así obtenida tiene un pH de desde 9 hasta 10, especialmente de desde 9,4 hasta 9,6. La disolución resultante se diluye con agua y se deja reposar. Se toma una muestra de esta disolución, por ejemplo 1 ml, y se diluye como se indica por su contenido supuesto o previamente aproximado de la actividad del inhibidor de tripsina, de manera que 1 ml de disolución diluida cause una inhibición del 40 al 60 % de la reacción enzimática. Se añade disolución de trabajo de tripsina, por ejemplo, 1 ml, a una mezcla de L-BAPNA, agua y la disolución del extracto de muestra diluida, por ejemplo, 5 ml de L-BAPNA, 2 ml de agua (destilada) y 1 ml de la disolución del extracto de muestra apropiadamente diluida. Entonces se incuban las muestras durante exactamente 10 minutos a 37 °C. La reacción se detiene mediante la adición de 1 ml de ácido acético (30 %). Se prepara una muestra de blanco como antes, pero la tripsina se añade después del ácido acético. Después de la centrifugación a 2,5 g, se mide la absorbancia a una longitud de onda de 410 nm.
En el método AACC 22-40.01, la muestra se tritura finamente en primer lugar con un tamiz de 0,15 mm. Durante la trituración se debe evitar cualquier evolución de calor. La muestra triturada se mezcla con disolución alcalina acuosa, por ejemplo, 1 g de muestra en 50 ml de disolución de hidróxido sódico (0,01 N), y se agita lentamente durante 3 horas a 20 °C. El pH de disolución, suspensión, dispersión o emulsión así obtenida debe estar entre 8 y 11, preferentemente entre 8,4 y 10. La disolución, suspensión, dispersión o emulsión resultante se diluye con agua, se agita y se deja reposar. Se toma una muestra de esta disolución, por ejemplo 1 ml, y se diluye como se indica por su por su contenido supuesto o previamente aproximado de la actividad del inhibidor de tripsina, de manera que 1 ml de disolución diluida cause una inhibición del 40 al 60 % de la reacción enzimática. Se añade disolución de trabajo de tripsina, por ejemplo, 2 ml, a una mezcla de D,L-BAPNA, agua y la disolución del extracto de muestra diluida, por ejemplo, 5 ml de D,L-BAPNA, 1 ml de agua (destilada) y 1 ml de la disolución del extracto de muestra apropiadamente diluida. Entonces se incuban las muestras durante exactamente 10 minutos a 37 °C. La reacción se detiene mediante la adición de 1 ml de ácido acético (30 %). Se prepara una muestra de blanco como antes, pero la tripsina se añade después del ácido acético. Después de la centrifugación a 2,5 g, se mide la absorbancia a una longitud de onda de 410 nm.
Independientemente del método usado, la actividad del inhibidor de tripsina se calcula como mg de inhibidor de tripsina por g de tripsina, con la siguiente fórmula:
i = inhibición en porcentaje (%);
Ar = absorbancia de la disolución con patrón;
Abr = absorbancia del blanco con patrón;
As = absorbancia de la disolución con muestra;
Abs = absorbancia del blanco con muestra;
TIA = actividad del inhibidor de tripsina (mg/g);
i = inhibición en porcentaje (%);
m0 = masa de la muestra de prueba (g);
m1 = masa de tripsina (g);
f1 = factor de dilución del extracto de muestra; y
f2 = factor de conversión basado en la pureza de tripsina.
Una unidad de tripsina se define como la cantidad de enzima que aumentará la absorbancia a 410 nm en 0,01 unidades después de 10 minutos de reacción por cada 1 ml de volumen de reacción. La actividad del inhibidor de tripsina se define como el número de unidades de tripsina inhibidas (TUI). Las TUI por ml se calculan usando la fórmula
donde
Ablanco = absorbancia del blanco
Amuestra = absorbancia de la muestra
Vmuestra dil. = volumen de disolución de muestra diluida en ml.
Los TUI así obtenidos se representan frente a los volúmenes de la disolución de muestra diluida, donde el valor extrapolado del volumen de inhibidor a 0 ml da las TUI finales [ml]. Finalmente, las TUI por g de muestra se calcula con la fórmula
donde d = factor de dilución (volumen final dividido entre la cantidad tomada).
Los resultados de este método analítico no deben superar el 10 % del valor promedio para muestras repetidas.
La enzima ureasa cataliza la degradación de urea en amoniaco y dióxido de carbono. Puesto que la ureasa ocurre naturalmente en sojas, el análisis cuantitativo de esta enzima es la prueba más común para evaluar la calidad de sojas procesadas. Preferentemente, el análisis cuantitativo de ureasa se hace según el método de IS05506 (1988) o AOCS Ba 9-58. El método de AOCS Ba 9-58 determina la actividad residual de ureasa como un indicador indirecto para evaluar si los inhibidores de la proteasa se han destruido en el procesamiento de un material de partida para pienso y/o pienso. Dicha actividad residual de ureasa se mide como un aumento en el valor de pH en la prueba como consecuencia de la liberación del compuesto alcalino amoniaco en el medio. El nivel recomendado para dicho aumento del valor de pH es un aumento de 0,01 a 0,35 unidades (NOPA, 1997). Un análisis cuantitativo típico de la actividad de ureasa de un material de partida para pienso y/o pienso se hace de la siguiente manera: en primer lugar, se prepara una disolución de urea en un tampón que comprende NaH2PO4 y KH2PO4, por ejemplo, se añaden 30 g de urea a 1 I de una disolución de tampón compuesta de 4,45 g de Na2HPO4 y 3,4 g de KH2PO4 y se mide el valor de pH así obtenido. Posteriormente, se añade una muestra de un material de partida para pienso y/o pienso, por ejemplo 0,2 g de una muestra de soja, a esta disolución. Se pone un tubo de ensayo o vaso de precipitados con la disolución, suspensión, dispersión o emulsión así obtenida en un baño de agua, por ejemplo, a una temperatura de 30 /- 5 °C, preferentemente 30 °C, durante 20 a 40 minutos, preferentemente 30 minutos. Finalmente, se mide el valor de pH de esta disolución, suspensión, dispersión o emulsión, se compara con el valor de pH de la disolución de urea original y la diferencia se facilita como aumento en el pH.
La solubilidad de proteínas en álcali, en lo sucesivo también denominada la solubilidad de proteínas en una disolución alcalina o la solubilidad alcalina de proteínas en, es un método eficaz para distinguir productos excesivamente procesados de productos correctamente procesados, por ejemplo, según DIN EN IS014244.
La solubilidad de proteínas en álcali o la solubilidad alcalina de proteínas comprende la determinación del porcentaje de proteína que se solubiliza en una disolución de álcali. Antes de la solubilización de la muestra de un peso conocido del material de partida para pienso y/o pienso, se determina el contenido de nitrógeno de una muestra con un peso específico usando un método convencional para la determinación del nitrógeno, tal como el método de Kjeldahl o Dumas. El contenido de nitrógeno así determinado se refiere al contenido de nitrógeno en total. Después, una muestra del mismo peso y de la misma fuente se suspende en una disolución alcalina de una concentración definida, preferentemente en una disolución de hidróxido alcalino, en particular en una disolución de hidróxido potásico. Se toma una alícuota de la suspensión así obtenida y se centrifuga. Nuevamente, se toma una alícuota de la suspensión así obtenida. El contenido de nitrógeno en esta fracción líquida se determina usando un método convencional para la determinación del nitrógeno, tal como el método de Kjeldahl o Dumas. El contenido de nitrógeno así determinado se compara con el contenido de nitrógeno en total y se expresa como el porcentaje del contenido de nitrógeno original de la muestra.
Una disolución alcalina típica para la determinación de la solubilidad alcalina de proteínas tiene un valor de pH de 12,5, por ejemplo, y una disolución de hidróxido potásico con una concentración de 0,036 mol/l o 0,2 % en peso. En la etapa ii), se disponen 1,5 g de una muestra de soja, por ejemplo, en 75 ml de una disolución de hidróxido potásico, seguido de agitación a 8500 rpm (rondas por minuto) durante 20 minutos a 20 °C. Posteriormente, se toma una alícuota, por ejemplo, aproximadamente 50 ml, de la suspensión, disolución, dispersión o emulsión así obtenida y se centrifuga inmediatamente a 2500 g durante 15 min. Después, se toma una alícuota, por ejemplo 10 ml, del sobrenadante de la suspensión, disolución, dispersión o emulsión así obtenida y se determina el contenido de nitrógeno en dicha alícuota por medio de métodos convencionales para la determinación del nitrógeno, tal como el método de Kjeldahl o Dumas. Finalmente, los resultados se expresan como el porcentaje del contenido de nitrógeno de la muestra.
La determinación del índice de dispersabilidad de proteínas (PDI) mide la solubilidad de proteínas en agua después de combinar una muestra con agua. Este método también implica la determinación del contenido de nitrógeno en una muestra de peso conocido, que normalmente se hace según el mismo procedimiento que en el análisis químico en húmedo de proteínas. El contenido de nitrógeno así obtenido también se denomina el contenido de nitrógeno total. Además, el método también comprende la preparación de una suspensión de una muestra del mismo peso que en la determinación del contenido de nitrógeno y se suspende en agua, que normalmente se hace usando una mezcladora de alta velocidad. La suspensión así obtenida se filtra y el filtrado se somete a centrifugación. El contenido de nitrógeno en el sobrenadante así obtenido se determina usando nuevamente un método convencional para la determinación, tal como el método de Kjeldahl o Dumas, descrito anteriormente. El contenido de nitrógeno así obtenido también se denomina el contenido de nitrógeno en disolución. El índice de dispersabilidad de proteínas se calcula finalmente como la relación entre el contenido de nitrógeno en disolución y el contenido de nitrógeno total y se expresa como el porcentaje del contenido de nitrógeno original de la muestra.
Puesto que los valores para el índice de dispersabilidad de proteínas aumentan al disminuir el tamaño de partículas, los resultados obtenidos en la determinación del índice de dispersabilidad de proteínas dependen del tamaño de partículas de la muestra. Por lo tanto, se prefiere triturar la muestra que se va a someter a la determinación del índice de dispersabilidad de proteínas, en particular con un tamaño de 1 mm de malla.
El procedimiento descrito anteriormente es según el Método oficial Ba 10-65 de la Sociedad Estadounidense de Químicos del Petróleo (A.O.C.S.), según el cual se realiza preferentemente la determinación del índice de dispersabilidad de proteínas. El contenido de nitrógeno de, por ejemplo, una muestra de soja se determina por medio de métodos convencionales para la determinación de nitrógeno, tales como el método de Kjeldahl o Dumas. Se dispone una alícuota, por ejemplo 20 g, de la muestra de soja en una mezcladora, y se añaden agua (desionizada), por ejemplo, 300 ml, a 25 °C, seguido por agitación, por ejemplo, a 8500 rpm durante 10 minutos. La suspensión, disolución, dispersión o emulsión así obtenida se filtra y la disolución, dispersión o emulsión así obtenida se centrifuga, por ejemplo, a 1000 g durante 10 minutos. Finalmente, el contenido de nitrógeno en el sobrenadante se determina por medio de métodos convencionales para la determinación del nitrógeno, tales como el método de Kjeldahl o Dumas.
El conjunto de datos de referencia obtenido de la etapa a1) se usa para averiguar la correlación de datos con la población de espectros depurada de la etapa b1) para la generación de la función de predicción en la etapa c). En el caso de presencia absoluta o relativa de una, varias o todas la(s) sustancia(s) en cuestión en la muestra, la correlación de datos se refiere a la concentración de la(s) sustancia(s) en cuestión en la muestra.
En una realización preferida del método según la presente invención, la generación de la función de predicción en la etapa c) comprende analizar el conjunto de datos de referencia de la etapa a1) y la población de espectros depurada de la etapa b7) para correlación de datos para dar la función de predicción.
La calidad de predicción lograda con el método según la presente invención se puede mejorar sometiendo la función de predicción generada en la etapa c) a validación.
En una realización adicional del método según la presente invención, la generación de la función de predicción en la etapa c) comprende una validación de dicha función de predicción.
En principio, el método según la presente invención no está sujeto a ninguna limitación referente al tipo de validación. Por lo tanto, se puede usar cualquier procedimiento de validación adecuado en el método según la presente invención. A pesar de esto, en el contexto de la presente invención se prefiere usar una validación cruzada de retención, una validación k-fold y/o una validación contra datos de la prueba del anillo. La última opción es una validación contra espectros externos y datos de referencia externos correspondientes. Esta opción tiene la ventaja de que la población de calibración no solo es evaluada con respecto a su rendimiento en el espectrómetro maestro, es decir, el espectrómetro usado para la creación de la función de predicción. Más bien, esta opción también permite evaluar el rendimiento de la población de calibración con respecto a una red con una multitud de otros espectrómetros, por ejemplo, cientos de ellos, que también usan la función de calibración. Por lo tanto, se da preferencia al uso de una validación contra datos de la prueba del anillo.
En una realización preferida del método según la presente invención, la validación es una validación cruzada de retención, una validación k-fold y/o una validación contra datos de la prueba del anillo.
En el contexto de la presente invención, los términos validación cruzada de retención, validación k-fold y validación contra datos de la prueba del anillo se usan como son conocidos por el experto en la técnica.
Por ejemplo, cuando la validación es una validación cruzada de retención, la etapa c) del método según la presente invención comprende además las etapas de
cV1) dividir los datos de referencia de la etapa a1) y la población de espectros depurada de la etapa b7) en un juego de entrenamiento S0 y un juego de prueba S1, en donde el tamaño del juego de prueba S1 es más pequeño que el tamaño del juego de entrenamiento S0,
cV2) generar una función de predicción preliminar en el juego de entrenamiento S0 de la etapa cV1), cV3) predecir un valor de propiedad de interés aplicando la función de predicción preliminar de la etapa cV2) en la población de espectros depurada,
cV4) calcular el error de predicción medio de la función preliminar de la etapa cV2) con el valor predicho de propiedades de la etapa cV3) y los datos de referencia correspondientes de la etapa cV1),
cV5) repetir las etapas cV1) a cV5), cuando el error de predicción medio de la función de predicción preliminar está fuera de un límite, o continuar con la etapa cV6), cuando el error de predicción medio de la función de predicción preliminar está dentro de un límite,
y
cV6) aprobar la función de predicción preliminar de la etapa cV2) como función de predicción.
Por ejemplo, cuando la validación es una validación k-fold cruzada, la etapa c) del método según la presente invención comprende además las etapas de
cV1) dividir el conjunto de población de espectros depurada de la etapa b7) y los datos de referencia correspondientes de la etapa a1) en n subconjuntos de igual tamaño, siendo n un número entero con un mínimo de al menos 2 y un máximo inferior al número de espectros, en donde uno de los subconjuntos se toma como juego de prueba y los restantes subconjuntos se toman como juegos de entrenamiento,
cV2) generar una función de predicción preliminar en un juego de entrenamiento de la etapa cV1),
cV3) predecir un valor de propiedad de interés aplicando la función de predicción preliminar de la etapa cV2) en la población de espectros depurada,
cV4) calcular el error de predicción medio de la función de predicción preliminar con el valor predicho de propiedades de la etapa cV3) y los datos de referencia correspondientes de la etapa cV1),
cV5) repetir las etapas cV1) a cV5), cuando el error de predicción medio de la función de predicción preliminar está fuera de un límite, o continuar con la etapa cV6), cuando el error de predicción medio de la función de predicción preliminar está dentro de un límite,
cV6) aprobar la función de predicción preliminar de la etapa cV2) como función de predicción y realizar las etapas cV2) a cV6) k-veces, con cada uno de los n subconjuntos usado una vez como un juego de prueba para dar k funciones de predicción,
y
cV7) promediar los parámetros de cada una de las funciones de predicción aprobadas de la etapa cV6) para dar una función de calibración.
Por ejemplo, cuando la validación es una validación contra datos de la prueba del anillo, la etapa c) del método según la presente invención comprende además las etapas de
cV1) proporcionar un conjunto de espectros de referencia externos y datos de referencia correspondientes,
cV2) generar una función de predicción preliminar en la población de espectros depurada de la etapa b7) y los datos de referencia de la etapa a1),
cV3) predecir un valor de propiedad de interés aplicando la función de predicción preliminar de la etapa cV2) en los espectros de referencia externos de la etapa cV1),
cV4) calcular el error de predicción medio de la función de predicción preliminar de la etapa cV2) con el valor predicho de propiedades de la etapa cV3) y los datos de referencia externos correspondientes de la etapa cV1), cV5) repetir las etapas cV1) a cV5), cuando el error de predicción medio de la función de predicción preliminar está fuera de un límite, o continuar con la etapa cV6), cuando el error de predicción medio de la función de predicción preliminar está dentro de un límite,
y
cV6) aprobar la función de predicción preliminar de la etapa cV2) como función de predicción.
Dependiendo del tipo de validación, el error de predicción medio también se denomina error cuadrático medio de validación cruzada (RMSECV), cuando la validación es una validación interna, en particular una validación cruzada, y se calcula por medio de la fórmula
en donde
M número de valores de propiedad predichos,
medido
y¿ valor de propiedad medido
predicho
Vi valor de propiedad predicho.
En general, la validación de la función de predicción obtenida por el método según la presente invención o en cualquiera de sus realizaciones ya da una función de predicción muy fiable y útil. A pesar de eso, en casos raros puede ser adecuado evaluar adicionalmente la función de predicción generada en el método según la presente invención o en cualquiera de sus realizaciones. Un enfoque útil es representar los valores de propiedad predichos para la población de espectros depurada de la etapa b7), y la función de predicción de la etapa c) como una línea de regresión en un diagrama de medido frente a predicho para dar un diagrama de dispersión. 0pcionalmente, los valores de propiedad de los datos de referencia de la etapa a1) también se representan en dicho diagrama. Entonces, se representa una bisectriz del ángulo en el diagrama de dispersión así obtenido para dividir el plano de dicho diagrama en dos planos triangulares de igual tamaño. En teoría, la función de predicción representada y la bisectriz del ángulo serían congruentes si la función de predicción fuera perfecta. Sin embargo, en la práctica, esto es rara vez el caso. A continuación, se determinan las distancias de cada valor de propiedad predicho a la bisectriz del ángulo en el diagrama de dispersión, y se forma una clasificación global de dichas distancias, con las distancias más altas en la parte suprior de la clasificación. Los espectros correspondientes a las al menos tres distancias mejor clasificadas, es decir, valores de propiedad predichos, se eliminan de la población de espectros depurada de la etapa b7). Entonces, la función de predicción de la etapa c) se revisa para compensar la eliminación de los espectros. Este enfoque permite un ajuste fino adicional de la función de predicción. El resultado de este ajuste fino puede ser fácilmente seguido cuando el enfoque se repita escalonadamente: cada repetición acerca la función de predicción a la bisectriz del ángulo.
En otra realización preferida del método según la presente invención, la etapa c) comprende además las etapas de
c1) representar los valores de propiedad predichos para la población de espectros depurada de la etapa b7), y la función de predicción de la etapa c) como una línea de regresión en un diagrama de medido frente a predicho para dar un diagrama de dispersión,
c2) representar una bisectriz del ángulo entre los ejes del diagrama de la etapa c1),
c3) determinar las distancias de cada valor de propiedad predicho de la etapa c1) con respecto a la bisectriz del ángulo en el diagrama de dispersión de la etapa c2),
c4) formar una clasificación global de las distancias obtenidas en la etapa c3), con las mayores distancias a la cabeza de la clasificación, y eliminar los espectros correspondientes a las al menos tres distancias mejor clasificadas de la población de espectros depurada de la etapa b7), y
c5) revisar la función de predicción de la etapa c) para compensar la eliminación de espectros en la etapa c4).
En el contexto de la presente invención, el término revisar la función de predicción se usa para indicar la generación de una nueva función de predicción en la población de espectros depurada resultante de la eliminación adicional de espectros en la etapa c4) anterior.
Puede ser que en algunos casos dos o más espectros correspondientes a las distancias mejor clasificadas, que se van a eliminar de la población de espectros depurada de la etapa b7), estén en (estrecha) vecindad en el diagrama de dispersión. Sin embargo, la eliminación de dos o más espectros en (estrecha) vecindad puede influir excesivamente en la pendiente de la función de predicción revisada. En el peor de los casos, la pendiente de la función de predicción se afecta sustancialmente, por ejemplo, revisar la función de predicción conduce a una mayor o menor pendiente que antes.
Este efecto se puede evitar o al menos reducir significativamente por una ponderación de los dos o más espectros correspondientes a las distancias mejor clasificadas, que se van a eliminar de la población de espectros depurada de la etapa b7), cuando están en (estrecha) vecindad en el diagrama de dispersión. Para este fin, en primer lugar, se representa una línea vertical a través de la bisectriz del ángulo en la mitad de la longitud de dicha bisectriz del ángulo, de manera que los planos por encima y por debajo de la bisectriz del ángulo se dividen en dos planos cada uno, en donde los planos respectivos reflejados en la bisectriz del ángulo son de igual tamaño. En general, se forman cuatro planos dividiendo el plano entre los ejes del diagrama de dispersión con la bisectriz del ángulo y la línea vertical representada a través de la bisectriz del ángulo en la mitad de su longitud: dos triángulos de igual tamaño y dos cuadrados de igual tamaño, cada uno con un triángulo y un cuadrado por encima y por debajo de la bisectriz del ángulo. A continuación, los dos o más espectros correspondientes a las distancias mejor clasificadas, que se van eliminar de la población de espectros depurada de la etapa b7), se ponderan por un factor de 0,5, cuando están presentes en el mismo plano dado por la bisectriz del ángulo y la línea vertical.
En otra realización preferida, el proceso según la presente invención comprende, por lo tanto, además que
- en la etapa c2) se representa una línea vertical a través de la bisectriz del ángulo en la mitad de la longitud de dicha la bisectriz del ángulo, para dividir el plano entre los ejes del diagrama de dispersión en cuatro planos, y - en la etapa c4) los espectros correspondientes a al menos dos distancias mejor clasificadas se ponderan por un factor de 0,5, cuando están presentes en el mismo plano.
En principio, el enfoque descrito anteriormente se puede realizar hasta que la función de predicción y la bisectriz del ángulo sean congruentes. En la práctica, se repetiría el procedimiento de las etapas c1) a c5) hasta que no exista mejora adicional en la convergencia de la función de predicción con respecto a la bisectriz del ángulo, o en otras palabras hasta que el diagrama de la función de predicción revisada así obtenida como una línea de regresión esté tan próximo como sea posible a la bisectriz del ángulo.
En una realización preferida adicional, el proceso según la presente invención comprende además la etapa de c6) repetir las etapas c1) a c5) con la función de predicción revisada y la población de espectros depurada obtenida de una revisión precedente hasta que el diagrama de la función de predicción revisada así obtenida como una línea de regresión esté tan próximo como sea posible a la bisectriz del ángulo.
Como una alternativa o además del procedimiento de las etapas c1) a c5) con o sin c6), también es posible mejorar además la calidad de la función de predicción de la etapa c) por medio de un intervalo de confianza. Esto comprende, en primer lugar, representar los valores de propiedad predichos para la población de espectros depurada de la etapa b7), y la función de predicción de la etapa c) como una línea de regresión en un diagrama de medido frente a predicho para dar un diagrama de dispersión. A continuación, al igual que en el procedimiento descrito anteriormente, se representa una bisectriz del ángulo entre los dos ejes del diagrama de dispersión, y se representa un intervalo de confianza con una anchura predeterminada alrededor de la bisectriz del ángulo. Posteriormente, los espectros correspondientes a los puntos fuera del intervalo de confianza se eliminan de la población de espectros depurada de la etapa b7) y la función de predicción de la etapa c) se somete a una revisión para compensar la eliminación de los espectros. En el contexto de la presente invención, el intervalo de confianza tiene una anchura de 5 x RMSECV a -5 x RMSECV, preferentemente de 4 x RMSECV ato -4 x RMSECV, 3 x RMSECV a -3 x RMSECV, 2 x RMSECV a -2 x RMSECV, 1 x RMSECV a -1 x RMSECV o una anchura de número real positivo al número real negativo correspondiente entre 5 x RMSECV y -5 x RMSECV, alrededor del valor respectivo de la bisectriz del ángulo, en donde RMSECV es el error cuadrático medio de la validación cruzada como se ha definido anteriormente.
En una realización adicional, el método según la presente invención comprende además las etapas de
c7) representar los valores de propiedad predichos para la población de espectros depurada de la etapa b7), y la función de predicción de la etapa c) como una línea de regresión en un diagrama de medido frente a predicho para dar un diagrama de dispersión,
c8) representar una bisectriz del ángulo entre los dos ejes del diagrama de la etapa c7),
c9) representar un intervalo de confianza con una anchura predeterminada alrededor de la bisectriz del ángulo en el diagrama de la etapa c8),
c10) eliminar los espectros correspondientes a los puntos fuera del intervalo de confianza en el diagrama de la etapa c9) de la población de espectros depurada de la etapa b7), y
c11) revisar la función de predicción de la etapa c) para compensar la retirada de espectros en la etapa c10).
En el contexto de la presente invención, el término revisar la función de predicción se usa para indicar la generación de una nueva función de predicción en la población de espectros depurada resultante de la eliminación adicional de espectros en la etapa c10) anterior.
Nuevamente, puede ser que en algunos casos dos o más espectros correspondientes a las distancias mejor clasificadas, que se van a eliminar de la población de espectros depurada de la etapa b7), estén en (estrecha) vecindad en el diagrama de dispersión. Sin embargo, la eliminación de dos o más espectros en (estrecha) vecindad puede influir excesivamente en la pendiente de la función de predicción revisada. En el peor de los casos, la pendiente de la función de predicción se afecta sustancialmente, por ejemplo, revisar la función de predicción conduce a una mayor o menor pendiente que antes.
Este efecto se puede evitar o al menos reducir significativamente por una ponderación de los dos o más espectros correspondientes a las distancias mejor clasificadas, que se van a eliminar de la población de espectros depurada de la etapa b7), cuando están en (estrecha) vecindad en el diagrama de dispersión. Para este fin, en primer lugar, se representa una línea vertical a través de la bisectriz del ángulo en la mitad de la longitud de dicha bisectriz del ángulo, de manera que los planos por encima y por debajo de la bisectriz del ángulo se dividen en dos planos cada uno, en donde los planos respectivos reflejados en la bisectriz del ángulo son de igual tamaño. En general, se forman cuatro planos dividiendo el plano entre los ejes del diagrama de dispersión con la bisectriz del ángulo y la línea vertical representada a través de la bisectriz del ángulo en la mitad de su longitud: dos triángulos de igual tamaño y dos cuadrados de igual tamaño, cada uno con un triángulo y un cuadrado por encima y por debajo de la bisectriz del ángulo. A continuación, los dos o más espectros correspondientes a las distancias mejor clasificadas, que se van eliminar de la población de espectros depurada de la etapa b7), se ponderan por un factor de 0,5, cuando están presentes en el mismo plano dado por la bisectriz del ángulo y la línea vertical.
En otra realización preferida, el proceso según la presente invención comprende, por lo tanto, además que
- en la etapa c8) se representa una línea vertical a través de la bisectriz del ángulo en la mitad de la longitud de dicha la bisectriz del ángulo, para dividir el plano entre los ejes del diagrama de dispersión en cuatro planos, y - en la etapa c10) los espectros correspondientes a al menos dos distancias mejor clasificadas se ponderan por un factor de 0,5, cuando están presentes en el mismo plano.
En principio, el enfoque descrito anteriormente se puede realizar hasta que la función de predicción y la bisectriz del ángulo sean congruentes. En la práctica, se repetiría el procedimiento de las etapas c7) a c11) hasta que no exista mejora adicional en la convergencia de la función de predicción con respecto a la bisectriz del ángulo, o en otras palabras hasta que el diagrama de la función de predicción revisada así obtenida como una línea de regresión esté tan próximo como sea posible a la bisectriz del ángulo.
En una realización preferida adicional, el proceso según la presente invención comprende además la etapa de c12) repetir las etapas c7) a c11) con la función de predicción revisada y la población de espectros depurada obtenida de una revisión precedente hasta que el diagrama de la función de predicción revisada así obtenida como una línea de regresión esté tan próximo como sea posible a la bisectriz del ángulo.
Puede ser beneficioso someter los espectros de la etapa a) a un preprocesamiento de datos para facilitar el posterior análisis de los espectros.
En otra realización, el método según la presente invención comprende además, antes de la etapa b), la etapa de a3) someter los espectros de infrarrojos de la etapa a) un preprocesamiento de datos, en donde dicho preprocesamiento de datos es uno o más seleccionados del grupo que consiste en suavizado, corrección de dispersión multiplicativa, transformación de la variable normal estándar, eliminación de tendencias, obtención de la derivada de un espectro y normalización directa continua a trozos.
Inherente a la recogida de espectros tomados con el tiempo hay alguna forma de variación aleatoria o ruido. El llamado suavizado es un método adecuado para eliminar el ruido y exponer mejor la señal de los procesos causales subyacentes. En el contexto de la presente invención, el suavizado es preferiblemente un suavizado promedio móvil, un suavizado polinómico con un filtro de Savitzky-Golay y/o un suavizado polinómico de relación señal/ruido ampliada.
El cálculo de un promedio móvil implica la creación de una nueva serie donde los valores comprenden el promedio de las observaciones en bruto de la serie de tiempo original. Un promedio móvil requiere especificar un tamaño de ventana denominado anchura de ventana. Esto define el número de observaciones brutas usadas para calcular el valor promedio móvil. La parte "móvil" del promedio móvil se refiere al hecho de que la ventana definida por la anchura de ventana se desliza a lo largo de la serie de tiempo para calcular los valores promedio de la nueva serie. Un filtro de Savitzky-Golay es un filtro digital que puede aplicarse a un conjunto de puntos de datos digitales con el fin de suavizar los datos, es decir, para aumentar la precisión de los datos sin distorsionar la tendencia de la señal. Esto se consigue, en un proceso conocido como convolución, ajustando subconjuntos sucesivos de puntos de datos
adyacentes con un polinomio de bajo grado por el método de mínimos cuadrados lineales. Cuando los puntos de datos están igualmente espaciados, puede encontrarse una solución analítica a las ecuaciones de mínimos cuadrados, en forma de un único conjunto de "coeficientes de convolución" que se pueden aplicar a todos los subconjuntos de datos, para obtener estimaciones de la señal suavizada (o derivadas de la señal suavizada) en el punto central de cada subconjunto.
La eliminación de tendencias es un tipo de corrección basal; se realiza mediante la resta de un ajuste lineal o polinomial de los valores iniciales del espectro original para eliminar la variación inclinada de los valores iniciales, normalmente encontrada en espectros de reflectancia NIR de muestras en polvo.
La variable normal estándar (SNV) es otro método de pretratamiento usado frecuentemente debido a su algoritmo simple y a su eficacia en la corrección de la dispersión. Se usa frecuentemente en espectros donde los cambios en los valores iniciales y en la longitud de la trayectoria causan diferencias entre espectros por lo demás idénticos. La corrección de dispersión multiplicativa (MSC) se realiza haciendo una regresión de un espectro medido frente a un espectro de referencia y corrigiendo a continuación el espectro medido usando la pendiente y la intersección de este ajuste lineal. Este método de pretratamiento ha demostrado ser eficaz en minimizar las desviaciones basales y los efectos multiplicativos. El resultado de MSC, en muchos casos, es muy similar a SNV. Sin embargo, muchos espectroscopistas prefieren SNV a MSC ya que SNV corrige cada espectro individualmente y no necesita el conjunto de datos completo. El método de preprocesamiento de corrección de señal multiplicativa ampliada permite una separación de los efectos físicos de la dispersión de la luz de los efectos químicos de la absorbancia en, por ejemplo, espectros de polvos o disoluciones turbias. El método basado en modelos es particularmente útil en minimizar la variación de la dispersión de la luz en función de la longitud de onda. Después del pretratamiento, los espectros corregidos se vuelven insensibles a las variaciones de dispersión de la luz y responden linealmente a la concentración de analito.
Pueden darse casos donde la posición de un pico de señal en un espectro no pueda localizarse debido a que los máximos y mínimos de los picos individuales no puedan identificarse claramente debido, por ejemplo, a un solapamiento. Es posible localizar más fácilmente los picos individuales en el espectro cuando los mínimos y máximos de los picos son más fáciles de identificar. Tomar la primera derivada de un espectro facilita la identificación de los picos en el espectro debido a un cruce por cero de los máximos o mínimos de picos. Si se toma la segunda derivada, se obtiene un mínimo de pico exactamente en la posición donde había un máximo de pico en el espectro original y viceversa. Tomar la primera o segunda derivada de un espectro también facilita la identificación de un valor atípico en la población de espectros de materiales de partida para pienso y/o piensos conocidos. Por tanto, en el contexto de la presente invención se prefiere tomar la primera y/o la segunda derivada de un espectro.
La normalización directa continua a trozos (CPDS) se usa para explicar la variación en los espectros resultante de factores externos continuos, tales como la temperatura. La primera etapa en los algoritmos PDS y CPDS es construir un modelo PLS entre los espectros, X(tref) que es del orden de m x n, y la matriz de respuesta, Y, para una temperatura específica tref. Según el algoritmo de normalización directa a trozos (PDS), se calcula entonces una matriz que transforma las mediciones espectrales registradas a distintos valores de temperatura en tref:
donde Q(tk) es una matriz de transformación de bandas m x m que se obtiene por regresión lineal de la columna jésima de X(tref) sobre una submatriz tomada de X(tk) (es decir, los espectros en X(tk) correspondientes a una ventana de longitudes de onda de j - w a j + k), usando PLS, donde el tamaño de ventana, 2w 1, viene determinado por el parámetro de ajuste w. A continuación, Q(tk) se forma colocando los vectores de regresión en los bloques correspondientes. Este procedimiento se repite para cada valor de temperatura tk, (k = 1,2, ..., k; tk í tref), y se obtienen K matrices de transformación observando que Q(tk) es una matriz de identidad. Para explicar el efecto de los valores continuos de temperatura, se ajusta una función polinómica frente al diferencial de temperatura Atk, donde Atk = tk - tref, a los elementos distintos de cero de la matriz de bandas Q(tk):
donde qj (tk) es el elemento de Q(tk) para la i-ésima fila y la j-ésima columna. Una vez se han estimado los parámetros de la función polinómica, la matriz de transformación para los espectros medidos a un valor de temperatura no visto, tprueba, en la fase de prueba, se pueden calcular aplicando la fórmula anterior para q¡j(tk). Por tanto, la influencia de la temperatura puede eliminarse transformando la matriz espectral como si se hubiera medido a la temperatura de referencia:
X ( t r e f \ t p r u e b a ) — X ( t p r u e b a ) * Q ^ p r u e b a )
Las respuestas pueden entonces predecirse por el modelo PLS construido bajo la temperatura de referencia.
Preferentemente, los espectros de infrarrojos de la etapa a) se someten a una transformación de variable normal estándar, eliminación de tendencias y tomando la primera derivada de un espectro, preferentemente, en el orden dado.
No solo facilita, sino, lo que es más importante, que también mejora la calidad de predicción de la función de predicción generada por el método según la presente invención cuando solo se consideran las señales, que están en longitudes de onda equidistantes entre sí en un espectro. Este enfoque reduce significativamente el peligro de perder señales de e información relevante en un espectro. Esto es relevante en particular con respecto a series de concentración de mezclas complejas con más de solo un componente activo de infrarrojos, donde las intensidades de señal aumentan significativamente con la concentración de cada componente. Por tanto, las señales de un componente con baja concentración en dicha mezcla compleja pueden estar (parcialmente) superpuestas por las señales de otro componente con mayor concentración. En este caso, la omisión o pérdida de una solo señal en un espectro ya puede dar como resultado una correlación de datos errónea y/o la generación de una función de predicción errónea y, por lo tanto, resultados de predicción equivocados.
Por lo tanto, en una realización adicional del método según la presente invención, las señales con distancias de longitud de onda equidistantes entre sí en un espectro se consideran en la etapa b) y/o c).
En los casos en los que un preprocesamiento de datos conduce a diferencias en la escala de longitudes de onda de un espectro antes y después del preprocesamiento de datos, es beneficioso corregir el espectro en conjunto. Esto es relevante en particular con respecto la posición correcta de longitudes de onda de puntos extremos, es decir, señales con máximo o mínimo relativo de absorción. Por lo tanto, se prefiere someter un espectro con distancias de longitud de onda no equidistantes a un tipo de corrección para conseguir el espectro correcto con distancias de longitud de onda equidistantes. Las correctas longitudes de onda de los puntos extremos, es decir, los puntos de un máximo relativo de absorciones y mínimos relativos de absorciones, son una buena base para corregir un espectro en conjunto. En primer lugar, la posición de los puntos extremos en uno o más espectros se mueve desde las longitudes de onda desplazadas, es decir, no correctas, a las longitudes de onda corregidas, donde se espera que estén las señales respectivas. Por ejemplo, se sabe que las señales específicas de los grupos funcionales de un compuesto se encuentran en longitudes de onda específicas en un espectro de infrarrojos. En la siguiente etapa, se traza un diagrama a través de los puntos extremos en las longitudes de onda corregidas y, cuando corresponda, a través de los otros puntos del espectro, cuyas posiciones no se ven afectadas por los desplazamientos de las longitudes de onda. Esto se puede hacer por interpolación. Sin embargo, puede resultar difícil, o incluso poco factible, trazar solo un único diagrama a través de todos los puntos extremos en un espectro a corregir. Se obtienen mejores resultados cuando se usan varios polinomios para conectar puntos adyacentes de un espectro a corregir, debido a que se combinan suavemente en un único diagrama. Esto se puede hacer por interpolación segmentaria (cúbica). La interpolación segmentaria (cúbica) se puede visualizar como una tira flexible que se dobla para pasar por cada uno de los puntos extremos en el espectro cuya representación gráfica se va a interpolar. Desde un punto de vista matemático, esta tira se puede describir por una serie de polinomios cúbicos, que deben cumplir los requisitos de que i) la interpolación segmentaria así obtenida tiene que pasar por todos los valores de la función, cuando se considera la representación gráfica de un espectro como una función, o una función definida por secciones, ii) las derivadas primera y segunda de los polinomios cúbicos son continuas, y iii) la curvatura se fuerza a cero en los puntos extremos del intervalo en el espectro. Una vez se conocen las longitudes de onda corregidas de los puntos extremos, los polinomios cúbicos pueden calcularse fácilmente por medio de cualquier programa matemático adecuado disponible en el mercado. Por lo tanto, otra ventaja de la interpolación segmentaria (cúbica) es que requiere poca capacidad de cálculo. Por lo tanto, la interpolación segmentaria o la interpolación segmentaria cúbica son muy útiles para interpolar datos en un espectro a nuevas longitudes de onda y para generar números reales en el espectro corregido.
En otra realización más, el método según la presente invención comprende además, antes de la etapa b), la etapa de
a3) someter un espectro con distancias de longitud de onda no equidistantes a una interpolación segmentaria cúbica para proporcionar un espectro con distancias de longitud de onda equidistantes.
Preferentemente, la etapa a3) se realiza después de la etapa a2) y antes de la etapa b).
El método según la presente invención no está sujeto a ninguna limitación referente al número de funciones de predicción a generar. Si se proporciona un número específico de diferentes poblaciones de espectros en la etapa a), se generará el número correspondiente de funciones de predicción para cada población. Alternativamente, si la población de espectros de infrarrojos de la etapa a) comprende espectros de infrarrojos de diferentes clases de muestras, el método según la presente invención generará la función de predicción correspondiente para cada una de estas clases de muestras.
En el método según la presente invención, un espectro de infrarrojos de una muestra de origen y/o composición desconocida o del mismo origen y/o composición que una muestra en la etapa a) se proporciona en la etapa d) y entonces se predice un valor de propiedad de interés de dicho espectro por medio de la función de predicción de la etapa c) para la muestra del espectro de la etapa d). Para este fin, se necesita la selección de la función de
predicción adecuada que se ajusta al espectro de la muestra en cuestión. En principio, la función de predicción se podría seleccionar basándose en la información disponible para la muestra cuyo espectro de infrarrojos se proporciona en la etapa d), por ejemplo, la información facilitada en una bolsa de comida, pienso etc. Sin embargo, esta información podría ser incorrecta y así conducir a la selección de la función de predicción equivocada, o el usuario del método podría seleccionar una función de predicción según su propio criterio, que sin embargo pueden ser la función de predicción equivocada con respecto al espectro de la muestra en cuestión.
Por lo tanto, se prefiere que el método según la presente invención seleccione la función de predicción que se ajuste lo más suficientemente al espectro de infrarrojos de la muestra en cuestión. Un enfoque adecuado es identificar la similitud entre el espectro de la muestra proporcionado en la etapa d) y cualquiera de la población de espectros depurada de la etapa b7) o el centroide de dicha población de espectros depurada. La primera etapa de este enfoque incluye transformar las intensidades de absorción de longitudes de onda o números de onda en el espectro de la etapa d) en un vector de consulta y comparar este vector de consulta con una vector de base de datos obtenido de la transformación de las intensidades de absorción de longitudes de onda o números de onda en la población de espectros depurada de la etapa b7) con un conjunto de vectores de base de datos o de la transformación de las intensidades de absorción de longitudes de onda o números de onda del centroide de la población de espectros depurada de la etapa b7) con un vector de base de datos. Se prefiere comparar el vector de consulta con cada vector de base de datos del conjunto de vectores de base de datos. En su significado más amplio, un vector es un objeto geométrico que tiene magnitud (o longitud) y dirección. En un sistema de coordenadas cartesianas, un vector se puede representar identificando las coordenadas de su punto inicial y terminal. Por lo tanto, un vector es apto para representar una intensidad de absorción a una longitud de onda o número de onda específico en un espectro de infrarrojo cercano bidimensional. Además, un vector no se limita a la descripción de un sistema bidimensional. Más bien, un vector puede describir espacios multidimensionales, tales como un espectro de infrarrojo cercano con una multitud de intensidades de absorción a una multitud de diferentes longitudes de onda o números de onda. En este caso, cada dimensión de dicho vector corresponde a una única intensidad de absorción a una longitud de onda o número de onda específico. La siguiente etapa es el cálculo de una medida de similitud y/o una medida de distancia entre el vector de consulta y un vector de base de datos o cada vector de un conjunto de vectores de base de datos y clasificar la medida de similitud así obtenida y/o una medida de distancia con los mejores valores a la cabeza de la clasificación, es decir, la medida de similitud con el valor más alto en la parte superior o la medida de distancia con el valor más bajo en la parte superior. Entonces se selecciona la función de predicción correspondiente a una población de espectros depurada de la que un vector de base de datos tiene la mayor similitud en la etapa d4) para la predicción en la etapa e).
Por lo tanto, preferentemente, la etapa d) del método según la presente invención comprende además las etapas de
d1) transformar las intensidades de absorción de longitudes de onda o números de onda en el espectro de la etapa d) en un vector de consulta,
d2) transformar las intensidades de absorción de longitudes de onda o números de onda en la población de espectros depurada de la etapa b7) en un conjunto de vectores de base de datos o transformar las intensidades de absorción de longitudes de onda o números de onda del centroide de la población de espectros depurada de la etapa b7) en un vector de base de datos,
d3) calcular una medida de similitud y/o una medida de distancia entre el vector de consulta de la etapa d1) y un vector de base de datos de la etapa d2) para dar un valor de similitud para el vector de consulta con el vector de base de datos,
d4) clasificar los valores de similitud obtenidos en la etapa d3) en orden descendente, cuando una medida de similitud se calcula en la etapa d3) o en orden ascendente cuando una medida de distancia se calcula en la etapa d3), en donde en cualquier caso el vector de base de datos mejor clasificado tiene la mayor similitud con el vector de consulta, y
d5) seleccionar la función de predicción correspondiente a una población de espectros depurada de la que un vector de base de datos tiene la mayor similitud en la etapa d4) para la predicción en la etapa e).
Se prefiere transformar intensidades de absorción en longitudes de onda o números de onda equidistantes en el espectro de la etapa d) y en la población de espectros depurada de la etapa b7) y en particular a las mismas longitudes de onda o números de onda equidistantes en el espectro de la etapa d) y en la población de espectros depurada de la etapa b7) en un vector. Esto permite el mejor análisis de similitudes posible. Preferentemente, la distancia entre las longitudes de onda en la etapa d1) y/o d2) del método según la presente invención es del 0,1 /-10 % al 10 /- 10 % nm, del 0,1 /- 10 % al 5 /- 10 % nm, o del 0,1 /-10 % al 2 /- 10 % nm. Por consiguiente, la distancia entre los números de onda en la etapa d1) y/o d2) del método según la presente invención es del 108 /-10 % al 106 10 /- 10 %, del 108 /-10 al 5 * 106 /-10 % nm, o del 108 /- 10 % al 2 * 106 /- 10 % nm. En el contexto de la presente invención, el término /- 10 % se usa con respecto a valores explícitamente mencionados para indicar que desviaciones de dichos valores explícitamente mencionados están todavía dentro del alcance de la presente invención, a condición de que conduzcan esencialmente a los efectos de la presente invención.
El análisis de similitudes en la etapa d3) no está sujeto a ninguna limitación referente al uso de una medida de distancia o similitud específica. En principio, un análisis de similitud es una búsqueda del vecino más cercano. Por tanto, cualquier medida de similitud adecuada para determinar el vecino más cercano al vector de consulta se puede
usar en la etapa d3).
La similitud coseno es un ejemplo de una medida de similitud adecuada para su uso en el contexto de la presente invención. Permite el cálculo de la similitud entre dos vectores con extrema rapidez y al mismo tiempo con una alta precisión. La similitud coseno CA,B entre dos observaciones, es decir, dos vectores de espectros, se puede calcular por medios de la fórmula
en donde Ai y Bi son componentes de los vectores A y B, de los cuales un vector es el vector de consulta y el otro vector es un vector de base de datos, y n es el número de vectores considerados. Los valores de una medida de similitud pueden ir desde -1, que significa exactamente lo contrario, pasando por 0, que indica ortogonalidad (descorrelación), hasta 1, que significa identidad, con valores intermedios que indican similitud o disimilitud intermedia.
La distancia euclídea es un ejemplo de una medida de distancia adecuada para su uso en el contexto de la presente invención. Permite el cálculo de la disimilitud entre dos vectores con extrema rapidez y al mismo tiempo con una alta precisión. Si se desea, la medida de distancia así obtenida puede ser fácilmente calculada en una medida de similitud para su uso en el método según la presente invención. La distancia euclídea Ea,b entre dos observaciones, es decir, dos vectores de espectros, se puede calcular por medio de la fórmula
en donde Ai y Bi son componentes de los vectores A y B, de los cuales un vector es el vector de consulta y el otro vector es un vector de base de datos, y n es el número de vectores considerados. Los valores para una medida de distancia pueden ir desde 1 que significa exactamente lo contrario, pasando por 0, que indica ortogonalidad (descorrelación), hasta -1, que significa identidad, con valores intermedios que indican similitud o disimilitud intermedia.
Otro objeto de la presente invención es un sistema para predecir un valor de propiedad de interés de un material, que comprende una unidad de procesamiento, adaptada para llevar a cabo el método implementado por ordenador para predecir un valor de propiedad de interés de un material según la presente invención y/o cualquier realización de la misma.
La una o más funciones de predicción generadas en el método según la presente invención se almacena/n en la unidad de procesamiento del sistema. Esto permite una comunicación entre el sistema según la presente invención y uno o más espectrómetros de infrarrojos en la misma localización que dicho sistema y/o en una localización diferente.
En una realización del sistema según la presente invención, la unidad de procesamiento forma una red con uno o más espectrómetros de infrarrojos.
Claims (15)
1. Un método implementado por ordenador para predecir un valor de propiedad de interés de un material, que comprende las etapas de
a) proporcionar una población de espectros de infrarrojos de muestras, en donde dichos espectros forman una matriz de m x n datos de entrada X, siendo m el número de muestras en filas y siendo n los puntos de datos en columnas,
b) eliminar los valores atípicos espectrales de la población de espectros de la etapa a), que comprende las etapas de
b1) obtener los componentes principales sometiendo la matriz X a un análisis de componentes principales, b2) producir una matriz diagonal I, que contiene valores singulares Qm de la matriz X, y una matriz de cargas V, de la matriz de entrada de datos X,
b3) calcular una puntuación xm para cada espectro multiplicando cada punto de datos de la matriz de entrada de datos X con las cargas por cada componente de la etapa b2), formando la media de cada columna de la matriz X para proporcionar valores B0,m, y calcular un índice de puntuación si por la fórmula
b4) determinar el número de componentes Nc cuyos valores propios conducen a una convergencia en la regresión de X en las puntuaciones de al menos el 99 %, y calcular un valor umbral de medida de distancia Dí para cada espectro de la etapa a), por la fórmula
b5) calcular la media para todas las puntuaciones de cada componente principal de cada espectro de la etapa a) y calcular la medida de distancia entre dicha media y cada una de las puntuaciones de cada componente principal,
b6) considerar un espectro de muestra como un valor atípico espectral cuando el valor de la medida de distancia para una puntuación de un componente principal obtenido en la etapa b5) es mayor que el valor umbral de la medida de distancia de la etapa b4),
b7) eliminar el valor atípico espectral de la etapa b6) de la población de espectros de la etapa a) para dar una población de espectros depurada,
c) generar una función de predicción en la población de espectros depurada de la etapa b7),
d) proporcionar un espectro de infrarrojos de una muestra de origen y/o composición desconocida o del mismo origen y/o composición que una muestra en la etapa a),
y
e) predecir un valor de propiedad de interés del espectro de la etapa d) por medio de la función de predicción de la etapa c).
2. El método según la reivindicación 1, en donde la medida de distancia es la medida de distancia euclídea, la medida de distancia de Pearson, la medida de distancia de Mahalanobis o una medida de distancia obtenida de una medida de similitud.
3. El método según la reivindicación 1 o 2, en donde la etapa b) comprende además las etapas de
b5.1) aumentar el valor umbral de la medida de distancia obtenido en la etapa b4) por 1,
b5.2) determinar las dos medidas de distancia obtenidas en la etapa b5) con los valores más altos usando el valor umbral de la medida de distancia de la etapa b5.1),
b5.3) determinar la diferencia entre los valores de las medidas de distancia determinadas en la etapa b5.2), y b5.4) repetir las etapas b5.1) a b5.3) con el valor umbral de la medida de distancia de la etapa b5.1) hasta que la diferencia determinada en la etapa b5.3) sea al menos 1, y el valor más alto de una medida de distancia sea 8 como máximo.
4. El método según cualquiera de las reivindicaciones 1 a 3, que comprende además la etapa
a1) determinar los valores de propiedad de interés en cada muestra de la etapa a) en un análisis cuantitativo para dar un conjunto de datos de referencia.
5. El método según la reivindicación 4, en donde la generación de la función de predicción en la etapa c) comprende analizar el conjunto de datos de referencia de la etapa a1) y la población de espectros depurada de la etapa b7) para
correlación de datos para dar la función de predicción.
6. El método según cualquiera de las reivindicaciones 1 a 5, en donde la generación de la función de predicción en la etapa c) comprende una validación de dicha función de predicción.
7. El método según la reivindicación 6, en donde la validación es una validación cruzada de retención, una validación k-fold y/o una validación contra datos de la prueba del anillo.
8. El método según la reivindicación 5 o 6, en donde la etapa c) comprende además las etapas de
c1) representar los valores de propiedad predichos para la población de espectros depurada de la etapa b7), y la función de predicción de la etapa c) como una línea de regresión en un diagrama de medido frente a predicho para dar un diagrama de dispersión,
c2) representar una bisectriz del ángulo entre los ejes del diagrama de la etapa c1),
c3) determinar las distancias de cada valor de propiedad predicho de la etapa c1) con respecto a la bisectriz del ángulo en el diagrama de dispersión de la etapa c2),
c4) formar una clasificación global de las distancias obtenidas en la etapa c3), con las mayores distancias a la cabeza de la clasificación, y eliminar los espectros correspondientes a las al menos tres distancias mejor clasificadas de la población de espectros depurada de la etapa b7), y
c5) revisar la función de predicción de la etapa c) para compensar la eliminación de espectros en la etapa c4).
9. El método según la reivindicación 8, que comprende además la etapa
c6) repetir las etapas c1) a c5) con la función de predicción revisada y la población de espectros depurada obtenida de una revisión precedente hasta que el diagrama de la función de predicción revisada así obtenida como una línea de regresión esté tan próximo como sea posible a la bisectriz del ángulo.
10. El método según cualquiera de las reivindicaciones 5 a 9, que comprende además las etapas de
c7) representar los valores de propiedad predichos para la población de espectros depurada de la etapa b7), y la función de predicción de la etapa c) como una línea de regresión en un diagrama de medido frente a predicho para dar un diagrama de dispersión,
c8) representar una bisectriz del ángulo entre los dos ejes del diagrama de la etapa c7),
c9) representar un intervalo de confianza con una anchura predeterminada alrededor de la bisectriz del ángulo en el diagrama de la etapa c8),
c10) eliminar los espectros correspondientes a los puntos fuera del intervalo de confianza en el diagrama de la etapa c9) de la población de espectros depurada de la etapa b7), y
c11) revisar la función de predicción de la etapa c) para compensar la retirada de espectros en la etapa c10).
11. El método según la reivindicación 10, que comprende además la etapa
c12) repetir las etapas c7) a c11) con la función de predicción revisada y la población de espectros depurada obtenida de una revisión precedente hasta que el diagrama de la función de predicción revisada así obtenida como una línea de regresión esté tan próximo como sea posible a la bisectriz del ángulo.
12. El método según cualquiera de las reivindicaciones 1 a 11, que comprende además, antes de la etapa b), la etapa de
a2) someter los espectros de infrarrojos de la etapa a) a un preprocesamiento de datos, en donde dicho preprocesamiento de datos es uno o más seleccionados del grupo que consiste en suavizado, corrección de dispersión multiplicativa, transformación de la variable normal estándar, eliminación de tendencias, obtención de la derivada de un espectro y normalización directa continua a trozos.
13. El método según cualquiera de las reivindicaciones 1 a 12, que comprende además, antes de la etapa b), la etapa de
a3) someter un espectro con distancias de longitud de onda no equidistantes a una interpolación segmentaria cúbica para proporcionar un espectro con distancias de longitud de onda equidistantes.
14. Un sistema para predecir un valor de propiedad de interés de un material, que comprende una unidad de procesamiento, adaptada para llevar a cabo el método implementado por ordenador para predecir un valor de propiedad de interés de un material según cualquiera de las reivindicaciones 1 a 13.
15. El sistema según la reivindicación 14, en donde la unidad de procesamiento forma una red con uno o más espectrómetros de infrarrojos.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19203750.5A EP3809118B1 (en) | 2019-10-17 | 2019-10-17 | Method of prediction a property value of a material using principal component analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2955072T3 true ES2955072T3 (es) | 2023-11-28 |
Family
ID=68281275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES19203750T Active ES2955072T3 (es) | 2019-10-17 | 2019-10-17 | Método de predicción de un valor de propiedad de un material usando análisis de componentes principales |
Country Status (9)
Country | Link |
---|---|
US (1) | US12055480B2 (es) |
EP (1) | EP3809118B1 (es) |
CN (1) | CN114599957A (es) |
AR (1) | AR120162A1 (es) |
BR (1) | BR112022006800A2 (es) |
DK (1) | DK3809118T3 (es) |
ES (1) | ES2955072T3 (es) |
MX (1) | MX2022004392A (es) |
WO (1) | WO2021073908A1 (es) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220101276A1 (en) * | 2020-09-30 | 2022-03-31 | X Development Llc | Techniques for predicting the spectra of materials using molecular metadata |
CN114993982A (zh) * | 2022-06-02 | 2022-09-02 | 震坤行工业超市(上海)有限公司 | 油液性能参数的计算方法及在线监测润滑油的装置 |
CN115494013B (zh) * | 2022-11-17 | 2023-03-24 | 河北先河环保科技股份有限公司 | 水质异常的检测方法、设备及存储介质 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5568400A (en) * | 1989-09-01 | 1996-10-22 | Stark; Edward W. | Multiplicative signal correction method and apparatus |
US5121337A (en) * | 1990-10-15 | 1992-06-09 | Exxon Research And Engineering Company | Method for correcting spectral data for data due to the spectral measurement process itself and estimating unknown property and/or composition data of a sample using such method |
MY107650A (en) * | 1990-10-12 | 1996-05-30 | Exxon Res & Engineering Company | Method of estimating property and / or composition data of a test sample |
US5360972A (en) * | 1993-08-17 | 1994-11-01 | Western Atlas International, Inc. | Method for improving chemometric estimations of properties of materials |
US5606164A (en) * | 1996-01-16 | 1997-02-25 | Boehringer Mannheim Corporation | Method and apparatus for biological fluid analyte concentration measurement using generalized distance outlier detection |
US5945675A (en) * | 1996-03-18 | 1999-08-31 | Pacific Northwest Research Foundation | Methods of screening for a tumor or tumor progression to the metastatic state |
US5668374A (en) * | 1996-05-07 | 1997-09-16 | Core Laboratories N.V. | Method for stabilizing near-infrared models and determining their applicability |
CA2294242A1 (en) * | 1997-06-27 | 1999-01-07 | Pacific Northwest Research Foundation | Methods of differentiating metastatic and non-metastatic tumors |
US6871169B1 (en) * | 1997-08-14 | 2005-03-22 | Sensys Medical, Inc. | Combinative multivariate calibration that enhances prediction ability through removal of over-modeled regions |
SE512540C2 (sv) * | 1998-06-22 | 2000-04-03 | Umetri Ab | Metod och anordning för kalibrering av indata |
US6087182A (en) * | 1998-08-27 | 2000-07-11 | Abbott Laboratories | Reagentless analysis of biological samples |
AU3496500A (en) * | 1999-02-19 | 2000-09-04 | Fox Chase Cancer Institute | Methods of decomposing complex data |
SE516343C2 (sv) * | 2000-02-22 | 2001-12-17 | Johan Trygg | Metod och anordning för kalibrering av indata |
ATE381011T1 (de) * | 2000-03-31 | 2007-12-15 | Japan Government | Verfahren und vorrichtung zum nachweis von mastitis mittels sichtbarem und/oder nahinfrarot- licht |
US6629041B1 (en) * | 2000-04-14 | 2003-09-30 | Ralf Marbach | Methods to significantly reduce the calibration cost of multichannel measurement instruments |
JP2003535330A (ja) * | 2000-06-02 | 2003-11-25 | メディコメトリクス アンパーツゼルスカブ | 生物試料の分類のための方法及びシステム |
US6549861B1 (en) * | 2000-08-10 | 2003-04-15 | Euro-Celtique, S.A. | Automated system and method for spectroscopic analysis |
US6587575B1 (en) * | 2001-02-09 | 2003-07-01 | The United States Of America As Represented By The Secretary Of Agriculture | Method and system for contaminant detection during food processing |
EP1384073A2 (en) * | 2001-04-23 | 2004-01-28 | Metabometrix Limited | Methods for analysis of spectral data and their applications: osteoporosis |
US20040142496A1 (en) * | 2001-04-23 | 2004-07-22 | Nicholson Jeremy Kirk | Methods for analysis of spectral data and their applications: atherosclerosis/coronary heart disease |
US20050037515A1 (en) * | 2001-04-23 | 2005-02-17 | Nicholson Jeremy Kirk | Methods for analysis of spectral data and their applications osteoporosis |
US6584413B1 (en) * | 2001-06-01 | 2003-06-24 | Sandia Corporation | Apparatus and system for multivariate spectral analysis |
US6675106B1 (en) * | 2001-06-01 | 2004-01-06 | Sandia Corporation | Method of multivariate spectral analysis |
US6687620B1 (en) * | 2001-08-01 | 2004-02-03 | Sandia Corporation | Augmented classical least squares multivariate spectral analysis |
US20040064299A1 (en) * | 2001-08-10 | 2004-04-01 | Howard Mark | Automated system and method for spectroscopic analysis |
US20030087456A1 (en) * | 2001-10-08 | 2003-05-08 | Jones Howland D.T. | Within-sample variance classification of samples |
JP3931638B2 (ja) * | 2001-11-15 | 2007-06-20 | 松下電工株式会社 | 生体成分の定量装置 |
WO2003107270A2 (en) * | 2002-06-14 | 2003-12-24 | Pfizer Limited | Metabolic phenotyping |
US7620674B2 (en) * | 2003-03-07 | 2009-11-17 | Sensys Medical, Inc. | Method and apparatus for enhanced estimation of an analyte property through multiple region transformation |
CA2466792A1 (en) * | 2003-05-16 | 2004-11-16 | Affinium Pharmaceuticals, Inc. | Evaluation of spectra |
US7248370B2 (en) * | 2005-03-07 | 2007-07-24 | Caleb Brett Usa, Inc. | Method to reduce background noise in a spectrum |
US7251037B2 (en) * | 2005-03-07 | 2007-07-31 | Caleb Brett Usa, Inc. | Method to reduce background noise in a spectrum |
US7373256B2 (en) * | 2005-04-19 | 2008-05-13 | Nicholson Jeremy K | Method for the identification of molecules and biomarkers using chemical, biochemical and biological data |
US20080112853A1 (en) * | 2006-08-15 | 2008-05-15 | Hall W Dale | Method and apparatus for analyte measurements in the presence of interferents |
US7783458B2 (en) * | 2007-06-22 | 2010-08-24 | Ricardo Claps | Discrete principal component analysis (DPCA) |
WO2011091280A2 (en) * | 2010-01-22 | 2011-07-28 | University Of Massachusetts | Methods and systems for analyte measurement |
US8359164B2 (en) * | 2010-03-02 | 2013-01-22 | Weiyong Li | Supervised principal component analysis |
US9360421B2 (en) * | 2011-09-01 | 2016-06-07 | Biogen Ma Inc. | Use of nuclear magnetic resonance and near infrared to analyze biological samples |
WO2013043947A1 (en) * | 2011-09-23 | 2013-03-28 | Dow Agrosciences Llc | Chemometrics for near infrared spectral analysis |
EP2824443A1 (fr) * | 2013-07-12 | 2015-01-14 | Topnir Systems SAS | Procédé de transfert entre spectromètres |
CN105300923B (zh) * | 2015-11-19 | 2018-02-13 | 江南大学 | 一种近红外光谱分析仪在线应用时无测点温度补偿模型修正方法 |
DE102016009636B4 (de) * | 2016-08-10 | 2018-07-12 | Qfood Gmbh | Verfahren zum Überprüfen der Übereinstimmung einer Bierprobe mit einem Referenzbier |
CN110545725A (zh) * | 2017-04-18 | 2019-12-06 | 兴和株式会社 | 计算血液的吸收光谱的信息处理方法、信息处理装置和程序 |
-
2019
- 2019-10-17 ES ES19203750T patent/ES2955072T3/es active Active
- 2019-10-17 EP EP19203750.5A patent/EP3809118B1/en active Active
- 2019-10-17 DK DK19203750.5T patent/DK3809118T3/da active
-
2020
- 2020-10-05 BR BR112022006800A patent/BR112022006800A2/pt unknown
- 2020-10-05 AR ARP200102762A patent/AR120162A1/es unknown
- 2020-10-05 US US17/768,431 patent/US12055480B2/en active Active
- 2020-10-05 MX MX2022004392A patent/MX2022004392A/es unknown
- 2020-10-05 WO PCT/EP2020/077769 patent/WO2021073908A1/en active Application Filing
- 2020-10-05 CN CN202080072592.1A patent/CN114599957A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
BR112022006800A2 (pt) | 2022-06-28 |
MX2022004392A (es) | 2022-05-06 |
EP3809118A1 (en) | 2021-04-21 |
DK3809118T3 (da) | 2023-09-18 |
AR120162A1 (es) | 2022-02-02 |
EP3809118B1 (en) | 2023-06-21 |
US12055480B2 (en) | 2024-08-06 |
WO2021073908A1 (en) | 2021-04-22 |
US20230194415A1 (en) | 2023-06-22 |
CN114599957A (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2955072T3 (es) | Método de predicción de un valor de propiedad de un material usando análisis de componentes principales | |
Asaari et al. | Close-range hyperspectral image analysis for the early detection of stress responses in individual plants in a high-throughput phenotyping platform | |
Yuan et al. | Detection of anthracnose in tea plants based on hyperspectral imaging | |
Mahesh et al. | Feasibility of near-infrared hyperspectral imaging to differentiate Canadian wheat classes | |
Bauriegel et al. | Early detection of Fusarium infection in wheat using hyper-spectral imaging | |
Munera et al. | Potential of VIS-NIR hyperspectral imaging and chemometric methods to identify similar cultivars of nectarine | |
Hang et al. | Prediction of protein and amino acid contents in whole and ground lentils using near-infrared reflectance spectroscopy | |
Galindo-Luján et al. | Classification of quinoa varieties based on protein fingerprinting by capillary electrophoresis with ultraviolet absorption diode array detection and advanced chemometrics | |
Berman et al. | Classification of sound and stained wheat grains using visible and near infrared hyperspectral image analysis | |
Kong et al. | Hyperspectral imaging coupled with CNN: A powerful approach for quantitative identification of feather meal and fish by-product meal adulterated in marine fishmeal | |
Munera et al. | Discrimination of astringent and deastringed hard ‘Rojo Brillante’persimmon fruit using a sensory threshold by means of hyperspectral imaging | |
WO2018146295A1 (en) | Method for the determination of processing influences on the nutritional value of feedstuff raw materials | |
Cruz-Tirado et al. | Prediction of protein and lipid content in black soldier fly (Hermetia illucens L.) larvae flour using portable NIR spectrometers and chemometrics | |
Gomes et al. | Determination of sugar content in whole Port Wine grape berries combining hyperspectral imaging with neural networks methodologies | |
Xu et al. | Fourier transform infrared spectroscopy and chemometrics for the discrimination of animal fur types | |
Barbin et al. | Influence of plant densities and fertilization on maize grains by near-infrared spectroscopy | |
Xie et al. | Different algorithms for detection of malondialdehyde content in eggplant leaves stressed by grey mold based on hyperspectral imaging technique | |
da Silva et al. | Near infrared spectroscopy to rapid assess the rubber tree clone and the influence of maturation and disease at the leaves | |
Saleem et al. | Determination of adulteration of chicken meat into minced beef mixtures using front face fluorescence spectroscopy coupled with chemometric | |
Vicens-Sans et al. | Near infrared hyperspectral imaging as a sorting tool for deoxynivalenol reduction in wheat batches | |
Hang | Genome-wide association study of seed protein and amino acid contents in cultivated lentils as determined by near-infrared reflectance spectroscopy | |
CN110546499B (zh) | 确定对饲料原料营养价值的加工影响的方法 | |
Dong et al. | Rapid classification of corn varieties by using near infrared spectroscopy | |
Li et al. | Leaf-based species classification of hybrid cherry tomato plants by using hyperspectral imaging | |
Xu et al. | Enhanced specificity for detection of frauds by fusion of multi-class and one-class partial least squares discriminant analysis: geographical origins of Chinese shiitake mushroom |