ES2947765T3 - Procedimiento y aparato para procesar grabaciones de sonido de un paciente - Google Patents
Procedimiento y aparato para procesar grabaciones de sonido de un paciente Download PDFInfo
- Publication number
- ES2947765T3 ES2947765T3 ES13768257T ES13768257T ES2947765T3 ES 2947765 T3 ES2947765 T3 ES 2947765T3 ES 13768257 T ES13768257 T ES 13768257T ES 13768257 T ES13768257 T ES 13768257T ES 2947765 T3 ES2947765 T3 ES 2947765T3
- Authority
- ES
- Spain
- Prior art keywords
- cough
- sounds
- pneumonia
- procedure
- pneumonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 197
- 238000012545 processing Methods 0.000 title claims abstract description 17
- 206010011224 Cough Diseases 0.000 claims abstract description 488
- 238000003745 diagnosis Methods 0.000 claims abstract description 41
- 201000010099 disease Diseases 0.000 claims abstract description 36
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 36
- 206010035664 Pneumonia Diseases 0.000 claims description 142
- 238000012549 training Methods 0.000 claims description 55
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 21
- 238000007477 logistic regression Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 208000006673 asthma Diseases 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 14
- 206010006451 bronchitis Diseases 0.000 claims description 12
- 206010047924 Wheezing Diseases 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 9
- 208000037656 Respiratory Sounds Diseases 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 201000009240 nasopharyngitis Diseases 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 4
- 208000019622 heart disease Diseases 0.000 claims description 4
- 201000004792 malaria Diseases 0.000 claims description 4
- 229910052760 oxygen Inorganic materials 0.000 claims description 4
- 239000001301 oxygen Substances 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 206010060786 Laryngomalacia Diseases 0.000 claims description 2
- 238000013519 translation Methods 0.000 abstract description 2
- 230000035945 sensitivity Effects 0.000 description 56
- 238000004422 calculation algorithm Methods 0.000 description 28
- 238000013461 design Methods 0.000 description 25
- 238000012360 testing method Methods 0.000 description 24
- 238000010200 validation analysis Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 22
- 239000011159 matrix material Substances 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 206010011469 Crying Diseases 0.000 description 16
- 101000608734 Helianthus annuus 11 kDa late embryogenesis abundant protein Proteins 0.000 description 15
- 230000011218 segmentation Effects 0.000 description 15
- 206010037660 Pyrexia Diseases 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 13
- 208000024891 symptom Diseases 0.000 description 13
- 208000017574 dry cough Diseases 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 12
- 230000000241 respiratory effect Effects 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 208000023504 respiratory system disease Diseases 0.000 description 9
- 238000010333 wet classification Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 206010006448 Bronchiolitis Diseases 0.000 description 6
- 206010041235 Snoring Diseases 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000003759 clinical diagnosis Methods 0.000 description 6
- 230000034994 death Effects 0.000 description 6
- 231100000517 death Toxicity 0.000 description 6
- 238000010332 dry classification Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000007717 exclusion Effects 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 206010036790 Productive cough Diseases 0.000 description 5
- 238000003064 k means clustering Methods 0.000 description 5
- 210000004072 lung Anatomy 0.000 description 5
- 210000002345 respiratory system Anatomy 0.000 description 5
- 208000024794 sputum Diseases 0.000 description 5
- 210000003802 sputum Anatomy 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 206010043089 tachypnoea Diseases 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 201000005702 Pertussis Diseases 0.000 description 4
- 230000001154 acute effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000002405 diagnostic procedure Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 208000015181 infectious disease Diseases 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 210000003097 mucus Anatomy 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 208000008203 tachypnea Diseases 0.000 description 4
- 208000035473 Communicable disease Diseases 0.000 description 3
- 208000036071 Rhinorrhea Diseases 0.000 description 3
- 206010039101 Rhinorrhoea Diseases 0.000 description 3
- 239000003242 anti bacterial agent Substances 0.000 description 3
- 229940088710 antibiotic agent Drugs 0.000 description 3
- 238000002555 auscultation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011976 chest X-ray Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 208000001797 obstructive sleep apnea Diseases 0.000 description 3
- 230000036387 respiratory rate Effects 0.000 description 3
- 230000028327 secretion Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 206010012735 Diarrhoea Diseases 0.000 description 2
- 206010024971 Lower respiratory tract infections Diseases 0.000 description 2
- 206010033546 Pallor Diseases 0.000 description 2
- 206010038687 Respiratory distress Diseases 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000001684 chronic effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001343 mnemonic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 208000026425 severe pneumonia Diseases 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 229960005486 vaccine Drugs 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000002747 voluntary effect Effects 0.000 description 2
- 206010007559 Cardiac failure congestive Diseases 0.000 description 1
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 206010010904 Convulsion Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 206010018762 Grunting Diseases 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010021113 Hypothermia Diseases 0.000 description 1
- 206010021143 Hypoxia Diseases 0.000 description 1
- 208000032754 Infant Death Diseases 0.000 description 1
- 206010024264 Lethargy Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 208000002720 Malnutrition Diseases 0.000 description 1
- 206010052319 Nasal flaring Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 206010062519 Poor quality sleep Diseases 0.000 description 1
- 206010037423 Pulmonary oedema Diseases 0.000 description 1
- 241000375392 Tana Species 0.000 description 1
- 206010066901 Treatment failure Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000004596 appetite loss Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000010876 biochemical test Methods 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000003123 bronchiole Anatomy 0.000 description 1
- 238000013276 bronchoscopy Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 208000023819 chronic asthma Diseases 0.000 description 1
- 208000013116 chronic cough Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000012864 cross contamination Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008260 defense mechanism Effects 0.000 description 1
- 238000012774 diagnostic algorithm Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000002631 hypothermal effect Effects 0.000 description 1
- 230000036044 hypoxaemia Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000004969 inflammatory cell Anatomy 0.000 description 1
- 238000011221 initial treatment Methods 0.000 description 1
- 230000003434 inspiratory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012729 kappa analysis Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 208000019017 loss of appetite Diseases 0.000 description 1
- 235000021266 loss of appetite Nutrition 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 230000001071 malnutrition Effects 0.000 description 1
- 235000000824 malnutrition Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000001989 nasopharynx Anatomy 0.000 description 1
- 208000015380 nutritional deficiency disease Diseases 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000002496 oximetry Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 208000005333 pulmonary edema Diseases 0.000 description 1
- 208000005069 pulmonary fibrosis Diseases 0.000 description 1
- 210000003019 respiratory muscle Anatomy 0.000 description 1
- 102220279244 rs1555053901 Human genes 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 210000005070 sphincter Anatomy 0.000 description 1
- 230000001954 sterilising effect Effects 0.000 description 1
- 238000004659 sterilization and disinfection Methods 0.000 description 1
- 210000005176 supraglottis Anatomy 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000012285 ultrasound imaging Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B7/00—Instruments for auscultation
- A61B7/003—Detecting lung or respiration noise
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/08—Measuring devices for evaluating the respiratory organs
- A61B5/0823—Detecting or evaluating cough events
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/08—Measuring devices for evaluating the respiratory organs
- A61B5/0803—Recording apparatus specially adapted therefor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/74—Details of notification to user or communication with user or patient ; user input means
- A61B5/742—Details of notification to user or communication with user or patient ; user input means using visual displays
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B7/00—Instruments for auscultation
- A61B7/02—Stethoscopes
- A61B7/04—Electric stethoscopes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Molecular Biology (AREA)
- Veterinary Medicine (AREA)
- Heart & Thoracic Surgery (AREA)
- Pathology (AREA)
- Pulmonology (AREA)
- Biophysics (AREA)
- Acoustics & Sound (AREA)
- Epidemiology (AREA)
- Physiology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Surgical Instruments (AREA)
Abstract
Un método de operar un dispositivo computacional para procesar sonidos de pacientes, el método comprende los pasos de: extraer características de segmentos de dichos sonidos de pacientes; y clasificar los segmentos como tosidos o no tosidos basándose en las características extraídas y criterios predeterminados; y presentar un diagnóstico de un estado relacionado con la enfermedad en una pantalla bajo el control del dispositivo computacional basado en segmentos de los sonidos del paciente clasificados como sonidos de tos. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Procedimiento y aparato para procesar grabaciones de sonido de un paciente
Campo técnico
La presente invención se refiere a un procedimiento y dispositivo para procesar sonidos de tos de un paciente. En particular, la presente invención se refiere a un procedimiento y dispositivo para diagnosticar neumonía por sonidos de la tos del paciente.
Técnica anterior
Cualquier referencia a procedimientos, aparatos o documentos de la técnica anterior no debe tomarse como que constituyen cualquier evidencia o admisión de que formaron, o forman parte del conocimiento general común.
La tos es un mecanismo de defensa del cuerpo para despejar el tracto respiratorio de materiales extraños que se inhalan accidentalmente o producidos internamente por infecciones [1]. Es un síntoma común en una gama de enfermedades respiratorias, tales como asma y tos de convulsiva (tos ferina), así como neumonía, que es la principal causa de muerte en niños con hasta 5 años de edad. Se ha estimado [2] que la neumonía causa más de 1,6 millones de muertes en este grupo por año, con más del 97 % [3] de los casos que aparecen en el mundo en desarrollo. La organización mundial de la salud (OMS) también informó que, en esos países, la tos ferina ha llegado a una de las principales morbilidades infantiles con un estimado de 50 millones de casos y 300.000 muertes cada año [4].
Aunque la tos es común en las enfermedades respiratorias y se considera un síntoma clínico de importancia, no hay un estándar dorado para evaluarla. En una sesión de consulta típica, los médicos pueden escuchar varios episodios de tos natural o voluntaria, para obtener información cualitativa tal como la “ humedad” de la tos. Dicha información cualitativa es extremadamente útil en el diagnóstico, así como el tratamiento de enfermedades respiratorias. Sin embargo, el análisis manual sufre de parcialidad del operador y conduce a resultados subjetivos.
Durante las sesiones de consulta lo0s médicos también pueden buscar información cuantitativa sobre la tos, tal como la frecuencia de aparición de eventos de tos durante un intervalo de tiempo dado. Esta información puede usarse para determinar la naturaleza (por ejemplo, aguda, crónica) y la gravedad de la tos, así como para controlar la eficacia del tratamiento. Sin embargo, para obtener esta información, los médicos dependen en gran medida de informes subjetivos de pacientes o sus cuidadores. Existe una gran necesidad de un dispositivo automatizado capaz de contar el número de toses, especialmente en enfermedades infantiles. Más importante aún, se necesita tecnología capaz de extraer automáticamente eventos de tos de grabaciones pediátricas largas con el fin de facilitar el diagnóstico de enfermedades tales como neumonía, tos ferina y asma.
Se han tomado varios enfoques para desarrollar sistemas automatizados de recuento de tos (p. ej., Hull Automatic Cough Counter (HACC) [5], Leicester Cough Monitor (LCM) [6], LifeShirt [7], VitaloJAK [8], y PulmoTrack [9]). Los desempeños de estos dispositivos son variados. El HACC reivindicó una sensibilidad y especificidad de (80 %, 96 %) [5]. Los números para LifeShirt, Pulmotrack, LCM, y Vitalojak son (78 %, 99 %), (94 %, 96 %), (85,7 %, 99,9 %), y (97,5 %, 97,7 %) respectivamente [6, 10-13]. Se basaron en técnicas dependientes de la intensidad del sonido, haciéndolos susceptibles a variaciones en las condiciones de registro y los instrumentos particulares utilizados. Según el mejor conocimiento de los inventores, ninguno de estos dispositivos comerciales se ha probado en poblaciones pediátricas.
Otros enfoques para detectar automáticamente la tos o diagnosticar automáticamente estados de enfermedad a partir de grabaciones de audio de pacientes son:
1. Publicación de patente de EE. UU. n.° 2011/125044 (Rhee Hyekyn [US] y col.) 26 de mayo de 2011. Este documento se refiere principalmente a la detección de sibilancias para pacientes con asma.
2. Hiew Y H y col. “ DSP algorithm for cough identification and counting” 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, Proceedings (ICASSP), Orlando, FL, Mayo 13-17, 2002; [IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)], New York, n Y: IEEE, US, 13 Mayo 2002 (2002 05-13), pags. IV-3888, XP032015691, DOI: 10.1109/ICASSP.2002.5745506, ISBN: 978-0-7803-7402-7. Este documento informa un estudio sobre el recuento de toses en sujetos con asma. Describe la identificación de características de “ sibilancias” en la tos y la usa para contar la tos principalmente monitorizando la amplitud de las grabaciones de sonido del paciente.
3. Publicación de patente US-2008/082018 A1 (Sackner Marvin A [US] y col.) 3 de abril de 2008. Este documento describe dos procedimientos para la detección de eventos de tos. Uno utiliza un umbral en el Flujo Expiratorio de Pico (PEF - Peak Expiratory Flow) que se calculó usando instrumentos de contacto con el cuerpo. Otro procedimiento usa el filtrado paso banda y la medición de la duración en el dominio del tiempo para detectar eventos de tos de candidatos. A continuación se determina un valor de tono para el evento de tos del candidato usando la determinación del
coeficiente cepstral de frecuencia de Mel y el evento se considera una tos si cae dentro de un intervalo de valores característicos predeterminados.
4. Publicación de patente japonesa JP 2003038460 (Mitsubishi Pharma Corp; Toray Industries) 12 de febrero de 2003. Este documento describe enfoques de clasificación de tos que parecen estar basados en duración de tiempo, posición de presión de sonido máxima y valores de curtosis.
5. Publicación de patente US-2012/071777 A1 (MacAuslan) 22 de marzo de 2012. Este documento describe varias técnicas de detección y análisis de tos generalmente basadas en la morfología de la tos, incluyendo a veces operaciones de procesamiento de imágenes tales como erosión y dilatación y el uso de lógica difusa.
6. Publicación de WIPO n.° WO 2008/152433 (BIORICS NV y col.) 18 de diciembre de 2008. Este documento describe la detección de sonidos de tos calculando la transformada de Hilbert de la energía de la señal de sonido del paciente. Se describe un análisis de autorregresión para el reconocimiento de la tos, pero se indica (líneas 27-30 página 14) que dicho enfoque no puede considerarse fiable.
7. Publicación de Patente de EE. UU. n° 2011/208521 (MCCLAIN MATTHEW) 25 de agosto de 2011. Este documento describe un procedimiento, sistema y aparato para preprocesar una señal de voz o audio para discriminar entre sonidos de voz sin idioma, de los cuales la tos es un ejemplo, y los sonidos de idioma. La solución descrita utiliza un modelo oculto de Markov que es entrenado utilizando diversos conjuntos de características extraídas de la señal de voz o audio. Un conjunto mínimo preferido de características comprende coeficientes cepstrales, confianza de tono, varianza cepstral y estadio cepstral. El documento no se refiere a la presentación de un diagnóstico de un estado relacionado con la enfermedad a partir de los sonidos de voz sin idioma que se identifican.
La grabación de tos en niños, especialmente los más jóvenes, plantea varios desafíos adicionales. Los niños más jóvenes no pueden producir tos voluntaria cuando se les pide. Cualquier procedimiento dirigido a poblaciones pediátricas debe ser capaz de usar la tos natural grabada durante un período de interés. En las grabaciones pediátricas, el llanto, la vocalización y los gruñidos se encuentran abundantemente, se entremezclan con los sonidos de la tos. Por consiguiente, es poco probable que la tecnología desarrollada para adultos sea óptima para su uso en niños. Otro problema en el registro de tos de niños es la variación de la intensidad del sonido de la tos. Enfermedades tales como neumonía pediátrica grave pueden disminuir drásticamente la amplitud de un sonido de tos. Incluso en personas sanas, los sonidos de la tos pueden tener un amplio intervalo dinámico, que cubren la tos más alta hasta el apenas audible. Esta condición puede hacer que las técnicas basadas en intensidad no sean fiables para el uso enj campo. El desempeño también dependerá de un equipo de captura de sonido particular, estado de calibración y protocolos de medición utilizados.
Los dispositivos de recuento de tos comerciales existentes tales como LifeShirt, Vitalojak y Pulmotrack emplean sensores de contacto. Aunque el uso de sensores de contacto puede tener algunas ventajas, también llevan varios inconvenientes. La musculatura interviniente restringe gravemente el ancho de banda de la tos registrada usando sensores de contacto; sistemas libres en el aire son inmunes a esto. Los sensores de contacto, en comparación con los micrófonos sin contacto (libres en el aire) son robustos contra el sonido de fondo propagado a través del aire. Sin embargo, son más vulnerables al sonido realizado a través del tejido y los huesos; sonidos por frotamiento espurios debido al movimiento del sensor también pueden ser un problema. En enfermedades infecciosas, se necesitan esfuerzos elaborados para evitar la contaminación cruzada de pacientes a través de la instrumentación de contacto. Además, en sujetos pediátricos, los sensores de contacto también pueden ser difíciles de conectar debido a la incomodidad del paciente.
Los sonidos de la tos llevan información críticamente útil sobre el estado de las vías respiratorias. Sin embargo, los dispositivos existentes usan el procedimiento que puede detectar solo la presencia de eventos (“ Detección de Tos” ) pero no pueden extraer automáticamente eventos de tos (“Segmentación de Tos” ) para un análisis adicional. Por lo tanto, se limitan al recuento de tos. La segmentación de la tos, además de las capacidades de detección de tos, el conocimiento sobre el comienzo exacto así como el final de cada evento de tos. Se sabe que los espacios entre toses, las duraciones de la tos y la amplitud de la tos pueden llevar información relacionada con las enfermedades respiratorias [14].
Una enfermedad cuyos síntomas incluyen tos es la neumonía. La neumonía es la principal asesina de niños pequeños en todo el mundo. Representa más del 19 % de las muertes de niños de menos de 5 años cada año. Es una enfermedad de la pobreza y está fuertemente relacionada con la desnutrición y las malas instalaciones de salud. Como resultado, las muertes por neumonía en la infancia son críticamente elevadas en los países en desarrollo. La neumonía es también un problema entre las personas envejecidas en todo el mundo.
La neumonía se define como una infección en los pulmones con acumulación de células y secreciones inflamatorias en los alveolos. Los síntomas comunes de la neumonía incluyen tos, dificultad para respirar, fiebre, dolores de cabeza, pérdida de apetito, goteo nasal y sibilancias. En casos de neumonía grave, los bebés jóvenes luchan para respirar y pueden sufrir convulsiones, palidez de la piel, inconsciencia, hipotermia y letargo.
La neumonía es una enfermedad difícil de diagnosticar. Los procedimientos actuales de diagnóstico incluyen examen clínico (por ejemplo, señales físicas, auscultación del tórax), pruebas bioquímicas (por ejemplo, análisis de esputo, saturación de oxígeno) e imágenes médicas (por ejemplo, rayos X de tórax y en algunos casos CT o rayos X).
¿Cuáles son los problemas con el procedimiento de diagnóstico actual?
Los rayos X del tórax (CXR) se consideran un estándar de referencia comúnmente disponible para diagnosticar neumonía. Sin embargo, no es una norma dorada. En las etapas tempranas de la enfermedad, o cuando la enfermedad implica una parte del pulmón que no se observa fácilmente en CXR, la neumonía puede ser difícil de diagnosticar usando CXR solamente. Además, a veces los resultados de CXR pueden ser incorrectos debido a la cicatrización pulmonar o la insuficiencia cardíaca congestiva, que puede imitar la neumonía en CXR. Incluso aunque el CT de rayos X puede proporcionar mejores resultados, no están ampliamente disponibles incluso en hospitales de cuidado terciario en países en desarrollo. Las pruebas de esputo requieren cultivos de laboratorio y pueden tomar un mínimo de 2-3 días haciéndolos demasiado lentos para el diagnóstico inicial. Una prueba de esputo positiva no indica necesariamente la presencia de neumonía porque muchos de los patógenos que causan neumonía están presentes naturalmente en las gargantas de las personas sanas. Por lo tanto, la prueba de esputo se realiza principalmente para comprobar la sensibilidad de un antibiótico particular que ya se ha iniciado en un paciente. El examen clínico junto con la auscultación del tórax a través de estetoscopios es el enfoque frontal usado en el diagnóstico inicial de neumonía en una configuración clínica; Rayos X pueden usarse para confirmar un diagnóstico cuando está disponible.
Ninguno de los procedimientos descritos anteriormente está disponible para el despliegue en masa en regiones remotas del mundo donde la neumonía es rampante. Los recursos intensivos son costosos, y requieren profesionales médicos capacitados para realizarlos.
Para superar este problema, la Organización Mundial de la Salud (OMS) ha desarrollado un conjunto de directrices altamente simplificadas [ref. 3] para diagnosticar la neumonía en la infancia en áreas deficientes en recursos y remotas del mundo. Según esto, un niño que presenta una respiración o tos difíciles se diagnostica con neumonía si tienen taquipnea (respiración rápida). La respiración rápida se define como 60 respiraciones o más en bebés menos de 2 meses, 50 respiraciones o más por minuto para los lactantes entre 2 meses y 12 meses y 40 respiraciones o más por minuto para niños de entre 12 meses y 5 años de edad [ref 3, 4]. La retracción costal, la palidez de la piel y la inconsciencia de la piel pueden indicar neumonía grave y también pertenecen a los Signos de Peligro de la OMS. Este sistema es más fácil de implementar en el campo y está diseñado para tener una alta sensibilidad del diagnóstico (aproximadamente 90 % de pacientes con la enfermedad se recogen). Sin embargo, las directrices de la OMS sufren una mala especificidad de diagnóstico; un gran número de pacientes sin neumonía también se recogen como una neumonía. Se sabe que la especificidad del algoritmo de la OMS es de aproximadamente el 20 %.
Aunque las directrices de la OMS han ayudado a reducir la tasa de mortalidad hasta 1,6 millones de muertes de infantes por año, se mantienen varios problemas con el procedimiento. Debido a su baja especificidad [ref.6], un gran número de niños no neumónicos están recibiendo antibióticos innecesariamente. Esto ha dado lugar a fracasos de tratamiento que surgen de la resistencia a los antibióticos comunitarios. En muchas regiones donde la neumonía es endémica, enfermedades tales como la malaria también son comunes. Tanto la neumonía como la malaria comparten síntomas de fiebre, respiración y tos rápidas, y el algoritmo de la OMS para la neumonía puede conducir al mal diagnóstico y retraso en el tratamiento. Varias otras enfermedades/afecciones (tales como EPOC, asma, edema pulmonar, cáncer de pulmón etc.), que no requieren antibióticos, pueden presentar características clínicas similares a la neumonía.
Para mejorar la especificidad de los criterios de la OMS, Cardoso y col [ref 6] sugirieron la presencia de fiebre para diagnosticar neumonía. Demostraron que la fiebre añadida mejora la especificidad del diagnóstico significativamente (hasta el 50 %). Varios investigadores en el pasado han evaluado la precisión de los criterios de la OMS en el diagnóstico de neumonía en la infancia. Harari y col. [ref 7] estudiaron varias variables que incluían taquipnea para determinar qué signos clínicos predicen mejor la evidencia radiográfica de neumonía, en 185 niños. Se informaron sensibilidad del 73 % y del 64 % de especificidad en el diagnóstico de neumonía con solo taquipnea (tasa respiratoria (RR - Respiratory Rate) 50 > respiraciones/min para niños<12 meses y RR > 40 respiraciones/min si la edad es de 1 año o más) como predictor. Cuando se añade retracción costal a la taquipnea, la sensibilidad mejoró en 4 % en el coste de especificidad (caída del 6 %). Del mismo modo con los otros síntomas clínicos, tales como aleteo nasal, fiebre, poco sueño, tos >2 días, etc., la sensibilidad y la especificidad variaron entre 20 y 90 % [ref. 6-10]. Se logró una alta sensibilidad a costa de la especificidad y viceversa.
Es un objeto de la presente invención proporcionar un procedimiento mejorado para identificar sonidos de la tos y diagnosticar neumonía.
Resumen de la invención
Según un primer aspecto de la invención, se proporciona un procedimiento para operar un dispositivo informático (52) para procesar una grabación de sonido de un paciente (501), el procedimiento caracterizado por las etapas de:
extraer los coeficientes cepstrales de frecuencia de Mel (MFCC - Mel-Frequency Cepstral Coefficients) (209), Frecuencia Formante (211), Velocidad de Cruces por Cero (213), entropía de Shannon (215) y características de no-Gaussianidad (217) de sonidos de pacientes en la grabación para formar vectores de características (223); clasificar (225) segmentos como sonidos de tos (1001) basándose en las características extraídas con un clasificador de patrones (300); y
presentar un diagnóstico de un estado relacionado con la enfermedad en una pantalla (56) bajo el control del dispositivo informático (52) basado en segmentos (1001) de los sonidos del paciente (501) clasificados como sonidos de tos, en donde el diagnóstico presentado es neumonía.
En una realización, el clasificador de patrones comprende una red neuronal artificial (300).
En una realización, la red neuronal artificial (300) comprende una red neuronal de retardo de tiempo (TDNN - Time Delay Neural Network).
En una realización, la TDNN (300) tiene una capa oculta (303) entre una capa de salida (305) y una capa de entrada (307) con de 10 a 50 neuronas en la capa oculta (303).
En una realización, el procedimiento incluye calcular un biespectro para la clasificación adicional de los segmentos de tos.
En una realización, el procedimiento comprende además diagnosticar un estado relacionado con la enfermedad basándose en los segmentos de los sonidos del paciente clasificados como sonidos de tos y presentar el diagnóstico en la pantalla bajo el control del dispositivo informático.
En una realización, el procedimiento incluye monitorear los datos del paciente de uno o más de: sensor de detección de respiración, sensor de temperatura, sensor de movimiento, sensor de EEG (Electroencefalograma), sensor de nivel de oxígeno.
En una realización, el procedimiento incluye categorizar los sonidos de la tos como “tos húmeda” o sonidos de “tos no húmeda” (1506).
En una realización, el procedimiento incluye las etapas de:
categorizar eventos de tos de los sonidos del paciente ya sea enfermos o no enfermos mediante el procesamiento de características extraídas de los eventos de tos según un procedimiento de clasificación;
calcular un índice de tos enferma que indica la proporción de eventos de tos enferma; categorizados; y considerar que el paciente sufre del estado de enfermedad particular en el caso de que el índice de tos enferma cumpla con un requisito predeterminado.
En una realización, el procedimiento de clasificación comprende uno cualquiera de: un modelo de regresión logística: una red neuronal artificial; un clasificador de Bayes; un modelo oculto de Markov; una máquina de vectores de soporte. En una realización, el índice de tos enferma (1207) comprende un índice de tos neumónica.
En una realización, el procedimiento incluye considerar que el paciente padece neumonía basado en el índice de tos neumónica.
En una realización, el índice de tos neumónica se compara con un umbral predeterminado.
En una realización, el procedimiento incluye aplicar un conjunto de entrenamiento a cualquiera de:
un modelo de regresión logística; una red neuronal artificial; un clasificador de Bayes; un modelo oculto de Markov; una máquina de vectores de soporte;
el conjunto de entrenamiento incluye sonidos no neumónicos registrados a partir de pacientes que padecen una o más de las siguientes dolencias: Asma, bronquitis, rinofaringitis, sibilancias, tonsilofaringitis, enfermedad cardíaca, laringiomalacia, malaria e inhalación de cuerpos extraños.
Según un aspecto adicional de la presente invención, se proporciona un dispositivo informático (52) que incluye al menos un procesador electrónico (70) en comunicación con una memoria electrónica (62, 64, 66) que contiene instrucciones para que el procesador lleve a cabo el procedimiento.
Según un aspecto adicional de la presente invención, se proporciona un medio legible por máquina (46) que porta instrucciones tangibles para la ejecución por uno o más procesadores electrónicos (70) para llevar a cabo el procedimiento.
Breve descripción de los dibujos
Las características, realizaciones y variaciones preferidas de la invención se pueden distinguir a partir de la siguiente Descripción detallada que proporciona información suficiente para los expertos en la técnica para realizar la invención. La Descripción detallada no debe considerarse limitativa del alcance del Resumen anterior de la invención de ninguna manera. La Descripción detallada hará referencia a una serie de dibujos como sigue:
Figura 1. Es un diagrama de bloques de un sistema de procesamiento de tos.
Figura 2. Es un diagrama de flujo de un procedimiento según una realización preferida de un aspecto de la presente invención.
Figura 3. Representa la estructura de una TDNN. Comprende una capa de entrada, una capa oculta y una capa de salida. La entrada de la TDNN es d vector de características sucesivas fk. Como ejemplo, para d = 5l, a entrada es {fk-4,j, fk-3,j,.. fk,j }. Para clasificar todos los sub-bloques, la entrada se desplaza por un sub-bloque a la derecha.
Figura 4. Representa la función de densidad de probabilidad suavizada de la duración de los segmentos de tos (Ts). Tiene una media de 0,373 s y una desviación estándar de 0,144 s.
Figura 5. Ilustra un procedimiento de reducción de ruido. (A) es una señal típica en la grabación, (B) es la salida del filtro paso alto, y (C) es el filtro de sustracción espectral de salida. El filtro desarrollado mejoró significativamente la SNR (señal a relación) de la señal.
Figura 6. Representa la función de densidad de probabilidad (pdf) del coeficiente cepstral de frecuencia de Mel seleccionado aleatoriamente (suavizado para propósitos de visualización). Aunque se superponen, el coeficiente M(4) se puede usar para diferenciar el sonido de tos y del aparato, el coeficiente M(9) diferencia entre la tos y el llanto, y M(11) diferencia entre la tos y la vocalización.
Figura 7. El pdf de las cinco primeras frecuencias formantes (F(1) - F(5)). Aunque la distribución de las frecuencias formantes se superponen, tienen diferentes medias, asimetrías y curtosis, especialmente para F(1), f (3) y F(5).
Figura 8. El pdf de la energía, tasa de cruces por cero (ZCR), entropía de Shannon y puntuación de no Gaussianidad (NGS). La NGS puede usarse para diferenciar entre tos con vocalización y llanto, mientras que ZCR diferencian entre tos y el sonido de aparatos. El perfil de energía logarítmica y entropía de Shannon entre sonidos son similares, pero tienen asimetría y curtosis diferentes.
Figura 9. Ilustra la identificación del segmento de tos. (A) La señal de sonido del procedimiento de reducción de ruido, (B) la señal de salida de la TDNN, (C) la señal de salida después del procedimiento de suavizado, y (D) la señal de salida después del procedimiento de establecimiento de umbral. La señal del establecimiento de umbral puede contener un segmento falso (por ejemplo, segmento FD).
Figura 10. La ilustración de la señal de entrada y la señal de salida del algoritmo de segmentación. La línea discontinua indica la salida de segmentación donde se puede determinar el comienzo y el final de cada segmento de tos. El segmento falso FD (mostrado en la
Figura 9(D) se descarta porque su duración está fuera de los criterios de duración (rmín<Ts<Tmáx). El algoritmo segmenta con éxito todos los sonidos de tos que incluyen CG3 que se superpone con la voz (SP).
Figura 11. La salida de segmentación (línea discontinua) de la señal que contiene tos y sonidos de llanto. Nuestro algoritmo de segmentación segmentó con éxito dos sonidos de tos y descartando los sonidos de llanto. Solo una pequeña parte de los sonidos de llanto se detecta erróneamente como segmento de tos.
Figura 12. Diagrama de bloques para el algoritmo propuesto para el diagnóstico de neumonía usando característica de tos.
Figura 13. Muestra de sonido de tos de neumonía. El inicio y el final de los eventos de tos se marcaron manualmente después de escuchar cuidadosamente los eventos de tos.
Figura 14. Respuesta de magnitud del filtro paso alto digital. Procedimiento de clasificación de neumonía.
Figura 15. Diagrama de bloques para el algoritmo propuesto para la clasificación de sonidos de tos húmeda y seca.
Figura 16. Histograma de sensibilidad y especificidades logrados para 200 conjuntos de datos de entrenamiento y pruebas. Solo se usaron características seleccionadas para el diseño del modelo LR.
La Figura 17 es un diagrama de flujo de un procedimiento para el diagnóstico de un estado de enfermedad, por ejemplo, neumonía.
La Figura 18 comprende gráficos que presentan detalles de sujetos asociados con la aplicación del procedimiento de la Figura 17.
La Figura 19 muestra ejemplos típicos de formas de onda de (a) tos de neumonía, (c) tos de asma, (e) tos de bronquitis y (g) tos de bronquiolitis y su correspondiente espectrograma de potencia.
La Figura 20 es un diagrama de bloques de un procedimiento automatizado de clasificación de toses.
La Figura 21 muestra un ejemplo típico de forma de onda para tos seca y forma de onda para tos húmeda de dos pacientes,
Las Figuras 22A y 22B son histogramas de SNR para el sonido de tos.
La Figura 23 muestra información estadística utilizada en un análisis y discusión del procedimiento ilustrado en la Figura 20.
Descripción detallada de realizaciones preferidas
i. Primer procedimiento para clasificación de tos
2.1. Protocolo de grabación de tos
El sistema de grabación de tos consistió en micrófonos 53, 55 de bajo ruido que tienen un patrón de haz en hipercardiode (Modelo NT3, RODE, RODE®, Sydney, Australia), seguido de un preamplificador 52 y convertidor ND 51 (Modelo Móvil Pre-USB, M-Audio®, CA, Ee . UU.) para la adquisición de señales. La salida del Pre-USB Móvil se conectó al puerto USB 50 de un ordenador portátil 52. La distancia nominal desde los micrófonos hasta la boca del sujeto 42 era de 50 cm. La distancia real podría variar de 40 cm a 100 cm debido al movimiento del sujeto. Sin embargo, el procedimiento propuesto no dependía de la intensidad del sonido y los resultados fueron independientes de la distancia de la boca al micrófono. Se mantuvo la tasa de muestreo a 44,1 k muestras/s y una resolución de 16 bits para obtener la mejor calidad de sonido.
El sistema informático 52 funciona como un sistema de clasificación de tos/no tos y/o un sistema de diagnóstico basado en tos según realizaciones preferidas de diversos aspectos de la presente invención, mientras se ejecuta un programa informático que se describirá brevemente. El sistema Ordenador Personal 52 incluye dispositivos de entrada de datos en forma de dispositivo señalador 60 y teclado 58 y un dispositivo de salida de datos en forma de pantalla 56. Los dispositivos de entrada y salida de datos están acoplados a una caja de procesamiento 54 que incluye una unidad central de procesamiento 70. La pantalla 56 comprende una interfaz hombre-máquina para presentar los resultados de diversos procedimientos de clasificación implementados por los procedimientos descritos en la presente memoria. También son posibles otras interfaces hombre-máquina, tales como un teléfono inteligente o una impresora, por ejemplo.
Unidad Central de Procesamiento (CPU) 70 tiene interfaz con dispositivos de almacenamiento que son legibles por máquina y que incorporan de manera tangible programas de instrucciones que son ejecutables por la CPU. Estos dispositivos de almacenamiento incluyen RAM 62, ROM 64 y dispositivos de almacenamiento secundarios, es decir, un disco duro magnético 66 y un lector de disco óptico 48, a través de la placa base 68. El sistema informático personal también incluye un puerto USB 50 para la comunicación con el módulo externo ADC 51 que amplifica, filtra y digitaliza señales de los micrófonos 53 y 55. Los micrófonos capturan sonidos, por ejemplo, sonidos de tos, del sujeto 42 que se encuentran en el lecho 40.
El dispositivo de almacenamiento secundario 66 es un medio de almacenamiento de datos magnéticos que porta instrucciones tangibles, para su ejecución por el procesador central 70. Estas instrucciones se habrán instalado de forma típica desde un disco de instalación, tal como el disco óptico 46, aunque también podrían proporcionarse en un circuito integrado de memoria o mediante una red informática desde una instalación de servidor remoto. Las instrucciones constituyen un producto de software 72 que se carga en la memoria electrónica de la RAM 62. Cuando se ejecutan, las instrucciones hacen que el sistema informático 52 funcione como un sistema de diagnóstico basado en la tos, y/o un clasificador de sonido de paciente con tos o sin tos, y en particular para implementar uno de varios procedimientos que se describirán brevemente.
Los expertos en la materia entenderán que la programación del producto de software 72 es sencilla a la luz del procedimiento de la presente invención, cuyas realizaciones se describirán ahora. En el siguiente procedimiento se
manipulan varias variables. Se comprenderá que durante el funcionamiento del sistema de ordenador 52 para implementar el procedimiento correspondientes los registros de la CPU 70 se incrementarán y los datos escritos y recuperados del almacenamiento secundario 66 y la RAM 62 en virtud de las señales eléctricas que viajan a lo largo de buses conductores grabados en la placa base 68. En consecuencia, se producen efectos físicos y transformaciones dentro del sistema informático 52, ya que ejecuta el software 72 para implementar el procedimiento que se describirá ahora.
Aunque el dispositivo informático que se ha mostrado comprende un ordenador personal, por ejemplo, un ordenador de sobremesa o portátil, también se incluyen otros dispositivos computacionales. Por ejemplo, un dispositivo médico dedicado y también un teléfono inteligente cargado con una aplicación, es decir, una “app.” para implementar uno o más de los procedimientos descritos en esta invención. En el caso de un teléfono inteligente, el micrófono del teléfono puede usarse para monitorizar los sonidos del paciente o, alternativamente, uno o más micrófonos externos de alta calidad pueden estar conectados al teléfono inteligente para dicha monitorización. El teléfono inteligente puede transmitir grabaciones digitales de sonidos de pacientes a un ordenador distante que luego procesa las grabaciones digitales, a través de redes telefónicas celulares y/o Internet, según los procedimientos que se describen en esta invención. Los resultados del procesamiento pueden transmitirse de vuelta al teléfono inteligente para su visualización en el mismo o alternativamente mostrarse en un dispositivo de visualización electrónico bajo el control del ordenador distante.
El dispositivo informático también puede interconectarse a varios sensores de paciente, tales como un sensor de movimiento; Sensor de EEG; Sensor de nivel de oxígeno, sensor de detección de respiración, sensor de temperatura, por ejemplo. Los datos de estos sensores también se pueden usar durante el desempeño de los diversos procedimientos descritos en esta invención.
Los datos para este trabajo se registraron en el hospital Sardjito, Yogyakarta, Indonesia, de pacientes pediátricos ingresados por dolencias respiratorias. Los datos fueron adquiridos en el entorno hospitalario natural, sin modificarlos de cualquier modo, aparte de colocar nuestro sistema de registro de sonido cerca del lecho (véase la Figura 1). Los registros se llevaron a cabo en dos tipos de salas de hospital (ocupación única y ocupación doble) durante el día. El protocolo de investigación había recibido autorizaciones éticas del Hospital Sarjito y la Universidad de Queensland, Australia.
Nuestra base de datos consistía en sonidos de tos de niños que abarcan el intervalo de edad de 5-64 meses. Véase la Tabla 1 para detalles de los criterios de inclusión y exclusión.
Tabla 1
Las grabaciones se iniciaron después que los médicos examinaron a los sujetos, y el tratamiento inicial había comenzado. La duración de la grabación para cada sujeto fue de 4-6 horas. En la Tabla 2, se ilustran los detalles demográficos de los sujetos.
Tabla 2
LA INFORMACIÓN DEMOGRÁFICA DE LOS SUJETOS INVOLUCRADOS EN ESTE ESTUDIO.
2.2. Procedimiento de segmentación de tos
La grabación de sonido discreta, r[n], puede modelarse como la suma de los sonidos de la tos sc[n], ruidos de fondo b [n]y sonidos que no son tos snc[n ] (p. ej., voz, llanto, vocalización, movimiento de aparatos, etc.)
Se proporciona un procedimiento automatizado para extraer s c[n ] de la grabación r [n]. El diagrama de bloques del procedimiento global se muestra en la Figura 2. Comprende cuatro procedimientos principales: (a) reducción de ruido, (b) extracción de características de sub-bloques de datos, (c) clasificación de los sub-bloques de datos en grupos de tos (CG) y grupo que no es de tos (NG), y (d) segmentos de identificación/formación de tos mediante la agrupación apropiada de los sub-bloques contiguos de datos CG/NG.
En las secciones 2.2.1 -2.2.4, se proporciona una descripción detallada del procedimiento.
2.2.1 Reducción de ruido
Para reducir el ruido de fondo b[n], se procesó r[n ] a través de dos filtros diferentes: (a) un filtro paso alto (HPF) y, (b) un filtro de sustracción de espectro de potencia (PSS). El HPF se diseñó como un filtro de Butterworth de cuarto orden. Se usó para reducir la interferencia de baja frecuencia que puede provenir del movimiento de los soportes del micrófono o del lecho. Se empleó el filtro de PSS para reducir el ruido de fondo estacionario localmente. El mismo estima la señal de sonido limpio restando la potencia espectral de la señal de sonido original con ruido de fondo estimado [15]. La señal de salida s[n] después del filtrado, se puede volver a escribir como sigue:
Se midió el desempeño del filtro calculando la señal a relación [SNR], definida como una medida de magnitud de la señal con respecto al ruido de fondo, antes y después del procedimiento de reducción de ruido. La SNR se calcula como:
donde R s y Rb son respectivamente el valor cuadrático medio (rms de la señal s[n] y el ruido de fondo b[n].
Después del procedimiento de reducción de ruido, s[n] se usa como entrada a la unidad de extracción de características.
2.2.2 Extracción de características de señal sonora
En esta sección, se describe el modelo de producción de sonido de tos y los detalles de la unidad de extracción de características.
(a) Modelo de sonido de tos
Basándose en consideraciones fisiológicas, los sonidos de la tos a menudo se consideran una combinación de cuatro fases diferentes [1]: inspiración, contracción, compresión y expulsión. La fase de inspiración se inicia en la respiración y termina por el cierre de la glotis, los esfínteres de la supraglotis, o ambos. En la fase de contracción, los grupos de músculos respiratorios se contraen contra las estructuras glóticas, lo que lleva a la fase de compresión caracterizada por una marcada elevación de las presiones alveolares, pleurales y subglóticas en las vías respiratorias. En la fase de expulsión, la glotis se abre rápidamente seguida de una rápida exhalación de aire bajo un gran gradiente de presión. El rápido movimiento del aire expulsado del pulmón genera los sonidos de tos con aportes provenientes de diferentes áreas del sistema respiratorio. El mecanismo de producción de sonidos de tos comparte algunas similitudes con el de la producción de voz.
(b) Diseño y extracción de características
Para obtener las características de la señal sonora, se aplica una ventana deslizante rectangular w [n ] de longitud n a s[n], generando sub-bloques de datos. Supongamos que el sub-bloque de datos késimo se denota mediante sk [n ]; Por tanto s[n] puede expresarse como la concatenación de sub-bloques sk[n], es decir, s[n] = {|si[n]|, ^ [n ^ , ..., ^ [n H ,
SK[n]\} donde K es el número total de sub-bloques en s[n]. Se calculan las siguientes características para cada sub bloque Sk [n].
ii) Coeficientes cepstrales de frecuencia de Mel (MFCC): Los MFCC se usan ampliamente en el procesamiento de voz [16, 17], y se encontró que eran altamente útiles para el análisis de ronquidos [18-21] también. En este trabajo, inspirado por las similitudes de la tos/los sonidos respiratorios a los ronquidos y la voz, exploramos el uso de MfCc en la segmentación de tos. Se calculan los primeros L coeficientes cepstrales de Mel M(l)k = {M (I)k, 1 = 1, 2,..., L} de cada sub-bloque sk [n]. El coeficiente se calculó multiplicando la señal s k[n]con una ventana de Hamming wh seguido de aplicar los procedimientos sucesivos de: Transformada rápida de Fourier (FFT), banco de filtros de frecuencia de Mel f m filtrado, y la transformada discreta del coseno. La frecuencia de Mel del filtro f m se define en (4) y M(l)k se da en (5).
donde Dc(c = 1, 2,..., c) es la salida de los bancos de filtros de Mel.
ii) Frecuencia formante: En la voz, las frecuencias formantes muestran características de las resonancias de tracto vocal; en el análisis de sonido de ronquidos, elloas indican la resonancia de las vías aéreas superiores. Se planteó la hipótesis de que en la tos/los sonidos respiratorios, el formante puede transportar resonancias de todo el tracto respiratorio. Por ejemplo, los sonidos de sibilancias, que se originan debido a vibraciones de los bronquiolos del pulmón, pueden contribuir a formantes de frecuencia más altas (frecuencias de resonancia) en los sonidos de la tos. En este trabajo, estimamos las primeras frecuencias formantes P F(p)k = {F(p)k, p = 1, 2, ..., P}. El espectro de LPC y sus parámetros se determinaron resolviendo las ecuaciones Yule-Walker a través de la recursividad de Levinson-Durbin [22].
iii) Tasas de cruces por cero (ZCR): La ZCR, definida como todas loa veces que una señal cruza el eje cero, es un procedimiento simple pero útil para detectar la naturaleza periódica de una señal independientemente de su magnitud. La característica ZCR Z k se calcula como sigue.
donde la función indicadora n{A} es 1 si el argumento A es verdadero y 0 para lo contrario.
iv) Puntuación de No-Gaussianidad (NGS): La puntuación de No-Gaussianidad (NGS) proporciona un procedimiento fácil para cuantificar la desviación de una señal dada a partir de un modelo gaussiano. En nuestro trabajo previo sobre el análisis de sonido de ronquidos [23], esta característica mostró una capacidad para filtrar apnea del sueño obstructiva. Para obtener la NGS, en cada s k[n], computamos la inversa (F-1) de la función de distribución acumulativa normal (y) como se indica en (7).
donde p, a, son respectivamente, la media y la desviación estándar de sk[n], y p se define en (8).
La NGS (n k), es la desviación de la gráfica de probabilidad de sk[n ] (y) a su gráfica de probabilidad gaussiana de referencia (g) dada en (9), donde g [n]y y [n], representan respectivamente las probabilidades de los datos normales de referencia y los datos analizados.
v) Entropía de Shannon: El sonido de la tos es una señal compleja que representa las contribuciones de varias subestructuras del tracto respiratorio. Algunos de estos componentes muestran estructuras pseudoperiódicas, mientras que otros tienen un carácter estocástico aleatorio. En algunos casos, los sonidos de la tos tienen transiciones abruptas de la fase inspiratoria a la fase expiratoria. Este período puede contener una pausa instantánea así como componentes de alta frecuencia. En este trabajo, se computa la entropía de la ondícula de Shannon para capturar estas características. En el análisis de ondículas, la señal s k[n] a escala i puede descomponerse en su componente de alta y baja frecuencias usando un filtro complementario que consiste en un filtro paso bajo y paso alto. Las salidas de filtro bajo y alto se definen como aproximación y detalles (Ai y Di, respectivamente). La ondícula de Shannon S k se obtiene usando la definición en (9) calculando el espectro de energía de la ondícula Ei como en (10) [24].
Las características descritas en B(i) -B(v) se calculan para cada sub-bloque s k [n]. En cada característica, se calculó el valor mínimo y los valores máximos en cada característica de M k, fk, zk, sk, y N k. Se usaron estos valores para normalizar los componentes de la característica correspondiente en el intervalo de -1 a 1.
El vector de parámetro normalizado f k de sk[n] se define entonces como: fk = {[[MkFkZkSknk]T}. La matriz de características globales G ipara los pacientes jn es entonces dada por Gi = {fi,i, fi, 2 ,..., fkj, ..., Kj }.
Como se ilustra en la Figura 2, la técnica de segmentación de tos comienza clasificando cada sub-bloque de datos s k[n] en las dos categorías no superpuestas del Grupo de Tos (CG) y del Grupo que No es de Tos (NG) en función del vector de características f k, i.
En la sección 2.2.3, se describe el esquema de clasificación de patrones que se desarrolló para esta clasificación CG/NG al nivel de sub-bloque.
2.2.3 Clasificación de sub-bloques en las clases de Tos y No de Tos
Una realización de la invención hace uso de una Red neuronal Artificial (ANN - Artificial Neural Network) como clasificador de patrones CG/NG a nivel de sub-bloque. Se utilizó la ANN inspirada por la capacidad del cerebro humano para reconocer diferentes tipos de sonidos de la tos, independientemente de su intensidad, duración o humedad. Además, la ANN tiene varias ventajas en su capacidad de clasificar datos usando límites de decisión no lineales, basándose en un procedimiento de aprendizaje supervisado con un conjunto de ejemplos dados. Tiene una capacidad probada de trabajar con conjuntos de datos de entrenamiento limitados en comparación con los procedimientos convencionales [25]. En este trabajo, se utilizó la forma particular de una ANN conocida como Red Neuronal de Retardo Temporal (TDNN - Time Delay Neural Network) [26] que ha encontrado éxito en aplicaciones de reconocimiento de voz. La TDNN puede clasificar sub-bloques de datos s k[n] descontando traslaciones temporales [26] del conjunto de características de entrada.
Se muestra la estructura de TDDN en la Figura 3. Comprende una capa de entrada, una capa oculta y una capa de salida. De la TDNN, usamos d vectores de características sucesivas de la matriz Gi, para clasificar un sub-bloque como una clase CG/NG. Para clasificar el siguiente sub-bloque, se cambió la entrada por un sub-bloque de la derecha, y se usó el siguiente grupo de vectores de características. Se realizó este procedimiento desde el principio hasta el final de la matriz G j , por lo tanto, todos los sub-bloques en s [n], se puede clasificar en clase CG/NG.
La clasificación de sub-bloques usando la TDNN se llevó a cabo mediante el procedimiento de entrenamiento, validación y prueba. Para completar estos procedimientos, se preparó un conjunto de datos, seleccionados los parámetros de entrenamiento, entrenados la TDNN y se validaron los resultados de clasificación. Los detalles de estos procedimientos se describen en las siguientes subsecciones. (a) Preparación del conjunto de datos de TDNN.
Se desarrolló un conjunto de datos compuesto por tos y otros sonidos de la grabación. Hay 665 sonidos de tos en nuestro conjunto de datos. Se dividieron los datos establecidos en tres divisiones aleatorias no superpuestas, y fueron nombradas como entrenamiento (TDS), validación (VDS) y prueba (TeDS), respectivamente. Las proporciones de TDS, VDS y TeDS de la base de datos son (40 %, 30 % y 30 %, respectivamente). Los inventores denotan la ma de dichas particiones aleatorias por el símbolo Cm, m = 1, 2,..., M, donde M es el número total de particiones aleatorias usadas en este trabajo. Todos los conjuntos de datos de clasificación se analizaron independientemente. Se usó eficazmente nuestro conjunto de datos aplicando un procedimiento de validación cruzada K-veces usando la técnica de submuestreo aleatoria.
Mediante el uso de ubicaciones de segmentos de tos de la información del conjunto de datos de clasificación, se definió una matriz W k = [w i, w 2 ,..., wk,..., wk, wk = II {CG clase}], donde wk es la clase de cada sub-bloque de sk[n]
llenado por “ 1” cuando el argumento de n {CG clase} es correcto y “ 0” para lo contrario. La matriz W k se usó como un objetivo en el procedimiento de entrenamiento. Obsérvese que la dimensión de W k es similar a G ¡.
(b) Proceso de entrenamiento de TDNN
La TDNN utilizada en este estudio tiene los parámetros establecidos en la Tabla 3.
Tabla 3
PARÁMETROS DE ENTRENAMIENTO DE TDNN
Se explica el procedimiento usado para determinar la selección del número de la neurona en la Sección 3.4.
Se ha construido la red de TDNN, indicada como netc, que comprende una capa de entrada Li, una capa oculta Lh, y una capa de salida Lo. Las caractarísticas lineales y sigmoides se seleccionaron como función de activación entre las capas. Para determinar el peso inicial y la parcialidad, se usó el procedimiento de inicialización de Nguyen-Widrow. Para actualizar el término de parcialidad y pesos de neurona durante el procedimiento de entrenamiento, se empleó el algoritmo de propagación posterior resiliente (RPROP - resilient back propagation) [27]. La RPROP encontró éxito para superar el problema de la determinación de la velocidad de aprendizaje para actualizar los pesos de neuronas. En el algoritmo de descenso de gradiente, una velocidad de aprendizaje demasiado pequeña aumenta el tiempo de cálculo mientras que una velocidad de aprendizaje demasiado grande producirá oscilaciones antes de alcanzar el punto óptimo con un error razonable. Por el contrario, la RPROP usa un valor adaptativo para actualizar el peso, por lo que es capaz de lograr rápidamente la optimización máxima. Los detalles de este algoritmo se describen en [27]. En el procedimiento de entrenamiento, se definieron los criterios de detención: (a) el error medio cuadrático (mse) de los datos de entrenamiento fue inferior a 10-5, (b) el error de validación comenzó a aumentar, y (c) se alcanzó un gradiente mínimo en el desempeño del entrenamiento de 10-10. A menos que el entrenamiento se parase antes, se permitió que la red neuronal entrenara hasta 100 epochs.
Una vez que se han establecido estos parámetros, empezamos a entrenar la TDNN. En el procedimiento de entrenamiento, podemos dejar la red de TDNN netc, para aprender la clasificación de los sub-bloques en la clase CG/NG. El procedimiento se llevó a cabo dando d vectores de características sucesivos de G¡ a netc, para aproximarse a un objetivo en W k. Se investigaron varias combinaciones de características en f k para encontrar la combinación de entradas que dan los mejores resultados en la clasificación de las clases CG y NG. Se ha denotado la salida de la netc durante el procedimiento de entrenamiento como Wk, la aproximación de W k. Para identificar los segmentos de tos, Wk se procesó como en la siguiente sección.
2.2.4 Identificación del segmento de tos
En esta sección, se describe la técnica para obtener el segmento de tos procesando la salida de TDNN (Wk) a través del procedimiento de identificación del segmento. El procedimiento comprende: suavizar la salida de TDNN, aplicar un umbral a la señal suavizada para obtener segmentos, medir la duración de los segmentos y la selección de los segmentos basándose en un criterio. Los procedimientos generales se describen en las siguientes etapas:
(S1) Definir un parámetro i3 un entero positivo pequeño que determina la extensión del filtro promedio en movimiento (H). Aplicar Wk para filtrar H para producir una señal suavizada W k.
(S2) Aplicar valor umbral (A) a la señal suavizada Wk. La señal de salida de este procedimiento se indica como Wk dada en (11). El grupo de elementos contiguos en Wk se definió como candidatos de segmento de tos.
(53) Calcular la duración (Ts) de los segmentos correspondientes que contienen “ 1 “en Wk. Este procedimiento se lleva a cabo determinando el inicio y el final de cada segmento.
a. Iniciando k = 1, encontrar el valor más pequeño
de k (decir, ka) donde todos los sub
bloques Wk corresponden a la categoría de clase NG. El comienzo del sub-bloque Wk, k = ka se tomó como el inicio de un segmento NG.
b. Para identificar el inicio del segmento de tos, comenzar la búsqueda en el dominio de k a<k<K. Encontrar el valor más pequeño de k (decir, kb) en ese dominio,
de modo que ninguno de los sub-bloques
en Wk corresponde a NG. El comienzo del sub-bloque Wk, k = kb se toma como principio de un segmento CG. c. El extremo de NG se determina en un procedimiento similar a la etapa (S3.a), con el dominio de búsqueda para k ajustado a kb<k<K.
(54) Definir parámetros de t mn y Tmáx, una pequeña fracción positiva que determina la duración del segmento mínimo y máximo de un sonido de tos típico de los niños. Los segmentos cuyas duraciones están fuera de esta restricción se descartarán. Se ha indicado la señal de salida de este procedimiento como Wk.
Etapas (S1)-(S4) describen el procedimiento para determinar el comienzo y el final de cada segmento de s c[n]y descontar segmentos de snc[n] en una grabación. Para validar los resultados, todos los segmentos de tos obtenidos en Wk se compararon con segmentos de tos en Wk.
II. Resultados y discusión
3.1 Duración del segmento de tos
En nuestros datos clínicos, se identificó la duración de cada segmento de tos (Ts) mediante un procedimiento combinado de observación visual y escucha. La función de densidad de probabilidad suavizada de Ts se ilustra en la Figura 4. Los segmentos de tos tienen una duración mínima y máxima (Tmín = 0,18 s yTmáx = 11,6 s). La media y la desviación estándar de los segmentos de tos son (Us = 0,373, Os = 0,144). En el procedimiento de segmentación, se utiliza la TmínyTmáx como uno de los criterios para determinar los segmentos predichos como sonido de tos o sonido no de tos. Se describe este procedimiento en la Sección 3.5.
3.2 Reducción de ruido
La grabación en un entorno incontrolado hace que los datos sean más susceptibles al ruido de fondo. En nuestras grabaciones, se identificaron dos componentes separados de ruido: (a) ruido de baja frecuencia por debajo de 10 Hz y (b) ruido gaussiano blanco (véase la Figura 5 (A). Desde la figura se pudo ver que la grabación tiene una mala relación señal-ruido (SNR) que abarca el intervalo de 1,54 - 5,92 dB. Para reducir estos ruidos, se usó un filtro paso alto de Butterworth de cuarto orden (HPF) con un filtro de frecuencia de corte de 10 Hz y un filtro de sustracción espectral de potencia (PSS).
Estos filtros mejoraron la SNR significativamente. El HPF aumentó a 11,98 - 17,19 dB (Figura 5(B) y el PSS aumenta aún más a 12,62 - 17,44 dB (Figura 5 (C). Estos resultados muestran que los filtros desarrollados son capaces de reducir el ruido de fondo y mejorar la SNR de la señal de grabación.
3.3 Característica de la función sonora
Como se describe en la Sección 2.2.2, se computa el vector de características f k = {Mk Fk Zk Sk nk} para cada sub bloque de sk [n]. Se utilizó el tamaño de sub-bloque N = 882 (20 ms). El tamaño de sub-bloque seleccionado es la unidad básica para la extracción de características de MFCC. Los tamaños más pequeños (por ejemplo, 10 ms),
generalmente conducen a resultados distorsionados, debido a muy pocas muestras implicadas en la integración del filtro de Mel; tamaños más grandes tienden a aumentar la tasa de error de palabra [28].
El vector de características f k contiene 22 elementos: 14 coeficientes de M k (incluida la energía logarítmica y los coeficientes cepstrales 0o - 12o), 5 coeficientes de Fky 1 coeficiente de cada Zk, Sk, y Nk. Para descubrir la característica de estas funciones, se calculó la función de densidad de probabilidad (pdf) de un sonido específico en las clases CG y NG. La NG representa una amplia gama de sonidos no de tos, por lo tanto, en este trabajo; elegimos el sonido más dominante tal como llanto (CY), vocalización (abreviado como VC, por ejemplo, voz, voces de bebé típicas) y sonido de aparatos (abreviado como AS, por ejemplo, cierre de puertas, carros, cama).
Se ilustra el suavizado pdf de cada característica de fk en las Figs. 6-8. Como puede verse en estas figuras, la distribución de características (M k, fk, Zk, sk, y Nk) entre la tos y otros sonidos se superponen. Sin embargo, cada componente de las características tiene una distribución única.
La Fig. 6 muestra el pdf de un elemento seleccionado aleatoriamente de MFCC (M(1), M(4), M(9), y M(11)). A partir de la Figura 5(A) y 5(B), se pudo ver que pdf de (1)M en las clases CG y AS tienen diferentes medias (p = 0,31 a 0,18). El pdf de M(9) en la Figura 5(C) muestra que CG tiene una media menor que CY (p = -0,01 a p = -0,13, respectivamente).
La Fig. 7 muestra el pdf de frecuencias de formantes. La distribución estadística (media, desviación estándar, asimetría y curtosis) de frecuencias formantes de F(1), f(3), y F(5) entre CG y AS son distinguibles. La distribución de F(2) en CG, CY, VC y AS parecen similares, sin embargo, CG tiene la media más baja (-0,06). Además, la distribución de F(4) en TS tiene la media más baja entre las clases (-0,003).
En la Figura 8 se ilustra el índice NGS de CG, CY, VC y AS. La NGS tiene el potencial de discriminar CG de VC y CY (Figura 7 (D). De manera similar, de la Figura 6(B) podría verse que ZCR puede usarse para discriminar CG a partir de AS.
El pdf de las características muestra que no hay una característica dominante que pueda usarse solo como una entrada para la TDNN para clasificar la clase CG/NG. Por lo tanto, para obtener el beneficio máximo de cada componente de las características, se combinaron y usaron d sucesivos de vectores de características como la entrada de TDNN para clasificar la clase CG/NG.
4. Análisis basado en la TDNN en clasificación CG/NG
En este trabajo, se usaron cinco vectores de características sucesivas (d = 5); por lo tanto, el número de neuronas en la capa de entrada es (Li=110). En la capa de salida, solo hay una neurona (L o= 1) para representar la clase CG o NG. Para determinar el número de neuronas en L h, probamos varios números de neuronas durante el procedimiento de entrenamiento.
Para evaluar el desempeño de la red (netc), se calculó la sensibilidad y la especificidad definida por las siguientes ecuaciones.
donde TP = Verdadero Positivo, TN = Verdadero Negativo, FP = Falso positivo, y FN = Falso Negativo.
En la Tabla 4, se muestra el desempeño de netc para valores diferentes de Lh.
Tabla 4
EL DESEMPEÑO DE TDNN PARA DIFERENTES COMBINACIONES DE CAPAS OCULTAS (Lh ). LA CAPA
OCULTA CON 20 NEURONAS MUESTRA EL MEJOR DESEMPEÑO DE CLASIFICACIÓN.
EL DESEMPEÑO DE TDNN PARA DIFERENTES COMBINACIONES DE CAPAS OCULTAS (Lh). LA CAPA
OCULTA CON 20 NEURONAS MUESTRA EL MEJOR DESEMPEÑO DE CLASIFICACIÓN.
A partir de la Tabla 4 se pudo observar que en el conjunto de pruebas (TeDS), la red netc con 20 neuronas en la capa oculta tiene la mayor sensibilidad y especificidad (ambas 91,51 %0. Por lo tanto, para el resto de esta discusión se fija la red red c (Li=110, lh=20, lo = 1). El número de neuronas en netc es lo suficientemente compacta como para usarse en un sistema con recursos informáticos limitados. El pequeño número de capas y neuronas también mejora la capacidad de la red para desarrollar el mejor modelo para la clasificación CG/NG y para evitar memorizar las muestras dadas en el entrenamiento.
Se muestra el desempeño de la clasificación del sub-bloque s k[n ] en clases con tos (CG) y sin tos (NG), utilizando diferentes combinaciones de características en la Tabla 5.
Tabla 5
EL DESEMPEÑO DE TDNN EN DIFERENTES COMBINACIONES DE CARACTERÍSTICAS. LA COMBINACIÓN
COMPLETA {MkFkZkSk Nk} TIENE LA MEJOR SENSIBILIDAD Y ESPECIFICIDAD.
En el conjunto de pruebas (TeDS), el resultado de la clasificación usando {Z k Shk Nk} muestra la sensibilidad y especificidad más bajas (79,95 y 99,98) respectivamente. La combinación {M kFk} tiene un resultado más alto con 89,37 % de sensibilidad y especificidad. En cambio, la combinación de {M k Fk Zk Shk Nk} logró la mejor sensibilidad y especificidad de 91,51 %. A continuación, exploramos la combinación {M k Fk Zk Shk Nk} como entrada para TDNN.
El desempeño de la TDNN para M = 14, (Cm, M = 1, 2,..., 14) se muestra en la Tabla 6.
Tabla 6
RESUMEN Y RESULTADOS DE CLASIFICACIÓN NG/CG DE TDNN PARA M = 14, (CM, M = 1, 2,.., 14).
Resultados de clasificación para cada realización, C m, m = 1, 2,., 14, se calcularon y la media y la desviación estándar de sensibilidad y especificidad se estimaron (91,13 ± 0,0073 % y 91,14 ± 0,0073 %, respectivamente).
2.3. Formación de segmentos de tos a partir de sub-bloques
Se ilustra la formación de segmentos de tos, comenzando a partir de sub-bloques clasificados en la Sección 3.4, en la Figura 9. Figura 9(A) muestra la señal del procedimiento de reducción de ruido mientras que la Figura 9(B) ilustra la señal de salida de la clasificación basada en TDNN (Wk0. En la Figura 9(B) mostramos la salida de la red netc representando la aproximación del estado de las clases CG y NG (1 y 0, respectivamente). Como puede verse, los grupos de sub-bloques asociados a sonidos de tos formaron segmentos con valor cercano a 1, y de otro modo para los grupos de sub-bloques de los sonidos no tos. A partir de la Figura 9(B) también podría verse que la red net c clasificar eficazmente los sub-bloques en las clases de CG y NG, aunque se superponen con la velocidad de los mismos (ilustrado en la señal CG3). Sin embargo, algunos de los sub-bloques en las partes medias de los segmentos CG2 y CG5 se agruparon como clase NG indicada por la transición aguda de valores altos a bajos.
Para refinar los segmentos y reducir los sub-bloques mal clasificados en los segmentos, se procesó la señal en un procedimiento de suavizado basado en un filtro promedio móvil. En esta etapa, se seleccionó cuidadosamente la extensión del filtro promedio en movimiento i3 = 9). Se muestra la señal suavizada (Wk) obtenida del procedimiento de suavizado en la Fig. 9(C). Como puede verse en la Figura 9(C), se redujeron las partes de transición afiladas en los segmentos correspondientes.
Para determinar el comienzo y el final de los segmentos de la tos, todos los elementos en Wk se compararon con un umbral (4). El elemento correspondiente se establecerá en 1 Si Wk > A y 0 para de otro modo (Wk < 4), donde 4 se configuró a 0,05. Valor de 4 se eligió para maximizar el desempeño del clasificador. Se muestra la señal de salida del procedimiento de establecimiento de umbral (wk) en la Figura 9(D). Ahora contiene dos grupos de segmentos formados a partir de 1 y 0 elementos. Se han indicado los segmentos con elementos de 1 como candidatos de segmento de tos
A continuación, se definió el primer elemento en un candidato de segmento de tos como el comienzo del segmento y el último elemento como el extremo del segmento. A partir de la Sección 3.3 y 3.4, sabíamos que cada elemento en un segmento represente la clase de sub-bloque de 20 ms. Por lo tanto, podemos calcular la duración de un segmento multiplicando el número de elementos entre el comienzo y el final de un segmento con 20 ms. Se calculó la duración de cada segmento (Ts), y se probó Ts contra una duración mínima y máxima de tos obtenida en la Sección 3.1. Solo los candidatos de segmento de tos con duraciones dentro del límite (Tm/n<Ts <Tmáx) se seleccionaron como segmentos de tos. La ilustración de este procedimiento se muestra en la Fig. 10. A partir de la figura se pudo observar que el procedimiento propuesto segmenta eficazmente la tos (CG1-CG6) aunque tienen diferente intensidad y duración. Además, aunque el sonido de tos CG3 se superpone con el habla, el procedimiento es capaz de extraer el sonido de tos correspondiente. El segmento falso (FD) mostrado en la Figura 9(D) también se ha eliminado.
La Figura 11 ilustra la salida del procedimiento de segmentación en una señal típica que contiene sonidos de tos entremezclados con sonidos de llanto. El procedimiento extrajo con éxito los dos sonidos de tos de la señal y solo detectó un segmento falso de una larga duración de llanto.
Se muestra el desempeño de nuestro procedimiento de segmentación para m = 14, (Cm, m = 1, 2,..., 14) en la Tabla 7.
Tabla 7
EL DESEMPEÑO DEL PROCEDIMIENTO DE SEGMENTACIÓN DE TOS PARA M = 14, (CM, M = 1, 2,..., 14).
Se calcularon resultados de segmentación para cada realización, C m, m = 1, 2, ..., 14, y la media y la desviación estándar de sensibilidad y especificidad se estimaron (95,07 ± 3,43 % y 94,76 ± 4,02 %, respectivamente). El resultado también muestra que la formación de segmentos de tos a partir del procedimiento de sub-bloques mejora la sensibilidad y especificidad en aproximadamente el 4 % en comparación con los resultados de la clasificación de sub bloques. El procedimiento propuesto ha descontado con éxito sonidos, tales como llanto, vocalización y otros sonidos ambientales.
En este trabajo, se registró la tos de niños en una sala pediátrica en Indonesia usando un sensor sin contacto. Se encontró que un sensor sin contacto es preferible para este propósito debido a la facilidad de despliegue y control de infección.
Nuestro trabajo se centra en las poblaciones pediátricas de menos de 5,5 años, que es un área que se ha quedado sin tocar por estudios previos. Los niños en ese intervalo de edad son más vulnerables a las enfermedades
respiratorias mostradas por la alta tasa de morbilidad y mortalidad. Por lo tanto, la investigación para desarrollar un procedimiento para analizar la señal de las poblaciones es extremadamente importante.
Procedimiento de clasificación de sonidos de tos con neumonia / sin neumonía y de tos húmeda / no húmeda Con referencia ahora a la Figura 12, se muestra un diagrama de bloques que ilustra un procedimiento según una realización preferida de un aspecto adicional de la presente invención. El procedimiento ilustrado en la Figura 12 se desarrolla para el diagnóstico de estados patológicos particulares, por ejemplo la clasificación de neumonía / no neumonía, asociada con un paciente. Se discute un procedimiento de clasificación adicional al final de esta especificación.
Evaluación clínica y criterios de inclusión-exclusión
El entorno de adquisición de datos para este trabajo es la unidad de medicina respiratoria del Hospital Sardjito, Gadjah Mada University, Indonesia. Nuestra población de sujetos incluye individuos con síntomas de enfermedad respiratoria. Los pacientes ingresados en la sala general del hospital fueron evaluados por un médico para los síntomas presentados. Todas las observaciones se documentaron en una ficha estándar. Las observaciones incluyeron la presencia de tos, goteo nasal, fiebre, la dificultad respiratoria, diarrea, etc. El médico también registró la temperatura, la frecuencia respiratoria, la SpO2 y la frecuencia cardíaca.
La Tabla 8 enumera los criterios de inclusión y exclusión. Todos los pacientes que cumplían los criterios de inclusión se contactaron. Se realizó un consentimiento informado. Los pacientes fueron reclutados dentro de las primeras 12 horas de su admisión. Tras el consentimiento informado, se realizaron grabaciones de sonido continuo durante las siguientes 4-6 horas.
Tabla 8. Criterios de inclusión y exclusión utilizados en el estudio
A. Sistema de adquisición y grabación de datos.
Las grabaciones de sonido se realizaron en la sala general de adultos del hospital. Cada paciente compartió la habitación con otros 5 pacientes separados por cortinas. Los pacientes estaban acompañados por miembros de su familia. El médico tratante visitó regularmente al paciente, sin embargo, no se registró información confidencial relacionada con el paciente. El ruido común presente en las grabaciones fue de ventilador de telefonía, pasos, voz, cierre de puertas, movimiento de carros y otros ruidos de ambigüedad desde fuera de la sala.
Se realizaron grabaciones de sonido de tos usando dos sistemas,
(i) Sistema de adquisición de datos computarizados - Una unidad conversora de alta fidelidad, preamplificador de calidad profesional y/o convertidor ND (Modelo Móvil-Pre USB, M-Audio, California, EE. UU.) con un par coincidente de micrófonos de bajo ruido que tienen un patrón de haz en forma de hipercardiode (Modelo NT3, RODE, Sydney, Australia).
(ii) Sistema de grabación portátil - Una grabadora de audio de gama alta, portátil y liviana que funciona con 2 pilas AA (Olympus LS-11) con dos micrófonos de condensador de precisión.
En ambas configuraciones de grabación se usó una tasa de muestreo de 44,1 kHz con una resolución de 16 bits. La distancia nominal del micrófono a la boca del paciente era de 50 cm, pero podría variar de 40 cm a 70 cm debido a los movimientos del paciente.
Recibimos los datos de sonido digital ayudados con la información de diagnóstico clínico del hospital. Los datos se desidentificaron completamente y se almacenaron detrás del firewall de seguridad, bajo un régimen estricto de control de contraseña. El acceso de los datos se restringió a los investigadores participantes autorizados de manera individual por el investigador principal.
B. Cálculo de características de los datos del sonido de tos
La Figura 12 muestra el diagrama de bloques del algoritmo global desarrollado para la clasificación de neumonía / noneumonía, mientras que la Figura 15 muestra el diagrama de bloques del algoritmo desarrollado para la clasificación de sonido de tos húmeda / no húmeda.
La Figura 13 muestra una muestra de datos de sonido de tos con dos eventos de tos. El inicio y el final de los eventos de tos se marcaron manualmente después de escuchar cuidadosamente. Después de la puntuación manual de inicio y final de los eventos de tos, los presentes inventores siguieron las siguientes etapas para calcular características matemáticas a partir de los datos de eventos de tos.
[C1]. Supongamos que x[k] denota la késima muestra del sonido de tos de tiempo discreto. Filtrar x[k] usando un filtro digital paso alto para obtener y[k]. La función de transferencia del filtro en la transformada z viene dada por (1). La Figura 14 muestra la respuesta del filtro con B= [1 - 0,85] y A = [1]
Para la clasificación de sonido de tos húmeda/no húmeda dividir y[k] en segmentos de igual tamaño ‘n’. Supongamos que yn[k] representa el nésimo segmento de y[k].
Para la clasificación de neumonía/no neumonía, esta sub-segmentación no se considera.
[C2]. Calcular las siguientes características del segmento de tos filtrado y[k] en caso de clasificación de neumonía y de cada subsegmento filtrado yn [k] en caso de clasificación húmeda/no húmeda.
1. Puntuación de No-Gaussianidad (NGS) - NGS proporciona la medida de la no-Gaussianidad de un segmento dado de datos. El gráfico de probabilidad normal puede utilizarse para obtener una medida visual de la Gaussianidad de un conjunto de datos. La NGS del segmento de datos y[k] se puede calcular usando (2). Téngase en cuenta que en (2), p(k) y q(k) representa las probabilidades y p y q representan la media de los datos normales de referencia y los datos analizados, respectivamente. Se puede encontrar un procedimiento detallado para calcular NGS en [29].
2. Frecuencias formantes - En el análisis de la voz humana se hace referencia a los formantes como la resonancia del tracto vocal humano. Se manifiestan como el pico de amplitud en el espectro LPC de la señal acústica. Se incluyeron las 1 eras cuatro frecuencias formantes (F1, F2, F3, F4) en nuestro conjunto de características. Estudios pasados en el análisis de voz y acústica han demostrado que F1-F4 corresponde a diversas características acústicas de las vías respiratorias superiores [30]. Calculamos las fr4ecuencias F1-F4 seleccionando picos del espectro LPC. Para este trabajo utilizamos espectro LPC de 14 o orden y sus parámetros se determinaron mediante el procedimiento autorregresivo de Yule-Walker junto con el procedimiento recursivo de Levinson-Durbin [31].
3. Energía logarítmica (LogE) - La energía logarítmica para el segmento y[k] se calculó usando la ec. 3
donde £ es una constante positiva arbitrariamente pequeña agregada para evitar cualquier cálculo accidental del logaritmo de 0.
4. Cruce por cero (Zcr) - El número de cruces por cero se contó para cada evento de tos.
5. Curtosis (Kurt) - Curtosis (Kurt): La curtosis es una medida del pico asociada con una distribución de probabilidad de datos de eventos de tos y[k], calculada utilizando (4), donde ^ y a en (4) son la media y la desviación estándar de y[k].
6. Coeficientes cepstrales de frecuencia de Mel (MFCC) - Los MFCC se usan comúnmente en los sistemas de análisis de voz [32]. Representan el espectro de potencia a corto plazo de una señal acústica basándose en una transformada de coseno de un espectro de potencia logarítmica en una escala de frecuencia no lineal. Se incluyeron los 12 coeficientes MFCC en nuestro conjunto de características.
7. Puntuación de Biespectro (BS) - El espectro de 3er orden de la señal se conoce como el biespectro. El biespectro puede estimarse estimando el cumulante de 3er orden y luego tomando una transformada de Fourier 2D, fue seguido este procedimiento, conocido como el procedimiento indirecto de estimación del biespectro. El cumulante de 3er orden C (T1,T2) se estimó usando (5) como se definió en [33].
Al aplicar una función de ventana biespectro a la estimación cumulante, se obtuvo la función cumulante con ventana C w(T1,T2). Usamos la ventana suprema de biespectro-sesgo mínima descrita en [34] para este propósito.
El espectro B(W1,W2) del segmento y[k] se estimó como la transformada de Fourier bidimensional de la estimación cumulante Cw(T1,T2) usando (6). Usamos una longitud FFT de 512 puntos.
En el dominio de frecuencia, una cantidad P(w;^,p) se puede definir para el segmento de datos y[k] de manera que
describa un segmento unidimensional inclinado al eje w i en un ángulo tanA<$ y se desplaza desde el origen a lo largo del eje W2 por la cantidad p, (-n< p <n) [5]. Para este trabajo, se estableció ^ = 1 y p=0, de modo que el corte del biespectro considerado está inclinado hacia el eje W1 en 45 grados y pasa a través del origen (es decir, la línea descrita por W1=W2 en el plano (W1, W2)).
Después la Puntuación Biespectro (BS) se calcula usando (8). En (8) se usó W1 = 90hz, W2 = 5khz, W3 = 6khz y W4 = 10,5khz.
Después del cálculo de características, para cada segmento de tos, en el caso de la clasificación de neumonía se forma un vector de características que contiene 21 características (12 de MFCC; 4 - Frecuencia formante; Cada 1 de NGS, LogE, Zcr, Kurt y Biespectro) y en el caso de clasificación de tos húmeda / no húmeda, se obtiene un vector que contiene 63 características (36 de MFCC; 12 - Frecuencia formante; Cada 3 de NGS, LogE, Zcr, Kurt y Biespectro). C. Modelo de clasificación de neumonía y optimización de características
Se siguió un procedimiento de tres etapas para la clasificación de la neumonía usando características basadas en la tos, que es como sigue -Etapa 1. En la primera etapa, los presentes inventores clasificaron cada evento de tos en una de las dos categorías, “Tos Neumónica” o “Tos No Neumónica” . Para resolver este problema, se formó un vector de características para cada evento de tos y derivamos un modelo, que puede separar los eventos de tos en dos categorías. Se obtuvieron diferentes modelos con diferentes conjuntos de características como se muestra en la Tabla 9.
Tabla 9. El modelo de regresión logística derivada para la clasificación del evento de tos en categorías “Tos Neumónica” y “Tos No Neumónica” 'V’ indica la inclusión de esa característica en el diseño del modelo. El índice de respiración se calculó restando el umbral de respiración de la tasa de respiración grabada.
Para la clasificación de la tos se utilizó modelo estadístico de regresión logística. Es un modelo lineal generalizado, utiliza varios predictores (variables independientes) para estimar la probabilidad de un evento categórico (variable dependiente).
En este trabajo (modelado de clasificación de neumonía), se supone que la variable dependiente Y es igual a “ uno” (Y=1) para la Tos Neumónica y “cero” (Y=0) para una Tos No-Neumónica.
Un modelo se obtiene usando la función de regresión logística para estimar la probabilidad Y=1 (es decir, el evento de la tos pertenece a la categoría de “Tos Neumónica” ) dadas las variables independientes (es decir, conjunto de funciones) de la siguiente manera:
En (10) Pü se denomina el intersepto y P1, P2 y así sucesivamente se denominan el coeficiente de regresión de variables (características) independientes X1, X2 respectivamente.
Se diseñó el modelo de regresión logística utilizando la caja de herramientas estadística MATLAB versión 7.5. Las características se seleccionaron para incluir solo las mejores variables independientes (variables con valor de “p “bajo) que facilitan la clasificación, en el modelo final. El modelo final se usa entonces para estimar la probabilidad P y cada evento de tos se clasifica como perteneciente a cualquiera de las dos categorías usando un umbral de probabilidad Pth.
Etapa 2. En la segunda etapa para cada paciente, se sumó el número de ‘Tos Neumónica’ y se calculó un índice denominado ‘Índice de Tos Neumónica’ (PCI)” usando (9).
Etapa 3. En la tercera etapa se aplicó un umbral predeterminado PCI th (optimizado para alta sensibilidad al tiempo que mantiene la especificidad >75 %) al PCI para clasificar el paciente en dos clases, ‘Clase I-Neumonía’ y ‘Clase II-No Neumonía’.
Modelo de clasificación de tos húmeda/no húmeda
Para la clasificación de la tos húmeda y no húmeda, se usó nuevamente modelo estadístico de regresión logística. En este caso, se supone que la variable dependiente Y es igual a “ uno” (Y=1) para la tos húmeda Y “cero” (Y=0) para la tos no húmeda.
Se obtiene un modelo usando la función de regresión logística para estimar la probabilidad Y=1 (es decir, el evento de la tos pertenece a la categoría de “Tos húmeda”) dadas las variables independientes (es decir, conjunto de características) usando (9) y (10). Las características se seleccionaron para incluir solo las mejores variables independientes (variables con un valor de “p “ bajo) que facilitan la clasificación, en el modelo final. El modelo final se usa entonces para estimar la probabilidad P y cada evento de tos se clasifica como perteneciente a cualquiera de las dos categorías usando un umbral de probabilidad.
III. 3. Resultados de la clasificación de neumonía
A. Base de datos y diagnóstico clínico
Total de 541 eventos de tos se analizaron a partir de las 81 grabaciones de sonido de sujetos (mínimo 2, máximo 12, y en promedio 6,6, 14 eventos de tos). De 81 sujetos, 50 eran pacientes con neumonía y 31 eran pacientes sin
neumonía. Pacientes sin neumonía se incluyeron con enfermedades como asma - 11, bronquitis - 8, rinofaringitis - 6 y otras (sibilancias, amigdalofaranzitis, cardiopatías, laringomalaysia, inhalación de cuerpos extraños) - 6. Rayos x del pecho se realizaron en todos los pacientes con sospecha de neumonía. Diecinueve pacientes en los que no se realizó rayos x de tórax, 8 eran asma, 5 rinofaringitis, 2 bronquitis y 4 pacientes con otras enfermedades. La Tabla 10 proporciona las estadísticas de edad y género de la base de datos de pacientes.
Tabla 10. Estadísticas de edad y género de los pacientes utilizados en este estudio
Para derivar el modelo de clasificación de tos usando regresión logística en la sección 2.D Etapa 1, se dividió aleatoriamente nuestra base de datos en dos grupos, conjunto de entrenamiento y prueba. Para validar el modelo, se generó 200 conjuntos de datos de entrenamiento y prueba diferentes de la base de datos de 81 sujetos. Cada conjunto de entrenamiento y conjunto de pruebas fueron mutuamente excluyentes y tenían 56 y 25 sujetos respectivamente. B. Criterios de la OMS para el diagnóstico de neumonía frente al diagnóstico clínico
La Tabla 11 muestra la tabla de contingencia para el diagnóstico de neumonía usando criterios de la OMS y los casos de neumonía clínicamente diagnosticados para nuestra base de datos de 81 sujetos.
Tabla 11. Tabla de contingencia para el diagnóstico de neumonía usando criterios de OMS frente a la neumonía clínicamente diagnosticada. BPM - Respiraciones por minuto.
C. Diagnóstico de neumonía basado en índice de tos neumónica
La Tabla 12 muestra la clasificación de entrenamiento y prueba da como resultado la separación de eventos de tos en dos categorías usando 4 modelos de regresión logística diseñados dados en la tabla 9.
Tabla 12. Resultados de clasificación para eventos de tos en dos categorías (“Tos neumónica” y Tos No neumónica) usando diferentes modelos de regresión logística como se muestra en la Tabla 3, siguiendo el procedimiento dado en la sección 2.D Etapa 1. Las características de tos seleccionadas utilizadas para desarrollar el modelo fueron BSG, FF1, FF2, FF4, ZCR, MFCC3 y MFCC6.
La Tabla 13 proporciona los resultados de la clasificación de neumonía mediante el uso del Índice de Tos Neumónica. Según la tabla 12, LR-Modelo5 proporciona los mejores resultados de clasificación para la clasificación de eventos de
tos (la sensibilidad media y la especificidad fueron 85,6 ± 8 % y 80,1 ± 12 % respectivamente). Sin embargo, en la tarea de clasificación de neumonía LR-Mode4 realizó mejor que LR-Modelo5. Se logró la sensibilidad media y la especificidad de 86,2 ± 9,6 y 84,3 ± 15 respectivamente.
Tabla 13. Resultados para el diagnóstico de neumonía basado en el índice de tos neumónica después de que solo se usaron características de tos seleccionadas en el entrenamiento del modelo. Las características de tos seleccionadas fueron BI, FF1, FF2, Zcr, coeficientes de MFCC 4,6 y 9.
IV. Resultados de clasificación húmedo/no húmedo
A. Conjuntos de datos de entrenamiento y prueba
Se analizaron un total de 178 eventos de tos de 46 sujetos. La relación masculino a femenino de los sujetos en base de datos fue 1:1. La edad media de los sujetos fue de 3 años y 1 mes. Un pediatra, con experiencia clínica y de investigación de más de 20 años en el campo de la enfermedad infantil con especialidad en tos crónica, asma y otras enfermedades respiratorias, clasificó manualmente 178 eventos de tos en húmeda y no húmeda después de escuchar cuidadosamente. Se considera esta clasificación manual como la “ norma de referencia “frente a la que se compararon los resultados de la clasificación automática mediante el modelo LR diseñado.
De los 178 eventos de tos 82 eran húmedos y 96, como se clasificó por el estándar de referencia. Se usaron 70 % (124 eventos de tos) de los eventos de tos para el entrenamiento y 30 % (54 eventos de tos) para analizar el modelo. Los eventos de tos de entrenamiento y prueba se eligieron aleatoriamente usando un generador de números aleatorios. Para validar el modelo, generamos 200 conjuntos de datos de entrenamiento y prueba diferentes de los 178 eventos de tos.
B. Resultados de clasificación
La sensibilidad y especificidad media para la clasificación húmeda/no húmeda usando LR-modelo fue de 74,8 ± 9 % y 69,9 ± 9,4 % respectivamente para analizar conjuntos de datos, cuando todas las características de tos se usaron para entrenar el modelo. Los valores medios de sensibilidad y especificidad saltaron a 79 ± 9 % y 72,7 ± 8,7 % cuando solo se usaron características de tos seleccionadas. En las 22 características se seleccionaron de 63 después de la optimización de características. Las características seleccionadas fueron 1 cada una de BSG, LogE y Kurt; 2 de NGS; 3 de ZCR; 5 de frecuencia formante; y 9 de MFCC.
La Tabla 14 muestra los resultados medios de sensibilidad, especificidad, precisión y kappa para conjuntos de datos de entrenamiento y prueba.
La concordancia kappa entre el modelo LR y el procedimiento de referencia fue de 0,45 ± 0,12 cuando se usaron todas las características de la tos y 0,52 ±0,1 cuando solo se usaron características de tos seleccionadas.
Tabla 14 valores medios ± std para sensibilidad, especificidad, precisión y kappa, para 200 modelos de lr diseñados
La Figura 16 muestra las gráficas de histograma para la sensibilidad y especificidad obtenidas usando 200 conjuntos de datos de entrenamiento y ensayos.
La Tabla 15 muestra la tabla de contingencia para el mejor modelo LR entre 200. Tiene la sensibilidad del 90 %, especificidad del 80 % y una concordancia kappa alta de 0,71.
j
Table 15
Tabla de sinergia para el mejor modelo LR (LR = 149)
Ahora se describirá un segundo procedimiento de diagnóstico de neumonía.
2. MATERIAL Y 2 O PROCEDIMIENTO DE DIAGNÓSTICO DE NEUMONÍA
El enfoque global del procedimiento se resume en la Figura 17. El procedimiento consiste en tres etapas principales: la adquisición de datos de sujetos, el desarrollo de características y el entrenamiento de clasificadores de patrones, y la evaluación prospectiva y la evaluación de desempeño de la tecnología. En la Sección 2A-2C se proporcionan detalles de estas etapas.
D. El desarrollo de la base de datos de sonido de tos
El entorno de adquisición de datos clínicos para este trabajo es la unidad de medicina respiratoria del Hospital Sardjito, Gadjah Mada University, Indonesia. La Tabla 16 enumera los criterios de inclusión y exclusión de sujetos.
Tabla 16
Se reclutaron pacientes sospechosos de enfermedad respiratoria aguda como neumonía, bronquiolitis, bronquitis, asma, rinofaringe, etc. para el estudio. Se realizó un consentimiento informado utilizando el formulario aprobado por los comité de ética humana de la Universidad de Gadjah Mada y la Universidad de Queensland. Los pacientes fueron reclutados dentro de las primeras 12 horas de su admisión.
Un médico pediátrico evaluó el paciente para los síntomas presentados. Todas las observaciones, tales como la presencia de tos, goteo nasal, fiebre, dificultad respiratoria, diarrea, etc., se documentaron en una hoja estándar. La base de datos también contenía información demográfica de rutina y los resultados de la temperatura clínica (por ejemplo, auscultación, tasa de respiración, oximetría, temperatura) así como de laboratorio (eg: sangre, análisis de esputo). El patrón de referencia usado para el diagnóstico de neumonía en esta discusión es el diagnóstico global
proporcionado por los médicos, sobre la base de la presentación clínica, pruebas de laboratorio, rayos X de tórax y el curso clínico de la enfermedad. Para minimizar la exposición a la radiación a niños, los rayos X se realizaron solo en sujetos que se sospecha clínicamente de neumonía, o si hubo una clara necesidad clínica. Por lo tanto, no todos los sujetos en nuestra base de datos habían experimentado imágenes de rayos X.
Después de la evaluación médica inicial, se realizaron grabaciones de sonido en el entorno natural de la sala respiratoria. Los registros de datos de sonido recogidos de las duraciones de 6-8 horas de cada paciente, utilizando micrófonos al lado de la cama (Rode® NT7 o Olympus® LS11, tasa de muestreo de 44,1kHz). La distancia desde la boca hasta el micrófono podría variar entre 40 cm y 70 cm dependiendo de la posición de la cabeza del paciente. El objetivo de los autores de la invención ha sido desarrollar tecnología que sea robusta frente a variaciones de intensidad, de modo que la distancia desde la boca hasta el dispositivo de grabación no desempeña ningún papel significativo en el diagnóstico.
Se utilizó un total de 91 pacientes (63 con pneumonia y 28 sujetos sin neumonía) para desarrollar y validar nuestra tecnología. Enfermedades como bronquiolitis, asma, bronquitis, faringitis, laringomalacia se agrupan dentro del grupo de no neumonía. Los detalles de los sujetos se dan en la Figura 18. El conjunto de datos global a nuestra disposición se separó en dos grupos no solapados: Conjunto de datos de desarrollo del Modelo (Dmd) y el Conjunto de datos de validación prospectiva (Dpv). Estos dos conjuntos de datos fueron completamente independientes entre sí. Los conjuntos D md y Dpv no compartieron ni la tos ni ningún sujeto. Los pacientes se asignaron a cada grupo basándose en el orden de presentación a la clínica respiratoria del hospital. D md y Dpv consistía en Nnd =66 y Npv = 25 sujetos respectivamente.
Los datos de sonido de cada sujeto consistieron en aproximadamente 6-8 horas o grabaciones continuas. Los sonidos de la tos se segmentaron manualmente después de un procedimiento cuidadoso de escucha. No hay un procedimiento aceptado para la identificación automática de la tos y el análisis manual aún se usa como el estándar de oro en el trabajo clínico, así como en la literatura de investigación. La Figura 19 muestra ejemplos típicos de formas de onda de (a) neumonía-tos, (c) asma-tos, (e) bronquitis-tos y (g) bronquiolitis-tos y su correspondiente espectrograma de potencia. Se puede ver una clara diferencia característica entre la neumonía-tos y otras cosas en duración y la magnitud del espectrograma de potencia.
E. Diseño de extracción de características y clasificación de patrones
Se utilizó el conjunto de datos del desarrollo del modelo Dmd para el trabajo descrito en esta sección. Supongamos que Cmd es el número total de eventos de tos de los sujetos en Dmd. El enfoque realizado en este documento utiliza un procedimiento de construcción y validación de modelo fuera de fuera para desarrollar características y optimizar los parámetros del modelo. Dentro de este marco, nuestro procedimiento puede describirse en cuatro etapas de procesamiento principales (véase la Figura 17), Etapa-1 a Etapa-4 como se describe a continuación.
En la primera etapa, calculamos una matriz de características. En la segunda etapa, diseñamos clasificadores automáticos usando la matriz de características de la etapa 1 para clasificar los sonidos de la tos en la “tos nemónica” y las clases de “tos no nemónica” . En la tercera etapa, se seleccionaron un clasificador óptimo y en la cuarta etapa se definen un nuevo índice denominado Índice de Tos Neumónica (PCI) para identificar pacientes con neumonía.
Etapa -1: Extracción y aumento de características de tos
En esta etapa, nuestro primer objetivo es extraer características de los sonidos de la tos para usarse en el algoritmo de diagnóstico de neumonía. Características matemáticas de cada evento de tos en D md se calcularon como sigue:
[1] . Supongamos que x denota una señal de sonido de tiempo discreto de un evento arbitrario de tos.
[2] . Segmente x en 'n=3' subsegmentos de igual tamaño que no se superpongan. En la literatura19, los médicos y científicos similares han descrito sonidos de tos que consisten en 3 fases, (i) ráfaga de apertura inicial, (ii) seguida de flujo de aire ruidoso y último (iii) cierre glotal. Se ha demostrado que estas fases portan diferente información significativa específica para la calidad de la tos. Sobre esta base, se dividieron cada segmento de tos en n=3 sub segmentos. Supongamos que x i representa el iésimo sub-segmento de x, donde i = 1,2, 3,.., n.
[3] . Para cada uno de los subsegmentos x i calcular las siguientes características: Puntuación de bioespectro (BGS), puntuación de No-Gaussianidad (NGS), las primeras cuatro frecuencias formantes (FF), energía logarítmica (LogE), cruces por cero (ZCR), curtosis (Kurt) y doce coeficientes cepstrales de frecuencia Mel (MFCC). Tenga en cuenta que no hacemos uso del coeficiente 0ésimo de MFCC, que representa energía en la señal x i.
[4] . Repita los pasos (i) -(iii) para todos los eventos de tos Cmd en D md.
Este procedimiento conduce a una matriz de característica de tos candidata M c del tamaño Cmd x Cf para cada subsegmento x i. Donde C f = 63 representa características basadas en la tos y Cmd es el evento total de tos en la base de datos Dmd.
En la forma más simple del algoritmo de diagnóstico, solo se usará características basadas en la tos para diagnosticar neumonía. Sin embargo, se reconoce la existencia de algunas mediciones clínicas simples que pueden usarse para mejorar nuestros algoritmos a un coste mínimo en complejidad. El algoritmo de la OMS para áreas deficientes en recursos, tabla 17, utiliza las tasas de edad y respiración, y otros investigadores han utilizado la existencia de fiebre.
Tabla 17
Aunque ninguno de estos solo o en combinación ha producido el desempeño de diagnóstico deseado en áreas remotas, estas mediciones tienen el potencial de aumentar las características derivadas de la tos. Inspirados por el algoritmo de la OMS que usa la edad como uno de los parámetros, usamos la edad en meses como un parámetro candidato en nuestros modelos. También se utilizó la presencia o ausencia de fiebre como variable binaria. En el algoritmo de la OMS, la tasa de respiración se usa como el parámetro principal para diagnosticar neumonía. En nuestro trabajo, proponemos una nueva medida (véase (1)), que llamamos el Índice de Respiración (BrI), para capturar las elevaciones de la tasa de respiración en neumonía.
si Edad > 60 meses \
B r l = \ BR ~ 20
l BR - 0 de otra manera J ( 1)
En (1) BR es la tasa de respiración y la edad es la edad del paciente en meses. Mientras que la fiebre es un síntoma común en la neumonía, no es específico para la neumonía. Una observación similar es válida para la tasa de respiración. La Tabla 18 muestra el conjunto de características candidatas F c= {Cf, fi, f 2 , f donde Cf representa características derivadas de la tos y el resto indica características aumentadas usadas en nuestros modelos.
Tabla 18 - Seis combinaciones diferentes de características utilizadas para formar la matriz de características en la sección 2-B [Etapa 1]. Aquí una marca indica la inclusión de esa característica en el diseño del modelo. El índice de respiración se calculó restando el umbral de respiración de la tasa de respiración grabada.
Las características finales en nuestros algoritmos se dibujarán del grupo de características candidatas. Los detalles de la selección de características, el desarrollo y la validación del modelo se describirán en la Etapa 2 a continuación.
[Etapa 2] Selección de características y diseño automático del clasificador - Los inventores usaron modelo de regresión logística (LRM) como clasificador de patrones preferido, sin embargo, los expertos en la técnica apreciarán que también son aplicables otros procedimientos clasificadores. El LRM es un modelo lineal generalizado, que usa varias características independientes para estimar la probabilidad de un evento categórico (variable dependiente). En este trabajo, se supone que la variable dependiente Y es igual a “ uno” (Y=1) para la tos neumónica y “cero” (Y=0) para la tos no neumónica. Los eventos de tos extraídos de un sujeto con una clasificación diagnóstica de neumonía se denominan tos neumónica y viceversa. Un modelo se deriva usando una función de regresión para estimar la probabilidad Y dada las características de tos independientes (es decir, Fc= {Cf, f i , f2, f }) de la siguiente forma:
En (2) y (3) F1, f2,.f. fF son los elementos del vector de características Fc (variables independientes), P0 se denomina intersepto y P1, p2 y así sucesivamente se denominan el coeficiente de regresión de variables independientes. Para seleccionar el umbral de decisión óptimo A de Y (que la tos es neumónica si Y está por encima de A, de lo contrario no es neumónica) utilizamos el análisis de la Curva Operativa del Receptor (ROC - Receiver-Operating Curve).
Utilizamos una técnica de validación cruzada de exclusión de 1 (LOV - Leave-1-Out cross Validation) para el diseño de LRM. A medida que sugiere el nombre, la técnica LOV implica el uso de datos de todos los pacientes, excepto por que se entrenen el modelo y eventos de tos de un paciente para validar el modelo. Este procedimiento se repitió sistemáticamente de modo que cada paciente en Dmd se usó como datos de validación exactamente una vez. Al final de este procedimiento, terminamos en modelos Nmd de LRM diferentes. Para evaluar el desempeño de los Nmd LRM diseñados, se calcularon medidas de desempeño tales como Sensibilidad, Especificidad, Precisión, Valor Previsto Positivo (PPV), Valor Previsto Negativo (NPV), Estadística Kappa (K) de Cohen.
(i) Selección de características: La selección de características es una técnica para seleccionar un subconjunto de características relevantes para construir un modelo de aprendizaje robusto. En teoría, la selección de características óptima requiere una búsqueda exhaustiva de todos los subconjuntos posibles de características. Sin embargo, hacerlo para una gran cantidad de características será computacionalmente intensivo y poco práctico. Por lo tanto, se buscaron un conjunto satisfactorio de características usando el valor de p. En el diseño LRM, se calcula un valor p para cada característica e indica cómo la característica contribuyó al desarrollo del modelo. Las características importantes tienen un valor p bajo. Se utilizó esta propiedad de LRM para seleccionar una combinación razonable de características (variables independientes con valor de p bajo) que facilitan la clasificación, en el modelo durante la fase de entrenamiento. Calcular valor p medio para características Fc sobre Nmd LRM. Seleccionar las características con valor p medio menor que un valor umbral dado por p ésimos. Sea C fs el subconjunto de características de tos seleccionadas de Cf y Fcs el conjunto de funciones candidatas formado por características de aumento con características de tos seleccionadas.
(ii) Diseño de LRM robusto: Una vez que se conoce el subconjunto Fcs, se utilizan esas características y construimos un nuevo conjunto de LRM una vez más siguiendo otros validaciones de exclusión. Al final de este procedimiento, tenemos un número Nmd de LRM usando Fcs como conjunto de características de entrada.
[Etapa 3] Seleccionar un buen modelo de Nmd LRM - A partir de los LRM candidatos que usan las características seleccionadas Fcs como características de entrada, seleccionamos un modelo como el mejor basado en el algoritmo de agrupación k-media. En el algoritmo de agrupación k-media, el objetivo es dividir q puntos de datos en un espacio ddimensional en k grupos, de modo que dentro del grupo, la suma de las distancias al cuadrado desde el centroide se minimice. El problema en nuestras manos es seleccionar un buen modelo de los modelos Nmd disponibles para nosotros. Para hacerlo, se dividieron los Nmd modelos en elo espacio d -dimensional en k=2 grupos, es decir, grupo de modelos de alto desempeño y grupo de modelos de bajo desempeño. Se estableció la dimensión del espacio d igual a los parámetros del modelo más tres medidas de desempeño (sensibilidad, especificidad y kappa). A continuación, desde el grupo de los modelos de alto desempeño, se seleccionó ese modelo que tenía el valor de error cuadrado medio más bajo con respecto al centroide. Vamos a $ ífc representar el LRM seleccionado y^ Rfces el umbral de decisión de probabilidad correspondiente (valor determinado usando curvas ROC de modo que el desempeño del clasificador se maximiza) para una combinación específica de características.
Una vezque se elige 9 ífc , se fijan todos los parámetros del modelo y terminan completamente el procedimiento de entrenamiento. El modelo9ífcse usa entonces como el mejor modelo para clasificar cada evento de tos individual en grupos de “ tos neumónica” o “ tos no neumónica” .
[Etapa 4] Índice de Tos Neumónica - En esta etapa, para cada Nmd = 66 paciente en Dmd calculamos un Indice de Tos Neumónica (PCI) usando la definición a continuación.
D efin ición del índ ice de Tos neum ónica (PCI): Sea ‘P’ el número total de toses grabadas y analizadas a partir de qr>fc un paciente. Y sea que ‘Q’ de ‘P’ toses sean clasificadas como tos neumónica usando LRM seleccionado’71 en la etapa 3. A continuación, se calcula el índice PCI para el paciente
A continuación, utilizando el análisis ROC, se calculó un umbral PCI °(optimizado para alta sensibilidad al tiempo que mantiene una especificidad aceptable) para clasificar el paciente en dos clases, “ Neumonía” y “ No Neumonía “ . F. Prueba de LRM seleccionada 4?fcy PCI en D v
Siguiendo el procedimiento descrito en la sección 2-B [Etapa 1] y usando los datos de sonido de eventos de tos de Nv = 25 pacientes en conjunto de datos Dpv, calcular la matriz de características de eventos de tos McDpv de tamaño C pv x C f. C Pv es eventos de tos totales en Dpv y C f = 63 representa características basadas en la tos. Formar McDpv de MfCsDpv aumentando las características clínicas con características de tos seleccionadas C fs. Usar LRM ^ fc seleccionada en la Sección 2-B [Etapa 3] para clasificar los datos en MfcsDPv en clases “ tos neumónica” y “ tos no neumónica” . Después, usando (4) calcular el PCI para cada paciente en Dpv. Aplicar PCIésimos calculado en la sección 2-B [etapa 4] para PCI y clasificar a los pacientes como “ Neumonía “ si PCI>PCIésimo y “ no Neumonía” en caso contrario.
Comparar los resultados de la clasificación automática por PCI con la de un profesional clínico a cargo y calcular las medidas de desempeño.
D. Base de datos y diagnóstico clínico
Se usaron grabaciones de sonido de N = 91 pacientes (48 masculinos y 43 femeninos). La edad media de los sujetos fue de 3 años y 1 mes (desviación estándar 3 años y 11 meses). El intervalo de edad de los sujetos varió de 1 mes a 15 años. De los 91 sujetos, 63 fueron pacientes con neumonía y 28 eran pacientes sin neumonía. Los pacientes que no tenían neumonía tenían enfermedades tales como asma, bronquitis, rinofaringitis y otros (sibilancias, toncilofaringitis, enfermedad cardíaca, inhalación de cuerpos extraños). El rayo X del tórax (CXR) se realizó en 65 pacientes para confirmar el diagnóstico. De los 26 pacientes en los que no se hizo CXR, ocho habían sido diagnosticados clínicamente como pacientes con neumonía y 17 como pacientes sin neumonía. La Figura 18 proporciona la distribución de categorías de edad y enfermedad en la base de datos.
E. Características de sonidos de tos
La Figura 4 muestra un ejemplo típico de formas de onda de tosa de neumonía, tos de asma, tos de4 bronquitis y tos de bronquiolitis y su correspondiente espectrograma de potencia. Puede verse una clara diferencia característica entre la tos de neumonía y otras toses en duración y la magnitud del espectrograma de potencia. La tos de neumonía es de corta duración con un espectro de potencia ampliamente extendido de hasta 20 kHz. Por el contrario, otras toses son de larga duración con un espectro de potencia de hasta 15 kHz. La duración media de la tos de neumonía (0,26 ±0,7s usando n = 401 toses) fue significativamente menor (prueba t de 2 colas, p < 0,005, t = -8,6786) que la de otras toses (0,32 ± 0,08s usando n = 198 toses). Las formas de onda sonoras de la tos estaban generalmente limpias con alta relación señal-ruido (SNR). La SNR media para Dmd fue de 15,8 ± 5,6 db (máximo = 28,05db y mínimo = 2,08 db) y que para Dpv fue de 16,7 ± 5 db (máximo = 26,7 db y mínimo = 7,9 db).
F. Diagnóstico de neumonía basado en criterios de la OMS
La Tabla 19 muestra la tabla de contingencia para el diagnóstico de la neumonía usando criterios de la OMS y la neumonía clínicamente diagnosticada.
Las directrices de la OMS para el diagnóstico de neumonía en entornos comunitarios están diseñadas para niños con grupo de edad de 2 meses a 5 años 18. Los “ lactantes de menos de 2 meses con signos de neumonía se encaminan rápidamente al centro de salud más cercano porque tienen un alto riesgo de sufrir una enfermedad grtave o muerte” 18. Por lo tanto, la tabla 19 se genera usando #68 sujetos en nuestra base de datos, que caen en el intervalo de edad de 2 meses a 5 años. Los criterios de la OMS lograron una alta sensibilidad del 83 % en los casos de neumonía clínicamente confirmada, sin embargo, presentaron una mala especificidad del 47 %.
G. Diagnóstico de neumonía usando modelo diseñado en entrenamiento / conjunto de datos de validación
A partir de N=91 pacientes se analizó un total de C=599 eventos de tos. Se analizó un promedio de 6,6 eventos de tos por pacientes (mínimo = 2 y máximo = 12 por cada paciente). En la sección 2-A, se dividieron N=91 pacientes en dos conjuntos de datos Dmd (conjunto de datos de entrenamiento/validación) y Dpv (Conjunto de datos del estudio prospectivo). Dmd tiene datos de Nmd = 66 pacientes con Cmd = 440 eventos de tos (promedio = 6,7 ± 2, mínimo = 2, máximo = 12). Dpv tiene datos de Nv = 25 pacientes con Cpv = 159 eventos de tos (promedio = 6,4 ± 1, mínimo = 5, máximo = 10).
Matrices de característica Siguiendo el procedimiento dado en la sección 2-B [Etapa 1] se calculó la matriz de características Mc. Se usó n=3 para dividir cada segmento de tos en 3 subsegmentos. Configuración n=3 dio 63 características matemáticas a partir de cada evento de tos, que consiste en (36 MFCC) (12 FF) (3 cada uno de BSG, NGS, LogE, ZCR y Kurt). Aumento de características clínicas con características de tos. Se crearon 6 matrices de características de eventos de tos Mfc. Después de la técnica de LOV Nmd = 66 LRM se diseñaron (ya que Nmd = 66 pacientes en Dmd). Clasificación de tos neumónica usando LRM antes de la selección de característica: Para F 1 la combinación de características (solo características matemáticas de la tos), la sensibilidad media del entrenamiento y la especificidad sobre 66 LRM en la clasificación de eventos de tos en clases de tos neumónica y no neumónica fueron 81 ± 1 %. La sensibilidad y especificidad de validación fueron de 63 % y 52 % respectivamente. Cuando se incluyó BrI como característica, la sensibilidad y especificidad del conjunto de validación salto al 71 % y 55 % respectivamente. Y cuando todas las características, edad, presencia de fiebre y BrI se incluyeron en el LRM de trenamiento junto con características matemáticas de la tos, la sensibilidad y la especificidad aumentan aún más al 73 % y 62 %. La Tabla 20 proporciona el desempeño del modelo en la clasificación de eventos de tos en clases de tos neumónica y no neumónica usando diferentes combinaciones de características.
Tabla 20 - Desempeño de los modelos LRM en la clasificación de eventos de tos en las clases de “tos neumónica” y “tos no neumónica” en el conjunto de datos de entrenamiento/validación Dmd cuando todas las características se usaron para entrenar el modelo. Fc representa la combinación de características diferentes.
Clasificación de tos neumónica usando LRM después de la selección de la característica: Siguiendo el procedimiento descrito en la sección 2-B [Etapa-2] y usando el valor p, se seleccionaron características para cada uno de Fcs. La Tabla 6 proporciona los detalles de las características de la tos seleccionadas y pésimos utilizados para la selección.
Tabla 21 - 30 características de tos se seleccionaron de Cf = 63 características después de la etapa de selección de características.
La Tabla 22 proporciona el desempeño del modelo después de la selección de características en la clasificación de eventos de tos en clases de tos neumónica y no neumónica.
Tabla 22 - Desempeño de los modelos LRM en la clasificación de eventos de tos en las clases de “tos neumónica” y “tos no neumónica” en el conjunto de datos de entrenamiento/validación Dmd cuando se usaron características seleccionadas para entrenar el modelo.
Según la Tabla 22, se observa una mejora general en el desempeño del modelo después de la selección de características para la totalidad de Fc. La sensibilidad y especificidad de validación para F1s, donde solo se usaron características matemáticas de los eventos de tos para entrenar el modelo, aumentaron al 69 % y 64 % respectivamente con K = 0,31. Se logró una mejor sensibilidad y especificidad del 80 % y 73 % respectivamente para F6s.
Clasificación basada en PCI: De
LRM diseñados para cada Fcs utilizando datos de
modelo robusto se seleccionó usando el procedimiento de agrupamiento k-medio como se describe en la sección
2-B [Etapa 3]. El modelo seleccionado 4 ífcy todos sus parámetros se fijaron para su uso en la etapa [4] de la sección 2-B. Usando la definición proporcionada en la sección 2-B [Etapa 4], se calculó el índice PCI para cada paciente. Mediante el análisis ROC de un PCIésimo se seleccionó y aplicó en PCI para clasificar a los pacientes en “ Neumonía” y “ no Neumonía” . La Tabla 23 muestra los resultados de la clasificación de neumonía/no neumonía basada en PCI para 6 combinaciones de características Fcs.
9?fc
Tabla 23 - Desempeño del LRM seleccionado en el conjunto de datos de entrenamienjto/validación D md, para diagnosticar la neumonía mediante el uso del Índice de Tos Neumónica.
Todas las combinaciones de características lograron una sensibilidad y especificidad superior al 90 %, excepto por F3s que registró una especificidad ligeramente menor del 86 %. F1s que usa solo características de tos tiene la sensibilidad del 93 % y la especificidad 90,5 % con K=0,83.
H. Diagnóstico de neumonía usando modelo diseñado en el conjunto de datos del estudio prospectivo
El modelo 3Jfc seleccionado en la sección 2-B [Etapa 3], se probó en un conjunto de datos Dv completamente nuevos que consistían en Npv = 25 pacientes y Cpv = 159 eventos de tos. Se probó el modelo tanto para el desempeño como para la clasificación de eventos de tos en tos neumónica y no neumónica y en la separación de los pacientes con neumonía por el uso de PCI.
q?fc
La Tabla 24 muestra el desempeño del LRM seleccionado en la clasificación de eventos de tos en clases de tos neumónica y no neumónica.
Tabla 24 - Desempeño del LRM seleccionado 4 í rL en un conjunto de datos prospectivos Dpv en la clasificación de eventos de tos en clases “tos neumónica “y “tos no neumónica” .
La Tabla 25 muestra el desempeño del modelo en la clasificación de pacientes en neumonía y no neumonía.
Tabla 25 - Desempeño del LRM seleccionado ' ^)?fl en un conjunto de datos prospectivo Dpv, para diagnosticar neumonía mediante el uso del Índice de Tos Neumónica.
Para la clasificación de la tos, modelo ^ f6 (características seleccionadas de la tos junto con la presencia de fiebre, f l
edad y Brl) logró la mejor clasificación con sensibilidad = 88 % y especificidad = 85 %. P ^ i que usaban solo características de tos tienen sensibilidad y especificidad del 83 % y 58 % respectivamente. Al separar a los pacientes q } j tfl i « m?f u3 « o?}ft4 < qV j i}Lf6
con neumonía y sin neumonía, los 3 mejores modelos fueron y todos con una concordancia kappa
superior a 0,7, una concordancia sustancial, 91fi
Alcanzaron una alta sensibilidad y especificidad del 94 % y el 75 %, respectivamente.
VI. 4. Discusión y conclusión - 2° procedimiento de diagnóstico de neumonía
Lo anterior ha proporcionado un procedimiento automatizado para diagnosticar neumonía usando sonidos de la tos. El procedimiento se basa inicialmente en la clasificación de eventos de tos individuales en las clases de “tos neumónica” y “tos no neumónica” y, a continuación, el cálculo de un Índice de Tos Neumónica (PCI - Pneumoic Cough Index) sobre todos los eventos de tos registrados. Trabajando en 599 eventos de tos a partir de 91 pacientes pediátricos diagnosticados con un intervalo de enfermedades respiratorias, mostramos el procedimiento capaz de clasificar la neumonía a una sensibilidad > 90 % mientras se mantiene la especificidad en > 85 %.
En lo que respecta a los inventores, este es el primer intento en el mundo para desarrollar un modelo objetivo para el diagnóstico de neumonía centrado alrededor de los sonidos de la tos. Los resultados indican la viabilidad de tomar un enfoque centrado en la tos en el diagnóstico de la neumonía en las regiones deficientes de recursos. Además, usando características derivadas solamente de la tos se obtuvo una sensibilidad > 90 % en una especificidad del 75 %. Se puede registrar la tos con instrumentación sin contacto, y los algoritmos se pueden implementar en plataformas ubicuas tales como teléfonos inteligentes en una forma lista para ser utilizada por una persona mínimamente capacitada. El dispositivo no requerirá contacto físico con el sujeto, lo que facilita la esterilización y requiere un mínimo entrenamiento del operador para el uso en campo. La tecnología, en la versión más simple, requerirá entre 5-10 sonidos de tos y proporcionará automáticamente un diagnóstico. Se espera que dicho sistema sea un paradigma que cambie la novedad en el campo del diagnóstico de neumonía en regiones remotas.
La simplicidad de la tecnología propuesta y la posible implementación de bajo coste en dispositivos ubicuos hacen que nuestro enfoque sea valioso en el monitoreo a largo plazo. También tendrá un valor estratégico sustancial en el desarrollo de nuevas vacunas como estrategias bien administradas para la neumonía infantil. Los ensayos clínicos de nuevas vacunas para neumonía realizadas en regiones limitadas de recursos del mundo requieren herramientas fiables para medir la eficacia de la intervención. Lo mismo es cierto para evaluar la eficacia de cualquier estrategia de gestión de neumonía nueva dirigida a poblaciones grandes. No hay ningún campo de estándares de oro desplegables para diagnosticar neumonía, especialmente la enfermedad en estadio temprano (no grave) donde incluso los rayos X de tórax fallan 4. El algoritmo de la OMS existente está limitado debido a su bajo desempeño de diagnóstico. Aunque el algoritmo cumple una función muy útil en la recogida de casos potenciales de neumonía, el coste de hacerlo, la baja especificidad, dificultan su uso en la evaluación de la validez de una nueva intervención.
Clasificador de tos automatizado utilizando regresión logística
La Figura 20 muestra el diagrama de bloques del procedimiento automatizado de clasificación de tos usando regresión logística. Se divide en cuatro fases, (a) procedimiento de adquisición de datos (B) creando una base de datos de sonido de tos y clasificación en clases húmedas/secas por puntuación de expertos (C) Diseño de ensayos de clasificador automático (D) prueba del clasificador en conjunto de datos de sonido de tos prospectivo. En la Sección II-A a la Sección II-D, se describen detalles del procedimiento.
A. Adquisición de datos
El entorno de adquisición de datos clínicos para este trabajo es la unidad de medicina respiratoria del Hospital Sardjito, Gadjah Mada University, Indonesia. La Tabla 26 enumera los criterios de inclusión y exclusión de sujetos.
Tabla 26 - Criterios de inclusión y exclusión para sujetos
Todos los pacientes que cumplían los criterios de inclusión se contactaron. Se realizó un consentimiento informado utilizando el formulario aprobado por los comité de ética humana de la Universidad de Gadjah Mada y la Universidad de Queensland. Los pacientes fueron reclutados dentro de las primeras 12 horas su admisión. Después de la evaluación médica inicial, grabaciones de sonido de se realizaron durante las siguientes 4-6 horas en el entorno natural de la sala respiratoria.
Se realizaron grabaciones de sonido usando dos sistemas,
1. Sistema de adquisición de datos computarizados - Un sistema de alta fidelidad con una unidad conversora de preamplificador de calidad profesional y convertidor ND, (Modelo Móvil-Pre USB, M-Audio, California, EE. UU.) y un par coincidente de micrófonos de bajo ruido que tienen un patrón de haz en forma de hipercardiode (Modelo NT3, RODE, Sydney, Australia). Se utilizó software de audición de Adobe versión 2 para registrar los datos de sonido en el ordenador portátil. - Consulte la Figura 1 para una ilustración de este tipo de disposición.
2. Sistema de grabación portátil - Una grabadora de audio de gama alta, portátil y liviana que funciona con 2 pilas AA (Olympus LS-11) con dos micrófonos de condensador de precisión.
En ambos sistemas de grabación de sonido usamos una tasa de muestreo de 44,1 kHz con una resolución de 16 bits (grabación de calidad de CD). La distancia nominal del micrófono a la boca del paciente era de 50 cm, pero podría variar de 40 cm a 70 cm debido a los movimientos del paciente. Para cada paciente, también recibimos el diagnóstico final, así como todos los resultados de los exámenes clínicos y de laboratorio.
B. Conjunto de datos de sonido de tos y clasificación en húmedo o seco por calificadores humanos expertos
Sea N el número de pacientes cuya grabación de sonido se usa y C es número total de eventos de tos de N pacientes. Estos eventos de tos C se segmentaron manualmente después de la selección a través de 6-8 horas de datos de sonido de cada paciente. No hay ningún procedimiento aceptado para el marcado automático de inicio y final de un evento de tos. El marcado manual sigue considerando el estándar de oro. Después de escuchar cuidadosamente, se marcaron manualmente el inicio y el final de todos los eventos de tos.
Se dividieron N pacientes con C eventos de tos en dos conjuntos de datos, (i) DS1 (conjunto de datos de diseño de modelo) y (ii) DS2 (conjunto de datos prospectivo de estudio). Los pacientes se dividieron en DS1 y DS2 en base al orden de presentación a la clínica respiratoria del hospital. Los pacientes en los conjuntos de datos DS1 y DS2 fueron mutuamente excluyentes.
(i) DS1-consistía en C1 eventos de tos de N1 pacientes. Se usaron eventos de tos de este conjunto de datos para diseñar el modelo óptimo.
(ii) DS2-consistía en C2 eventos de tos a partir de N2 pacientes. Se usaron eventos de tos de este conjunto de datos para probar el modelo diseñado. Los eventos de tos de DS2 fueron ciegos al procedimiento de diseño del modelo.
Dos calificadores expertos con experiencia de 15-20 años en enfermedades respiratorias pediátricas a continuación puntuaron eventos de tos de dos conjuntos de datos en dos clases, húmeda o seca. Los calificadores fueron cegados al historial y diagnóstico del sujeto. Esta clasificación manual se considera la norma de referencia frente a qué resultados de la clasificación automática se comparan.
C. Diseño del clasificador de sonido de tos
Para diseñar un sistema para la clasificación automática de los sonidos de la tos, se usaron eventos de tos de DS1. Sea DS11 el subconjunto de DS1 que contiene esos eventos de tos en los que ambos calificadores estuvieron de acuerdo en la clase de sonidos de tos. Tenemos C11 eventos de tos en DS11. Uso de eventos de tos en DS11 para diseñar modelo clasificador automático. Este es un procedimiento de tres etapas.
[Etapa 1] Cálculo de la matriz de características de evento de tos: En esta etapa, el vector de características que contiene características matemáticas ‘F’ se calcula a partir de cada uno de los eventos de tos C11 y una matriz de características de evento de tos ‘Mdsu’ de tamaño, se formó C11 x F. Para calcular las características ‘F’ de un evento de tos usar las etapas abajo.
(i) Sea x una señal de sonido de tiempo discreto de un evento de tos.
(ii) Normalizar x dividirla por valor máximo absoluto.
(iii) Segmentar x en subsegmentos no superpuestos de igual tamaño ‘n’. Sea x i el subsegmento iésimo de x, donde i = 1,2, 3,.., n.
(iv) Calcular las características siguientes para cada subsegmento y formar funciones F de vectores de características Puntuación de Biespectro (BGS), Puntuación de No-Gaussianidad (NGS), Frecuencias formantes (FF), Tono (P -Pitch), Energía logarítmica (LogE), Cruces por cero (ZCR), Curtosis (Kurt) y Doce coeficientes cepstrales de frecuencia de Mel (MFCC).
(v) Repetir etapas (i) -(iii) para todos los eventos de tos C11 y la matriz de características de evento de tos Mdsii de tamaño C11 x F.
[Etapa 2] Diseño del clasificador automático: Se utilizó un Modelo de Regresión Logístico (LRM) como clasificador de patrones. El LRM es un modelo lineal generalizado, que usa varios predictores independientes para estimar la probabilidad de un evento categórico (variable dependiente). En este trabajo, se supone que la variable dependiente Y es igual a “ uno” (Y=1) para la tos húmeda y “cero” (Y=0) para la tos seca. Un modelo se deriva usando la función de regresión para estimar la probabilidad Y=1 (es decir, el evento de la tos pertenece a la categoría de “ tos húmeda”) dadas las variables independientes (es decir, las características F) de la siguiente manera:
En (1) y (2) f1, f2,...fF son los elementos del vector de características (variables independientes), P0 se denomina intersepto y P1, p2 y así sucesivamente se denominan el coeficiente de regresión de variables independientes. Para seleccionar el umbral de decisión óptimo A de Y (que la tos es húmeda si Y está por encima de A, y seca de otro modo), se usó el análisis de la Curva Operativa del Receptor (ROC - Receiver-Operating Curve).
Utilizar datos en la matriz Mdsh (Observaciones de C11 desde variables independientes F) y adoptar la técnica de validación cruzada de exclusión de 1 (LOV - Leave-1-Out cross Validation) para el diseño de LRM. A medida que sugiere el nombre, la técnica LOV implica el uso de datos de todos los eventos de tos, excepto uno para entrenar el modelo y un evento de tos para validar el modelo. Este procedimiento se repitió sistemáticamente C11 veces de manera que se usó cada evento de tos en DS11 como datos de validación una vez. Esto resultó en el número Lc11 de LRM.
Para evaluar el desempeño del Lc11 diseñado, se calcularon medidas de desempeño tales como Sensibilidad, Especificidad, Precisión, Valor predictivo positivo (PPV), Valor predictivo negativo (NPV), Estadística Kappa (K) de Cohen. Para interpretar los valores K, consulte el apéndice A2.
Modelo de regresión logística de diseño (LRM) para
(i) Selección de características: La selección de características es una técnica para seleccionar un subconjunto de características relevantes para construir un modelo de aprendizaje robusto. En teoría, la selección de características óptima requiere una búsqueda exhaustiva de todos los subconjuntos posibles de características. Sin embargo, hacerlo para una gran cantidad de características será computacionalmente intensivo y poco práctico. Por lo tanto, se buscaron un conjunto satisfactorio de características usando el valor de p. En el diseño de LRM, se calcula un valor p para cada característica y se indica cómo la característica contribuyó al desarrollo del modelo. Las características importantes tienen un valor p bajo. Se utilizó esta propiedad de LRM para seleccionar una combinación razonable de características (variables independientes con valor de p bajo) que facilitan la clasificación, en el modelo durante la fase de entrenamiento. Calcular el valor p medio para las características ‘F’ sobre C11 LRM. Seleccionar las características con valor p medio inferior a pésimos. Sea F s el subconjunto de características seleccionadas de F.
(ii) Diseño de LRM robusto: Crear una matriz M'dsh de tamaño C11 x Fs de M DS11. Matriz M'dsh es una matriz de características de eventos de tos con solo características seleccionadas Fs de los eventos de tos C11 en DS11. Uso de M' ds11 y adopción de LOV, re-entrenar C11 LRM.
[Etapa 3] Seleccionar un buen modelo de Lch LRM: A partir de Lc11 LRM seleccionamos un modelo como el mejor, usando el algoritmo de agrupación de k-media 9 para probar el conjunto de datos de estudio prospectivo DS2. En el algoritmo de agrupación de k-media, el objetivo es dividir q puntos de datos en el espacio d-dimensional en k grupos, de modo que dentro del grupo la suma de las distancias al cuadrado desde el centroide se minimice.
El problema en nuestras manos es seleccionar un buen modelo de L c i i modelos disponibles para nosotros. Para hacerlo, se dividieron L C11 modelos en el espacio a-dimensional en k=2 grupos, es decir, grupo de modelos de alto desempeño y grupo de modelos de bajo desempeño. Se estableció la dimensión del espacio d igual a los parámetros del modelo más tres medidas de desempeño (sensibilidad, especificidad y kappa). A continuación, desde el grupo de los modelos de alto desempeño, se seleccionó ese modelo que tenía el valor de error cuadrado medio más bajo con
respecto al centroide. Vamos a ’R representar el LRM seleccionado y ^ el umbral de decisión de probabilidad correspondiente (valor determinado usando curvas ROC de manera que se maximice el desempeño del clasificador). Una vez-Kque se elige, se fijan todos los parámetros del modelo y su uso para clasificar los sonidos de la tos en el conjunto de datos prospectivo DS2.
D. Prueba de LRM seleccionado ÍH
Siguiendo el procedimiento descrito en la sección C [Etapa 1] y usando los eventos de tos del conjunto de datos DS2, calcular la matriz de características de eventos de tos Mds2 de tamaño C2 x F. C2 es el total de eventos de tos en DS2 y ‘F‘ es el vector de características. Formar M'ds2 de Mds2 seleccionando solo características Fs robustas. Utilizar LRM seleccionado 4Í para clasificar los datos en M'ds2 en clases húmedas o secas. Proceso de decisión de clase húmeda/seca a partir de la salida de-)'es el siguiente: Supongamos que la salida de 91 a una entrada de tos dada
sea ^ 7 A continuación, la tos se clasifica como húmeda si y como seca en caso contrario.
Comparar los resultados de la clasificación automática por SRcon los de los calificadores expertos y calcular las medidas de desempeño descritas en la sección C [Etapa 2]. Todos los algoritmos se desarrollaron usando lenguaje de programación de software MATLAB versión 7.14,0,739 (R2012a).
Datos de sonido de tos y acuerdo entre calificadores expertos
Los inventores usaron datos de registro de sonido de N=78 pacientes (41 eran masculinos y 37 eran femeninos). La edad media de los sujetos fue de 2 años y 11 meses. El intervalo de edad de los sujetos varió de 1 mes a 15 años y tenías enfermedades tales como asma, neumonía, bronquitis y rinofaringitis. La Tabla 27 proporciona los detalles demográficos y clínicos de los pacientes.
Tabla 27 - Datos demográficos y clínicos del sujeto
A partir de N=78 pacientes se analizó un total de C=536 eventos de tos. Se analizaron como promedio 7 eventos de tos por pacientes (mínimo = 2 y máximo = 13). El conjunto de datos DS1 tiene C1=385 eventos de tos de N1=60 pacientes y el conjunto de datos DS2 tiene C2=151 eventos de tos de N2 = 18 pacientes.
La Tabla 28 muestra la tabla de contingencia entre dos calificadores en la clasificación de sonidos de la tos a partir de DS1 y DS2, en dos clases húmeda y seca.
Tabla 28 - Tabla de contingencia entre calificadores humanos para clasificar la tos húmeda/Y. K = 0,56 y % de acuerdo = 80,5 % para DSl y K = 0,54 y % de acuerdo = 77,5 para Ds 2.
En DS1 de los 385 eventos de tos, los calificadores estuvieron de acuerdo C11=310 veces (80,5 %) en las clases de eventos de tos que se usaron para formar el subconjunto DS11. En el conjunto de datos DS2 estuvieron de acuerdo 117 veces de 151 (77,5 %). La concordancia kappa entre el Calificador 1 y el Calificador 2 es 0,55 para DS1 y 0,54 para DS2. De los 310 eventos de tos en DS11, 82 pertenecían a la clase húmeda y 228 pertenecían a la clase seca. Los eventos de tos de DS11 se usaron luego para diseñar modelos LRM descritos en la sección II-C.
E. Características de sonidos de tos en nuestras bases de datos
La duración media de la tos seca en DS11 fue de 260 ± 77 ms (calculado usando 228 toses secas) y la de la tos húmeda fue de 238 ± 54 ms (calculada usando 82 toses húmedas). La Figura 21 muestra un ejemplo típico de forma de onda de tos seca y forma de onda de tos húmeda de dos pacientes, ids #35 & #38 respectivamente. Las formas de onda sonoras de la tos estaban generalmente limpias con alta relación señal-ruido (SNR). La relación señal a ruido media para el DS11 fue de 15,2 ± 5,5 db (máximo = 28,65 db y mínimo = 2,9 db) y para el DS2 fue de 18,6 ± 4,5 db (máximo = 27,8 db y mínimo = 11,1 db). Las Figuras 23A y 22B son histogramas de SNR para el sonido de tos en DS11 y DS2.
El inicio y el final de cada tos se marcaron cuidadosamente por un operador humano después de escuchar los sonidos de la tos como se muestra en la Figura 21. Siguiendo el procedimiento dado en la sección II-C-[Etapa 1] se computó la matriz de características Md s u . Se usó n=3 para dividir cada segmento de tos en 3 subsegmentos. En la bibliografía, los médicos y científicos similares han descrito sonidos de tos que consisten en 3 fases, (i) ráfaga de apertura inicial, (ii) seguida por flujo de aire ruidoso y por último (3) cierre glotal 24, 25. Se ha demostrado que estas fases portan diferente información significativa específica para la calidad de la tos, húmeda o seca. Sobre esta base, cada segmento de tos se dividió en 3 sub-segmentos. Configuración n=3 condujo a un vector de características F de longitud 66 que consiste en las siguientes características (nx 12 MFCC) (n x 4 FF) ([n x [BGS, NGS, P, LogE, Zcr, Kurt]). A partir de C11 =310 eventos de tos y F=66 características, se creó la matriz de características de eventos de tos Md s u .
F. Clasificación automática utilizando LRM
Matriz de características y Desempeño de LRM durante la etapa de entrenamiento: Después de la técnica de LOV, se diseñaron Lc h = 310 LRM.
La sensibilidad al entrenamiento medio y la especificidad para los 310 LRM fueron 9 ± 1 % y 93 ± 0,5 % respectivamente. La sensibilidad a la validación y la especificidad para estos modelos fueron 62 % y 84 % respectivamente. La Tabla 4-(A) proporciona los resultados de clasificación detallados cuando todas las características F=66 se usaron para entrenar los LRM.
Tabla 29: El desempeño de LRM antes y después de la selección de características. Las estadísticas proporcionadas en la tabla son la media | desviación estándar. El intervalo de confianza del 95 % para la media del conjunto de datos de entrenamiento está provisto en la parte inferior. Para el Calificador 1 y el Calificador 2 el tamaño de la muestra es C1 = 385 eventos de tos de N1 = 60 pacientes en conjunto de datos DS1. De 385 eventos de tos, los Calificadores tuvieron consenso húmedo/seco en C11 =310 eventos de tos.
Siguiendo el procedimiento descrito en la sección II-B [Etapa 2] y usando pésimos = 0,06, seleccionamos Fs = 31 características. La Figura 23 muestra el “valor de p” asociado a F=66 características calculadas sobre C11 =310 LRM. Se seleccionaron todas las características que tienen “valor p” medio menor que pésimos = 0,06. Las características seleccionadas fueron 1 cada una de la puntuación de Biespectro, curtosis, y número de cruces por cero, 2 cada uno de puntuación de no-Gaussianidad y energía logarítmica, 5 de frecuencias formantes y 19 de coeficientes cepstrales de frecuencia de Mel. La Tabla 30 proporciona detalles de la característica seleccionada para diseñar el LRM final.
Tabla 30: Se calcularon las F=66 características de cada segmento de tos usando n=3 en la sección II-C [Etapa 1]. 'V' indica que se seleccionó una característica para diseñar el modelo final en la sección II-C [Etapa 2].
Según esta tabla, las características basadas en MFCC fueron más dominantes. De 31 características seleccionadas, 19 características contribuyeron a partir de diferentes componentes de MFCC. Después de MFCC las frecuencias formantes realizaron la segunda contribución más dominante con 5 características. Además, a excepción de la 4 a frecuencia formante y las características basadas en el tono, que se omitieron completamente, todas las demás características contribuyeron a las características de al menos un subsegmento hacia la construcción del modelo LRM final.
Cuando solo las características seleccionadas Fs se usaron para reentrenar LRM, la sensibilidad media del entrenamiento y la especificidad se registraron como 87 ± 1 % y 88 ± 0,5 % respectivamente y la sensibilidad y especificidad de validación fueron 81 % y 83 %. La concordancia kappa de la validación entre el LRM y los calificadores fue de 0,46 cuando todas las características se usaron para entrenar LRM y aumentó a 0,58 cuando solo se usaron características seleccionadas. La Tabla 29-(B) proporciona los resultados detallados de entrenamiento y validación después de la selección de características.
Selección de LRM (9?):A partir de Leu = 310 LRM diseñados utilizando datos del DS11, un modelo óptimo 9? fue seleccionado usando el procedimiento de agrupamiento de k-media como se describe en la sección II-C-[Etapa 3]. Los modelos se agruparon en dos grupos, modelo de alto desempeño y modelos de bajo desempeño basados en parámetros de modelos y medidas de desempeño. De los 310 modelos, 202 se agruparon en un grupo de modelos de alto desempeño y 108 en un grupo de modelos de bajo desempeño. El modelo LRM #26 tiene el valor de error cuadrático medio más bajo con respecto al centroide de los modelos de alto desempeño. Este modelo 9 ifue seleccionado y todos sus parámetros se fijaron para uso futuro.9 Í Fue probado en el conjunto de datos prospectivos DS2. Desempeño de 9? en conjunto de datos prospectivos DS2: La Tabla 31 proporciona los resultados de la clasificación de contra los calificadores expertos.
Tabla 31 - Desempeño de*^ en el conjunto de datos prospectivo del conjunto de datos DS2.
Cuando el Calificador 1, la clasificación húmeda/seca se usó como patrón de referencia, A tiene la sensibilidad de 77,5 %, especificidad de 76 % y concordancia kappa de 0,47. Para el Calificador 2, los resultados fueron sensibilidad 75%, especificidad 64% y kappa 0,31. Cuando el modelo 91 se probó solo en aquellos eventos en los que el Calificador 1 y el Calificador 2 concordaron en la clasificación (117 eventos de tos), la sensibilidad saltó a 84 % y el valor kappa a 0,51. La Tabla 32 muestra los datos de contingencia.
Tabla 32: Tabla de contingencia para LRM seleccionado probado en el conjunto de datos DS2. K = 0,51.
Resultados de LRM cuando se corresponden para Edad y Género: La Tabla 33 muestra el desempeño del LRM en DS11 y DS2 cuando se corresponde para edad y género.
Tabla 33 - Resultados de validación de LRM para el conjunto de datos DS11 y el conjunto de datos prospectivo DS2 con edad y género correspondidos.
Debido a la disponibilidad limitada de datos, se consideraron solo 4 divisiones; (i) masculino con edad <= 60 meses, (ii) femenino con edad <= 60 meses, (iii) masculino con edad > 60 meses y (iv) femenino con edad > 60 meses. Según esta tabla durante el estadio de diseño del modelo, generalmente no se observó diferencia de significancia en el desempeño de validación del modelo en cuatro divisiones en comparación con cuando no se consideró ninguna división, tabla 29 & tabla 33(A). Similar a esto en el conjunto de datos prospectivo DS2, modelo se lección ado 91 realizado bien en toda la división (tabla 31 & tabla 33 (B), excepto en la 3a división (masculino con edad > 60) donde el desempeño fue muy pobre.
Las realizaciones de la presente invención abarcan un procedimiento de objetivo automatizado para clasificar los sonidos de la tos en categorías húmeda y seca. En lo que respecta a los autores de la invención, este es el primer intento de desarrollar tecnología objetiva para la clasificación en seco/húmedo de los sonidos de la tos pediátrica, especialmente en enfermedades tales como la neumonía. Los resultados presentados en esta invención se basan en 536 eventos de tos de 78 sujetos, en comparación con los trabajos existentes que usan no más de 30 eventos de tos en sus análisis descriptivos. Por estas razones, no hay disponible ningún otro trabajo para comparar directamente los resultados.
El procedimiento de referencia utilizado para la evaluación de nuestra tecnología es la clasificación subjetiva de sonidos de la tos en clases húmeda/seca por dos médicos especialistas en vías respiratorias pediátricos de diferentes países. Estos calificadores fueron cegados al diagnóstico clínico real de los sujetos. En una clasificación de la tos de evento por evento, los dos expertos concordaron entre sí en un nivel moderado (valor kappa de k = 0,54). En 5 la concordancia interclínica para la tos húmeda/seca se notifica como k = 0,88. Sin embargo, debe tenerse en cuenta que, en 5 los médicos evaluaron la humedad de la tos en el nivel del paciente, pero no en el nivel de la tos individual. Cuando se computó la concordancia entre los calificadores a nivel del paciente, el valor kappa aumentó a k = 0,66 (Concordancia sustancial). Estos números ilustran adicionalmente la naturaleza subjetiva de la clasificación en seco/húmedo.
Nuestra tecnología de clasificador se entrenó en la tos del conjunto de entrenamiento (conjunto DS 1) utilizando solo eventos donde ambos calificadores alcanzaron consenso. Como resultado del procedimiento de entrenamiento se identificó un buen Modelo de Regresión Logística (9?) y fueron fijados sus parámetros. A continuación, se sometió a prueba el modelo en el Conjunto Prospectivo (Conjunto DS2) de varias maneras diferentes. La sensibilidad y especificidad más altas (84 % y 76 %) de clasificación se lograron cuando se probaron 9Í contra eventos de consenso dentro de DS2. Es interesante observar que estos números eran consistentemente más altos que lo que se llevó a ensayo contra los resultados de clasificación individuales de cada calificador.
Otra característica destacada de nuestro procedimiento es que tiene un alto valor predictivo negativo (NPV = 93 %), cuando se usan datos de consenso de puntuación como la verdad fundamental. Esto significa que si el modelo clasifica una tos como no húmeda (seca), es más probable que los dos calificadores expertos alcancen independientemente la misma conclusión. Sin embargo, el valor predictivo positivo de nuestro procedimiento en comparación con los calificadores humanos es menor (PPV = 55 %). Por lo tanto, una fracción perceptible de toses clasificadas por el modelo como húmedas acaba siendo clasificada por consenso como seca por los calificadores humanos. Este fenómeno parece explicarse por los resultados presentados por Chang y col.5 que encontraron que los calificadores humanos expertos subrayan la tos húmeda. En 5 ellos compararon sistemáticamente clasificaciones subjetivas seca/húmeda de médicos expertos con indicaciones bronquioscópicas del moco en las vías respiratorias. Ellos informaron que la clasificación por el médico de tos seca no indica necesariamente la ausencia de secreciones. Ciertas situaciones en las vías respiratorias, por ejemplo pequeñas cantidades de secreciones, pueden no reflejarse en sonidos de la tos en una magnitud suficiente para ser detectada por un observador humano. Una de las posibles razones para un valor de PPV más bajo que se encuentra en nuestro procedimiento puede ser esta debilidad en el estándar de oro, los calificadores humanos, utilizados para generar nuestras estadísticas de desempeño. Esta hipótesis debe validarse cuidadosamente contra los hallazgos bronquioscópicos en el futuro.
La capacidad de detectar correctamente el moco de las vías respiratorias puede ser particularmente importante en la gestión de enfermedades pulmonares supurativas 3 5. La tos es un síntoma temprano de enfermedades tales como neumonía, bronquitis y bronquiolitis. La evaluación precisa de este síntoma es un factor crucial en el diagnóstico de enfermedades agudas o la monitorización de síntomas crónicos y la eficacia de tratamiento. Se sabe que en niños, es más probable que la tos húmeda esté asociada con infecciones del tracto respiratorio inferior 3. La clasificación subjetiva de la tos húmeda tiene baja sensibilidad como procedimiento para detectar el moco de las vías respiratorias, incluso en las manos de médicos expertos. Una tecnología precisa y objetiva para la clasificación de la tos seca/húmeda actualmente no está disponible en los niveles comerciales o de investigación. Con lo mejor de nuestros conocimientos, este trabajo es el primer intento en el mundo para desarrollar dicha tecnología.
Presentamos el primer enfoque para automatizar la clasificación de la tos en seca-húmeda. Los resultados que se han presentado en esta invención pueden mejorarse optimizando sistemáticamente los parámetros y ajustando el procedimiento de entrenamiento del clasificador. El proceso de selección del modelo heurístico que se ha discutido hace que los resultados informados sean estimaciones pesimistas. Los inventores también creen que el conjunto de
características puede mejorarse y la precisión de clasificación del procedimiento puede aumentarse adicionalmente. Sin embargo, antes de un intento de optimización, el problema que debemos resolver es mejorar el “estándar de oro” utilizado en el diagnóstico clínico. Un estudio de broncoscopia cuidadosamente controlado será lo más adecuado como estándar de oro.
Otro posible factor limitante de este estudio es el sesgo de la base de datos de sonidos de tos hacia la tos seca; casi el 70 % de los sonidos de la tos son secos según lo perciben los calificadores humanos expertos. Sin embargo, con todos estos factores, las realizaciones de la presente invención pueden clasificar actualmente la tos húmeda y seca con alta sensibilidad (84 %) y especificidad (76 %) y con una buena concordancia (k = 0,51) con los calificadores humanos expertos.
A la luz de lo anterior, se comprenderá que los procedimientos según las realizaciones de la invención descritas en el presente documento pueden clasificar los sonidos de la tos en clases secas y húmedas con gran precisión y buena concordancia con los pediatras. Según el conocimiento de los inventores, este es el primer procedimiento conocido para la clasificación húmedo/seco, presentada con entrenamiento completo y resultados de prueba en muestras de tos significativamente grandes. También es el primer esfuerzo para automatizar la clasificación húmedo/seco en la población pediátrica con una variedad de enfermedades infecciosas respiratorias. Tiene el potencial de convertirse en una herramienta clínica útil para el control de la tos a largo plazo y en la evaluación de la eficacia del tratamiento o en la caracterización de las infecciones del tracto respiratorio inferior. Será útil en estudios clínicos o de investigación en los que se necesiten patrones temporales de la calidad de la tos (húmeda/seca) de una hora a otra.
Los procedimientos descritos en esta invención pueden implementarse simultáneamente con otras tecnologías potenciales tales como imágenes de microondas e imágenes por ultrasonido que pueden ser capaces de detectar consolidaciones y moco en los pulmones.
Las explicaciones de algunos de los términos utilizados para explicar el procedimiento anterior son las siguientes: [A2]. La estadística Kappa se usa ampliamente en situaciones donde se debe comparar la concordancia entre dos técnicas. A continuación, se muestran las directrices para interpretar los valores Kappa.
Kappa Interpretación
< 0 Concordancia menos que casual
0,01 - 0,20 Ligera concordancia
0,21 - 0,40 Concordancia justa
0,41 - 0,60 Concordancia moderada
0,61 - 0,80 Concordancia sustancial
0,81 - 1 Concordancia casi perfecta
[A3]. Definición de las medidas estadísticas utilizadas para evaluar el desempeño del LRM.
Verdadero Positivo (TP) - La tos húmeda fue correctamente identificada como ‘HÚMEDA' por LRM.
Falso Positivo (FP) - La tos seca fue incorrectamente identificada como ‘HÚMEDA’ por LRM.
Verdadero Negativo (TN) - La tos seca fue correctamente identificada como 'SECA’ por LRM.
Falso Negativo (FN) - la tos húmeda FUE incorrectamente identificada como ‘SECA’ por LRM.
En esta invención se ha descrito un procedimiento que es capaz de extraer sonidos de tos de una grabación definiendo el comienzo y el final de los segmentos de tos. Se calculó un conjunto de diferentes características a partir de la señal sonora y se usó como entrada a un motor de decisión, por ejemplo, un algoritmo de reconocimiento de patrones basado en redes neuronales adaptativas o un modelo de regresión logística. En un ejemplo, el procedimiento propuesto logró la sensibilidad de segmentación y la especificidad de aproximadamente el 95 %. Este método se puede utilizar como parte delantera de un sistema de análisis de tos; por lo tanto, la información cuantitativa y cualitativa de un mayor número de sonidos de tos en una grabación se puede analizar automáticamente.
Referencias
[1] A. J. Hotaling y G. T. Moynihan, “Cough,” in Pediatirc Otolaryngology. vol. 2, ed Philadelphia: Saunders, 2003, pp.
1395-1404.
[2] R. E. Black, y col., “Global, regional, and national causes of child mortality in 2008: a systematic analysis,” The Lancet, vol. 375, pp. 1969-1987, 2010.
[3] Igor Rudan, y col., “ Epidemiology and etiology of childhood pneumonia,” Bulletin of the World Health Organization, vol. 86, pp. 408-416, 2008.
[4] WHO, “WHO-recommended standards for surveillance of selected-preventable diseases,” Ginebra, WHO/ V&B/03.01, 2003.
[5] S. Barry, y col., “The automatic recognition and counting of cough,” Cough, vol. 2, p. 8, 2006.
[6] S. Matos, y col., “An Automated System for 24-h Monitoring of Cough Frequency: The Leicester Cough Monitor,” Biomedical Engineering, IEEE Transactions on, vol. 54, pp. 1472-1479, 2007.
[7] PDA Cortex. (Accedido el 12 de octubre de 2011). LifeShirt a new era in ambulatory monitoring. Disponible: http://www.pdacortex.comNivoMetrics.htm
[8] J. Thomas. (Accedido el 12 de octubre de 2011). VitaloJAK Cough Monitor. Disponible: http://www.trustech.org.uk/case-study/the-vitalojak/
[9] KarmelSonix. (Accedido el 12 de octubre de 2011). PulmoTrack. Disponible: http://www.kartnelsonix.com/solutionpulmotrack.html
[10] M. A. Coyle, y col., “ Evaluation of an ambulatory system for the quantification of cough frequency in patients with chronic obstructive pulmonary disease,” Cough, vol. 1, p. 3, 2005.
[11] E. Vizel, y col., “Validation of an ambulatory cough detection and counting application using voluntary cough under different conditions,” Cough, vol. 6, p. 3, 2010.
[12] K. McGuinness, y col., “Automated cough detection: a novel approach [abstract],” Am J Resp Crit Care Med, p.
175: A381,2007.
[13] J. Smith y A. Woodcock, “ New Developments in the Objective Assessment of Cough,” Lung, vol. 186, pp. 48-54, 2008.
[14] S. Ferrari, y col., “Cough sound analysis to identify respiratory infection in pigs,” Computers and Electronics in Agriculture, vol. 64, pp. 318-325, 2008.
[15] R. Martin, “ Noise power spectral density estimation based on optimal smoothing and minimum statistics,” Speech and Audio Processing, IEEE Transactions on, vol. 9, pp. 504-512, 2001.
[16] S. Greenberg, y col., Speech processing in auditory system. New York: Springer, 2004.
[17] S. Chatterjee y W. B. Kleijn, “Auditory model based modified MFCC features,” in Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on, 2010, pp. 4590-4593.
[18] W. D. Duckitt, y col., “Automatic detection, segmentation and assessment of snoring from ambient acoustic data,” Physiological Measurement, vol. 27, p. 1047, 2006.
[19] E. Goldshtein, y col., “Automatic Detection of Obstructive Sleep Apnea Using Speech Signals,” Biomedical Engineering, IEEE Transactions on, vol. 58, pp. 1373-1382, 2011.
[20] S. K. Asela, y col., “ Multi-feature snore sound analysis in obstructive sleep apnea-hypopnea syndrome,” Physiological Measurement, vol. 32, p. 83, 2011.
[21] U. R. Abeyratne, y col., “ Multi-parametric analysis of snore sounds for the community screening of sleep apnea with non-gaussianity index,” US Patent, 2010.
[22] J. E. Markel y A. H. Gray, Linear Prediction of Speech: Springer-Verlag New York, Inc., 1982.
[23] H. Ghaemmaghami, y col., “ Normal probability testing of snore signals for diagnosis of obstructive sleep apnea,” in Engineering in Medicine and Biology Society, 2009. EMBC 2009. Annual International Conference of the IEEE, 2009, pp. 5551 -5554.
[24] S. El Safty y A. El-Zonkoly, “Applying wavelet entropy principle in fault classification,” International Journal of Electrical Power & Energy Systems, vol. 31, pp. 604-607, 2008.
[25] G. M. Foody, “ Using prior knowledge in artificial neural network classification with a minimal training set,” International Journal of Remote Sensing, vol. 16, pp. 301 -312, 1995/01/01 1995.
[26] A. Waibel, y col., “ Phoneme recognition using time-delay neural networks,” Acoustics, Speech and Signal Processing, Ie Ee Transactions on, vol. 37, pp. 328-339, 1989.
[27] M. Riedmiller y H. Braun, “A direct adaptive method for faster backpropagation learning: the RPROP algorithm,” in Neural Networks, 1993., IEEE International Conference on, 1993, pp. 586-591 vol.1.
[28] V. Tyagi, y col., “A variable-scale piecewise stationary spectral analysis technique applied to ASR,” in Machine learning for multimodal interaction, Edinburgh, 2005, pp. 274-284.
[29] 1. Ghaemmaghami, H., U. Abeyratne, y C. Hukins. Normal probability testing of snore signals for diagnosis of obstructive sleep apnea. 2009: IEEE.
[30] . Ng, A.K., y col., Could formant frequencies of snore signals be an alternative means for the diagnosis of obstructive sleep apnea? Sleep medicine, 2008. 9(8): p. 894-898.
[31] Oppenheim, A.V., R.W. Schafer, y J.R. Buck, Discrete-time signal processing. Vol. 1999. 1989: Prentice hall Englewood Cliffs, NJ:.
[32] Zheng, F., G. Zhang, y Z. Song, Comparison of different implementations of MFCC. Journal of Computer Science and Technology, 2001. 16(6): p. 582-589.
[33] Abeyratne, U. Blind reconstruction of non-minimum-phase systems from 1-D oblique slices of bispectrum. 1999: IET.
[34] Mendel, J.M., Tutorial on higher-order statistics (spectra) in signal processing and system theory: Theoretical results and some applications. Proceedings of the IEEE, 1991.79(3): p. 278-305.
3. Tessa Wardlaw, E.W. Johansson, y M. Hodge, Pneumonia: The forgotten killer of children. UNICEHWHO, 2006.
4. Berman, S., E. Simoes, y C. Lanata, Respiratory rate and pneumonia in infancy. Archives of disease in childhood, 1991.66(1): p. 81-84.
5. WHO, Childhood disease, WHO.
6. Cardoso, M.R.A., y col., Adding fever to WHO criteria for diagnosing pneumonia enhances the ability to identify pneumonia cases among wheezing children. Archives of disease in childhood, 2011.96(1): p. 58.
7. Harari, M., y col., Clinical signs of pneumonia in children. The Lancet, 1991.338(8772): p. 928-930.
8. Lozano, J., y col., Clinical predictors of acute radiological pneumonia and hypoxaemia at high altitude. Archives of disease in childhood, 1994. 71(4): p. 323-327.
9. Mulholland, E., y col., Standardized diagnosis of pneumonia in developing countries. The Pediatric infectious disease journal, 1992. 11(2): p. 77.
10. Palafox, M., y col., Diagnostic value of tachypnoea in pneumonia defined radiologically. Archives of disease in childhood, 2000. 82(1): p. 41-45.
Cualquier realización de la invención pretende ser solo ilustrativa y no pretende ser limitativa para la invención. Por lo tanto, debe apreciarse que se pueden realizar diversos otros cambios y modificaciones a cualquier realización descrita sin apartarse del alcance de la invención como se define en las reivindicaciones.
En la presente memoria descriptiva y en las reivindicaciones, la palabra “que comprende” y sus términos relacionados y derivados, incluyendo “comprende” y “comprendiendo” , deben interpretarse en sentido inclusivo que incluye cada uno de los números enteros indicados, pero sin excluir la inclusión de uno o más números enteros adicionales.
Claims (14)
- REIVINDICACIONESi . Un procedimiento para operar un dispositivo informático (52) para procesar una grabación de sonido de un paciente (501), el procedimiento caracterizado por las etapas de:extraer los coeficientes cepstrales de frecuencia de Mel (MFCC, de Mel-Frequency Cepstral Coefficients) (209), Frecuencia Formante (211), Tasa de Cruces por Cero (213), Entropía de Shannon (215) y características de No-Gaussianidad (217) de sonidos de pacientes en la grabación para formar vectores de características (223);clasificar (225) segmentos como sonidos de tos (1001) basándose en las características extraídas con un clasificador de patrones (300); ypresentar un diagnóstico de un estado relacionado con la enfermedad en una pantalla (56) bajo el control del dispositivo informático (52) basado en segmentos (1001) de los sonidos del paciente (501) clasificados como sonidos de tos, en donde el diagnóstico presentado es neumonía.
- 2. Un procedimiento según la reivindicación 1, en donde el clasificador de patrones comprende una red neuronal artificial (300).
- 3. Un procedimiento según la reivindicación 2, en donde la red neuronal artificial (300) comprende una red neuronal de retardo de tiempo (TDNN, de Time Delay Neural Network).
- 4. Un procedimiento según la reivindicación 3, en donde la TDNN (300) tiene una capa oculta (303) entre una capa de salida (305) y una capa de entrada (307) con de 10 a 50 neuronas en la capa oculta (303).
- 5. Un procedimiento según una cualquiera de las reivindicaciones 1 a 4, que incluye calcular un biespectro para una clasificación adicional de los segmentos de tos.
- 6. Un procedimiento según la reivindicación 1, que comprende además diagnosticar un estado neumónico basado en los segmentos de los sonidos del paciente clasificados como sonidos de tos y presentar el diagnóstico en la pantalla bajo el control del dispositivo informático.
- 7. Un procedimiento según la reivindicación 6, que incluye monitorizar datos de pacientes de uno o más de un:sensor de detección de respiración, sensor de temperatura, sensor de movimiento, sensor de EEG, sensor de nivel de oxígeno.
- 8. Un procedimiento según la reivindicación 1, que incluye categorizar sonidos de tos como “tos húmeda” o sonidos de “tos no húmeda” (1506).
- 9. Un procedimiento según la reivindicación 6 o la reivindicación 7, que incluye las etapas de:categorizar eventos de tos de sonidos del paciente como neumónicos o no neumónicos mediante el procesamiento de características extraídas de eventos de tos según un procedimiento de clasificación;calcular un índice de tos neumónico que indica la proporción de eventos de tos neumónica categorizados; yconsiderar que el paciente padece el estado de enfermedad neumónica en caso de que el índice de tos neumónica cumpla con un requisito predeterminado.
- 10. Un procedimiento según la reivindicación 9, en donde el procedimiento de clasificación comprende cualquiera de: un modelo de regresión logística; una red neuronal artificial; un clasificador de Bayes; un modelo oculto de Markov; una máquina de vectores de soporte.
- 11. Un procedimiento según la reivindicación 9 o la reivindicación 10, que incluye comparar el índice de tos neumónico con un umbral y considerar que el paciente sufre neumonía basándose en la comparación.
- 12. Un procedimiento según una cualquiera de las reivindicaciones 9 a 11, que incluye aplicar un conjunto de entrenamiento a dicho uno de:un modelo de regresión logística una red neuronal artificial; un clasificador de Bayes; un modelo oculto de Markov; una máquina de vectores de soporte;el conjunto de entrenamiento que incluye sonidos no neumónicos grabados de pacientes que sufren una o más de las siguientes molestias: Asma, bronquitis, rinofaringitis, sibilancias, tonsilofaringitis, enfermedad cardíaca, laringomalacia, malaria e inhalación de cuerpo extraño.
- 13. Un dispositivo informático (52) que incluye al menos un procesador electrónico (70) en comunicación con una memoria electrónica (62, 64, 66) que contiene instrucciones para que el procesador lleve a cabo un procedimiento según una cualquiera de las reivindicaciones anteriores.
- 14. Un medio legible por máquina (46) que porta instrucciones tangibles para la ejecución por uno o más procesadores electrónicos (70) para llevar a cabo un procedimiento según una cualquiera de las reivindicaciones 1 a 12.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2012901255A AU2012901255A0 (en) | 2012-03-29 | A method and apparatus for processing patient sounds | |
PCT/AU2013/000323 WO2013142908A1 (en) | 2012-03-29 | 2013-03-28 | A method and apparatus for processing patient sounds |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2947765T3 true ES2947765T3 (es) | 2023-08-18 |
Family
ID=49257951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES13768257T Active ES2947765T3 (es) | 2012-03-29 | 2013-03-28 | Procedimiento y aparato para procesar grabaciones de sonido de un paciente |
Country Status (8)
Country | Link |
---|---|
US (1) | US10098569B2 (es) |
EP (2) | EP4241676A3 (es) |
JP (1) | JP6435257B2 (es) |
KR (1) | KR102081241B1 (es) |
CN (2) | CN110353685B (es) |
AU (1) | AU2013239327B2 (es) |
ES (1) | ES2947765T3 (es) |
WO (1) | WO2013142908A1 (es) |
Families Citing this family (139)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9179887B2 (en) | 2010-04-16 | 2015-11-10 | University Of Tennessee Research Foundation | Systems and methods for predicting gastrointestinal impairment |
US8992435B2 (en) * | 2010-08-25 | 2015-03-31 | Diacoustic Medical Devices (Pty) Ltd | System and method for classifying a heart sound |
US11315687B2 (en) * | 2012-06-18 | 2022-04-26 | AireHealth Inc. | Method and apparatus for training and evaluating artificial neural networks used to determine lung pathology |
CN103730130B (zh) * | 2013-12-20 | 2019-03-01 | 中国科学院深圳先进技术研究院 | 一种病理嗓音的检测系统 |
JP6320109B2 (ja) * | 2014-03-27 | 2018-05-09 | 旭化成株式会社 | 心疾患識別装置 |
EP2945084A1 (en) * | 2014-05-12 | 2015-11-18 | Electrosalus Biyomedikal Sanayi ve Ticaret Anonim Sirketi | Auscultation data acquisition, communication and evaluation system incorporating mobile facilities |
US20150355612A1 (en) | 2014-06-05 | 2015-12-10 | Morphy Inc. | Methods and systems for controlling home appliances based on human biological signals |
CN109963133B (zh) * | 2015-05-15 | 2021-07-30 | 深圳市大疆创新科技有限公司 | 色彩校正系统和方法 |
US9687208B2 (en) * | 2015-06-03 | 2017-06-27 | iMEDI PLUS Inc. | Method and system for recognizing physiological sound |
WO2017060828A1 (en) | 2015-10-08 | 2017-04-13 | Cordio Medical Ltd. | Assessment of a pulmonary condition by speech analysis |
US20170135883A1 (en) * | 2015-11-16 | 2017-05-18 | Eight Sleep Inc. | Adjustable bedframe and operating methods |
US10105092B2 (en) | 2015-11-16 | 2018-10-23 | Eight Sleep Inc. | Detecting sleeping disorders |
US10154932B2 (en) | 2015-11-16 | 2018-12-18 | Eight Sleep Inc. | Adjustable bedframe and operating methods for health monitoring |
US9899034B2 (en) * | 2015-12-22 | 2018-02-20 | Intel IP Corporation | Technologies for robust crying detection using temporal characteristics of acoustic features |
US11000257B2 (en) | 2016-02-17 | 2021-05-11 | Sanolla Ltd. | Digital stethoscopes, and auscultation and imaging systems |
US11116478B2 (en) | 2016-02-17 | 2021-09-14 | Sanolla Ltd. | Diagnosis of pathologies using infrasonic signatures |
US9998487B2 (en) * | 2016-04-25 | 2018-06-12 | General Electric Company | Domain level threat detection for industrial asset control system |
CN105962897B (zh) * | 2016-04-27 | 2018-10-02 | 南京理工大学 | 一种自适应的鼾声信号检测方法 |
US10592733B1 (en) * | 2016-05-20 | 2020-03-17 | Educational Testing Service | Computer-implemented systems and methods for evaluating speech dialog system engagement via video |
WO2018011113A1 (en) * | 2016-07-14 | 2018-01-18 | Koninklijke Philips N.V. | System and method for monitoring asthma symptoms |
US10008218B2 (en) | 2016-08-03 | 2018-06-26 | Dolby Laboratories Licensing Corporation | Blind bandwidth extension using K-means and a support vector machine |
CN106364542B (zh) * | 2016-09-20 | 2018-08-21 | 智易行科技(武汉)有限公司 | 基于支持向量机的多传感器融合智能婴儿体态安抚方法 |
AU2017331813B2 (en) * | 2016-09-26 | 2022-11-03 | The University Of Queensland | A method and apparatus for automatic disease state diagnosis |
HUE063834T2 (hu) * | 2016-11-15 | 2024-02-28 | Boehringer Ingelheim Vetmedica Gmbh | Eljárás specifikus légúti kórokozó elõrejelzésére |
JP6907553B2 (ja) * | 2017-01-23 | 2021-07-21 | 富士フイルムビジネスイノベーション株式会社 | 咳検知装置及びプログラム |
DK3566225T3 (da) * | 2017-02-01 | 2021-05-31 | Resapp Health Ltd | Metode og apparat til detektering af hoste i baggrunden |
EP3592231A1 (en) * | 2017-03-10 | 2020-01-15 | Masimo Corporation | Pneumonia screener |
WO2018187664A1 (en) * | 2017-04-06 | 2018-10-11 | Brown University | Improved diagnostic instrument and methods |
KR101924852B1 (ko) * | 2017-04-14 | 2018-12-04 | 네이버 주식회사 | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 |
EP3618698B1 (en) | 2017-05-05 | 2024-09-25 | Canary Speech, LLC | Medical assessment based on voice |
CN107591162B (zh) * | 2017-07-28 | 2021-01-12 | 南京邮电大学 | 基于模式匹配的哭声识别方法及智能看护系统 |
CN108701469B (zh) * | 2017-07-31 | 2023-06-20 | 深圳和而泰智能控制股份有限公司 | 咳嗽声音识别方法、设备和存储介质 |
CN107693043B (zh) * | 2017-08-18 | 2019-10-11 | 中国人民解放军总医院 | 肠鸣音信号的非线性动力学分析方法 |
US12029606B2 (en) | 2017-09-05 | 2024-07-09 | Sanolla Ltd. | Electronic stethoscope with enhanced features |
CN110021435A (zh) * | 2017-09-07 | 2019-07-16 | 医疗财团法人徐元智先生医药基金会亚东纪念医院 | 嗓音侦测分类系统 |
EP3684463A4 (en) | 2017-09-19 | 2021-06-23 | Neuroenhancement Lab, LLC | NEURO-ACTIVATION PROCESS AND APPARATUS |
EP3471027A1 (en) * | 2017-10-13 | 2019-04-17 | Siemens Aktiengesellschaft | A method for computer-implemented determination of a data-driven prediction model |
CN108053841A (zh) * | 2017-10-23 | 2018-05-18 | 平安科技(深圳)有限公司 | 利用语音进行疾病预测的方法及应用服务器 |
CN118141344A (zh) * | 2017-10-27 | 2024-06-07 | 高等工艺学校 | 用于估计扣除用户引起的伪影的用户耳内的噪声暴露量的方法和系统 |
EP3709881A1 (en) | 2017-11-17 | 2020-09-23 | Koninklijke Philips N.V. | Cough detection in a respiratory support system |
US11717686B2 (en) | 2017-12-04 | 2023-08-08 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
USD865167S1 (en) | 2017-12-20 | 2019-10-29 | Bat Call D. Adler Ltd. | Digital stethoscope |
US11864880B2 (en) * | 2017-12-21 | 2024-01-09 | The University Of Queensland | Method for analysis of cough sounds using disease signatures to diagnose respiratory diseases |
US10957335B2 (en) * | 2017-12-28 | 2021-03-23 | Sleep Number Corporation | Home automation having user privacy protections |
CN108090686B (zh) * | 2017-12-29 | 2022-01-25 | 北京大学 | 一种医疗事件风险评估分析方法及系统 |
US11318277B2 (en) | 2017-12-31 | 2022-05-03 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to enhance emotional response |
GB2584242B (en) | 2018-01-09 | 2022-09-14 | Eight Sleep Inc | Systems and methods for detecting a biological signal of a user of an article of furniture |
GB2584241B (en) | 2018-01-19 | 2023-03-08 | Eight Sleep Inc | Sleep pod |
KR20190113390A (ko) * | 2018-03-28 | 2019-10-08 | (주)오상헬스케어 | 호흡 질환 진단 장치 및 호흡 질환 모니터링 방법 |
WO2019194843A1 (en) * | 2018-04-05 | 2019-10-10 | Google Llc | System and method for generating diagnostic health information using deep learning and sound understanding |
US11364361B2 (en) | 2018-04-20 | 2022-06-21 | Neuroenhancement Lab, LLC | System and method for inducing sleep by transplanting mental states |
JP7197922B2 (ja) * | 2018-05-08 | 2022-12-28 | 国立大学法人徳島大学 | 機械学習装置、解析装置、機械学習方法および解析方法 |
EA201800377A1 (ru) * | 2018-05-29 | 2019-12-30 | Пт "Хэлси Нэтворкс" | Способ диагностики заболеваний органов дыхания и система для его реализации |
US20210090593A1 (en) * | 2018-06-29 | 2021-03-25 | Deeply Inc. | Method and device for analyzing real-time sound |
CN112399819B (zh) * | 2018-07-02 | 2024-08-23 | 3M创新有限公司 | 用于监测时间相关过程的传感系统和方法 |
US10832672B2 (en) | 2018-07-13 | 2020-11-10 | International Business Machines Corporation | Smart speaker system with cognitive sound analysis and response |
US10832673B2 (en) | 2018-07-13 | 2020-11-10 | International Business Machines Corporation | Smart speaker device with cognitive sound analysis and response |
GB2578418B (en) | 2018-07-25 | 2022-06-15 | Audio Analytic Ltd | Sound detection |
KR102092543B1 (ko) * | 2018-08-31 | 2020-03-24 | 재단법인 아산사회복지재단 | 폐음을 이용한 폐 정보 획득 방법, 그 장치 및 그 프로그램 |
US11298101B2 (en) * | 2018-08-31 | 2022-04-12 | The Trustees Of Dartmouth College | Device embedded in, or attached to, a pillow configured for in-bed monitoring of respiration |
WO2020056418A1 (en) | 2018-09-14 | 2020-03-19 | Neuroenhancement Lab, LLC | System and method of improving sleep |
US11380351B2 (en) * | 2018-09-20 | 2022-07-05 | Samsung Electronics Co., Ltd. | System and method for pulmonary condition monitoring and analysis |
US10847177B2 (en) | 2018-10-11 | 2020-11-24 | Cordio Medical Ltd. | Estimating lung volume by speech analysis |
AU2019360358A1 (en) * | 2018-10-17 | 2021-05-27 | The University Of Queensland | A method and apparatus for diagnosis of maladies from patient sounds |
US20200135334A1 (en) * | 2018-10-26 | 2020-04-30 | AIRx Health, Inc. | Devices and methods for remotely managing chronic medical conditions |
CN109498228B (zh) * | 2018-11-06 | 2021-03-30 | 林枫 | 基于咳嗽音反馈的肺康复治疗装置 |
US10706329B2 (en) | 2018-11-13 | 2020-07-07 | CurieAI, Inc. | Methods for explainability of deep-learning models |
MX2021007041A (es) * | 2018-12-13 | 2021-10-22 | Liminal Sciences Inc | Sistemas y metodos para un dispositivo ponible para estimulacion acustica. |
EP3897379A4 (en) * | 2018-12-20 | 2022-09-21 | University of Washington | DETECTION OF AGONAL BREATHING WITH AN INTELLIGENT DEVICE |
CA3128973A1 (en) | 2019-03-04 | 2020-09-10 | Bhaskar Bhattacharyya | Data compression and communication using machine learning |
US11024327B2 (en) | 2019-03-12 | 2021-06-01 | Cordio Medical Ltd. | Diagnostic techniques based on speech models |
US11011188B2 (en) | 2019-03-12 | 2021-05-18 | Cordio Medical Ltd. | Diagnostic techniques based on speech-sample alignment |
JP7492715B2 (ja) * | 2019-03-12 | 2024-05-30 | コルディオ メディカル リミテッド | 音声モデルに基づく診断技術 |
JP2022530855A (ja) | 2019-04-16 | 2022-07-04 | エンタック・メディカル・インコーポレイテッド | 生体音響信号の向上された検出及び分析 |
US11786694B2 (en) | 2019-05-24 | 2023-10-17 | NeuroLight, Inc. | Device, method, and app for facilitating sleep |
CA3142423A1 (en) * | 2019-05-30 | 2020-12-03 | Insurance Services Office, Inc. | Systems and methods for machine learning of voice attributes |
CN111883174A (zh) * | 2019-06-26 | 2020-11-03 | 深圳数字生命研究院 | 声音的识别方法及装置、存储介质和电子装置 |
US11948690B2 (en) * | 2019-07-23 | 2024-04-02 | Samsung Electronics Co., Ltd. | Pulmonary function estimation |
DE102019210929B4 (de) * | 2019-07-24 | 2023-07-20 | Zf Friedrichshafen Ag | Computerimplementiertes Verfahren zum maschinellen Lernen von Husten- und/oder Niesgeräuschen von ein Beförderungsmittel nutzenden Fahrgästen, um bei erkannten Husten- und/oder Niesgeräuschen Maßnahmen zur Reinigung des Beförderungsmittels einzuleiten, und Steuergerät, Verfahren, Vorrichtung, Beförderungsmittel und Computerprogramm zum Einleiten der Maßnahmen |
CN110367934B (zh) * | 2019-07-25 | 2023-02-03 | 深圳大学 | 一种基于非语音身体声音的健康监测方法及监测系统 |
US11526780B2 (en) * | 2019-08-05 | 2022-12-13 | Microsoft Technology Licensing, Llc | Converting nonnative skills for conversational computing interfaces |
JP2022545239A (ja) * | 2019-08-19 | 2022-10-26 | ザ ユニバーシティ オブ クィーンズランド | 適切な治療を適用するためにぜんそく患者の咳音を処理するための方法および装置 |
US10716534B1 (en) | 2019-10-21 | 2020-07-21 | Sonavi Labs, Inc. | Base station for a digital stethoscope, and applications thereof |
US10709353B1 (en) | 2019-10-21 | 2020-07-14 | Sonavi Labs, Inc. | Detecting a respiratory abnormality using a convolution, and applications thereof |
US10750976B1 (en) * | 2019-10-21 | 2020-08-25 | Sonavi Labs, Inc. | Digital stethoscope for counting coughs, and applications thereof |
US10702239B1 (en) | 2019-10-21 | 2020-07-07 | Sonavi Labs, Inc. | Predicting characteristics of a future respiratory event, and applications thereof |
US10709414B1 (en) | 2019-10-21 | 2020-07-14 | Sonavi Labs, Inc. | Predicting a respiratory event based on trend information, and applications thereof |
US11741986B2 (en) * | 2019-11-05 | 2023-08-29 | Samsung Electronics Co., Ltd. | System and method for passive subject specific monitoring |
US20210161502A1 (en) * | 2019-12-03 | 2021-06-03 | Samsung Electronics Co., Ltd. | System and method for determining a likelihood of paradoxical vocal cord motion (pvcm) in a person |
AU2020404447A1 (en) * | 2019-12-16 | 2022-06-23 | Pfizer Inc. | Method and apparatus for automatic cough detection |
WO2021119742A1 (en) * | 2019-12-16 | 2021-06-24 | ResApp Health Limited | Diagnosing respiratory maladies from subject sounds |
CN111179967B (zh) * | 2019-12-17 | 2022-05-24 | 华南理工大学 | 颈脊髓损伤患者真假咳嗽音线性分类算法、介质和设备 |
US20210199503A1 (en) * | 2019-12-26 | 2021-07-01 | Industrial Technology Research Institute | Data processing system disposed on sensor and method thereof |
CN111009263A (zh) * | 2019-12-28 | 2020-04-14 | 哈尔滨工业大学 | 一种用于肺部啰音识别的系统及方法 |
CN111260835B (zh) * | 2020-01-19 | 2022-08-09 | 上海瑞皇管业科技股份有限公司 | 城市综合管廊监控报警系统及其控制方法 |
KR102152902B1 (ko) * | 2020-02-11 | 2020-09-07 | 주식회사 엘솔루 | 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 |
US11484211B2 (en) | 2020-03-03 | 2022-11-01 | Cordio Medical Ltd. | Diagnosis of medical conditions using voice recordings and auscultation |
US11468908B2 (en) | 2020-04-15 | 2022-10-11 | Optum, Inc. | Hybrid input machine learning frameworks |
CN111584069B (zh) * | 2020-05-07 | 2023-04-18 | 成都兰途网络科技有限公司 | 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统 |
KR102394882B1 (ko) * | 2020-05-11 | 2022-05-04 | 한양대학교 산학협력단 | 감염 질환을 모니터링 및 진단하는 방법 및 장치 |
US20220104725A9 (en) * | 2020-05-13 | 2022-04-07 | Ali IMRAN | Screening of individuals for a respiratory disease using artificial intelligence |
MX2022015458A (es) * | 2020-06-04 | 2023-03-22 | Entac Medical Inc | Aparato y método para predecir deterioros y eventos funcionales in vivo. |
CN111653273A (zh) * | 2020-06-09 | 2020-09-11 | 杭州叙简科技股份有限公司 | 一种基于智能手机的院外肺炎初步识别方法 |
US11219386B2 (en) | 2020-06-15 | 2022-01-11 | Cirrus Logic, Inc. | Cough detection |
US11134354B1 (en) | 2020-06-15 | 2021-09-28 | Cirrus Logic, Inc. | Wear detection |
KR20230038649A (ko) * | 2020-06-18 | 2023-03-21 | 레스앱 헬스 리미티드 | 대상 사운드에서의 이벤트 검출 |
US11417342B2 (en) | 2020-06-29 | 2022-08-16 | Cordio Medical Ltd. | Synthesizing patient-specific speech models |
KR20230028370A (ko) | 2020-07-13 | 2023-02-28 | 다인기술 주식회사 | 음향 신호를 분석하여 기침을 계수하는 방법, 이를 수행하는 서버 및 비일시성의 컴퓨터 판독 가능 기록 매체 |
US20220047088A1 (en) * | 2020-08-12 | 2022-02-17 | Cvb Inc | Method for analyzing sound data for use in an anti-snoring system and apparatus |
KR102241399B1 (ko) * | 2020-08-25 | 2021-04-16 | 주식회사 쓰리빌리언 | 증상의 질병 특이도 측정 시스템 |
EP4208081A4 (en) * | 2020-09-04 | 2024-08-21 | Level 42 Ai Inc | CONTACTLESS SENSOR SYSTEMS AND METHODS |
CN112233700A (zh) * | 2020-10-09 | 2021-01-15 | 平安科技(深圳)有限公司 | 基于音频的用户状态识别方法、装置及存储介质 |
US11862188B2 (en) * | 2020-10-22 | 2024-01-02 | Google Llc | Method for detecting and classifying coughs or other non-semantic sounds using audio feature set learned from speech |
US20220338756A1 (en) * | 2020-11-02 | 2022-10-27 | Insubiq Inc. | System and method for automatic detection of disease-associated respiratory sounds |
CN112472066B (zh) * | 2020-11-25 | 2024-09-20 | 陈向军 | 呼吸障碍监测终端、监测器和系统 |
KR102445294B1 (ko) * | 2020-11-30 | 2022-09-20 | 한국전자기술연구원 | 호흡음을 포함한 생체신호 기반 호흡기 감염증 진단 방법 및 시스템 |
CN112754502A (zh) * | 2021-01-12 | 2021-05-07 | 曲阜师范大学 | 一种基于脑电信号的音乐自动切换方法 |
EP4284243A4 (en) * | 2021-01-28 | 2024-06-12 | Sivan, Danny | DETECTION OF DISEASES AND VIRUSES BY ULTRASONIC FREQUENCY |
WO2023014063A1 (ko) * | 2021-08-03 | 2023-02-09 | 다인기술 주식회사 | 음향 신호를 분석하여 연하장애 가능성을 평가하는 방법, 이를 수행하는 서버 및 비일시성의 컴퓨터 판독 가능 기록 매체 |
RU2752453C1 (ru) * | 2021-03-29 | 2021-07-28 | Елена Алексеевна Терешко | Телемедицинский терминал для осмотра и тестирования работников промышленных и транспортных предприятий |
CN113158916B (zh) * | 2021-04-26 | 2022-04-22 | 华南理工大学 | 一种咳嗽音自动识别算法、装置、介质和设备 |
US20220384040A1 (en) * | 2021-05-27 | 2022-12-01 | Disney Enterprises Inc. | Machine Learning Model Based Condition and Property Detection |
CN115414025A (zh) * | 2021-05-31 | 2022-12-02 | 华为技术有限公司 | 筛查方法、设备、存储介质及程序产品 |
USD1042851S1 (en) | 2021-06-16 | 2024-09-17 | Sanolla Ltd. | Medical diagnostic device |
KR102580057B1 (ko) * | 2021-08-23 | 2023-09-21 | 한양대학교 산학협력단 | 웨어러블 디바이스 및 그 동작방법 |
KR102410650B1 (ko) * | 2021-10-09 | 2022-06-17 | 전상현 | 비대면 종합 건강 관리 서비스 제공방법 |
CN114041779A (zh) * | 2021-11-26 | 2022-02-15 | 河南牧原智能科技有限公司 | 用于对牲畜呼吸道疾病进行识别的识别系统和计算机设备 |
KR102376188B1 (ko) * | 2021-12-15 | 2022-03-17 | 가천대학교 산학협력단 | 딥러닝 기반의 호흡음 분류를 위한 피쳐정보 선택방법 및 시스템 |
KR102429256B1 (ko) * | 2021-12-31 | 2022-08-04 | 주식회사 에이슬립 | 음향 정보를 통해 사용자의 수면 상태를 분석하기 위한 방법, 컴퓨팅 장치 및 컴퓨터 프로그램 |
CN114299925B (zh) * | 2021-12-31 | 2024-11-01 | 江苏省省级机关医院 | 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统 |
US11948599B2 (en) * | 2022-01-06 | 2024-04-02 | Microsoft Technology Licensing, Llc | Audio event detection with window-based prediction |
TWI820704B (zh) * | 2022-05-12 | 2023-11-01 | 財團法人工業技術研究院 | 聲音訊號的分析方法及裝置、晶片的設計方法及裝置 |
US20230386504A1 (en) * | 2022-05-27 | 2023-11-30 | National Yang Ming Chiao Tung University | System and method for pathological voice recognition and computer-readable storage medium |
WO2023243754A1 (ko) * | 2022-06-17 | 2023-12-21 | 주식회사 엔씨소프트 | 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법 |
CN114822567B (zh) * | 2022-06-22 | 2022-09-27 | 天津大学 | 一种基于能量算子的病理嗓音频谱重构方法 |
CN117770790A (zh) * | 2022-09-28 | 2024-03-29 | 华为技术有限公司 | 呼吸健康检测方法及可穿戴电子设备 |
WO2024081343A1 (en) * | 2022-10-14 | 2024-04-18 | The Johns Hopkins University | Systems and methods for acoustic-based diagnosis |
WO2024163390A1 (en) * | 2023-01-31 | 2024-08-08 | Hyfe Inc | Methods for automatic cough detection and uses thereof |
CN117357754A (zh) * | 2023-11-15 | 2024-01-09 | 江苏麦麦医疗科技有限公司 | 智能家居制氧机及控制系统 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5598508A (en) * | 1991-10-18 | 1997-01-28 | Goldman; Julian M. | Real-time waveform analysis using artificial neural networks |
US6436057B1 (en) | 1999-04-22 | 2002-08-20 | The United States Of America As Represented By The Department Of Health And Human Services, Centers For Disease Control And Prevention | Method and apparatus for cough sound analysis |
US6443907B1 (en) * | 2000-10-06 | 2002-09-03 | Biomedical Acoustic Research, Inc. | Acoustic detection of respiratory conditions |
JP2003038460A (ja) | 2001-08-03 | 2003-02-12 | Mitsubishi Pharma Corp | 咳嗽音検出装置、咳嗽音検出方法、咳嗽音検出プログラム及び情報記憶媒体 |
US7207948B2 (en) * | 2004-06-24 | 2007-04-24 | Vivometrics, Inc. | Systems and methods for monitoring cough |
AU2004229488B2 (en) * | 2003-04-10 | 2011-07-14 | Adidas Ag | Systems and methods for respiratory event detection |
US20080082018A1 (en) | 2003-04-10 | 2008-04-03 | Sackner Marvin A | Systems and methods for respiratory event detection |
CA2578684C (en) * | 2004-06-24 | 2017-07-25 | Vivometrics, Inc. | Systems and methods for monitoring cough |
US10269228B2 (en) * | 2008-06-17 | 2019-04-23 | Koninklijke Philips N.V. | Acoustical patient monitoring using a sound classifier and a microphone |
JP2007125360A (ja) * | 2005-10-05 | 2007-05-24 | Konica Minolta Medical & Graphic Inc | 咳検出装置 |
US7479115B2 (en) * | 2006-08-25 | 2009-01-20 | Savic Research, Llc | Computer aided diagnosis of lung disease |
JP2008178635A (ja) * | 2007-01-26 | 2008-08-07 | Konica Minolta Medical & Graphic Inc | 咳漱解析装置 |
GB0711524D0 (en) * | 2007-06-15 | 2007-07-25 | Univ Leuven Kath | Online recognition and localisation of sick pig cough sounds |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8880207B2 (en) * | 2008-12-10 | 2014-11-04 | The University Of Queensland | Multi-parametric analysis of snore sounds for the community screening of sleep apnea with non-gaussianity index |
AU2009330121B2 (en) * | 2008-12-22 | 2013-02-28 | Pneumoflex Systems, Llc | Involuntary contraction induced pressure as a medical diagnostic tool using involuntary reflex cough test |
US20120071777A1 (en) * | 2009-09-18 | 2012-03-22 | Macauslan Joel | Cough Analysis |
US8758262B2 (en) | 2009-11-25 | 2014-06-24 | University Of Rochester | Respiratory disease monitoring system |
CN101894551B (zh) * | 2010-07-02 | 2012-05-09 | 华南理工大学 | 一种咳嗽自动识别装置 |
US8784311B2 (en) * | 2010-10-05 | 2014-07-22 | University Of Florida Research Foundation, Incorporated | Systems and methods of screening for medical states using speech and other vocal behaviors |
-
2013
- 2013-03-28 KR KR1020147030062A patent/KR102081241B1/ko active IP Right Grant
- 2013-03-28 WO PCT/AU2013/000323 patent/WO2013142908A1/en active Application Filing
- 2013-03-28 US US14/389,291 patent/US10098569B2/en active Active
- 2013-03-28 CN CN201910202125.5A patent/CN110353685B/zh active Active
- 2013-03-28 ES ES13768257T patent/ES2947765T3/es active Active
- 2013-03-28 CN CN201380028268.XA patent/CN104321015A/zh active Pending
- 2013-03-28 JP JP2015502020A patent/JP6435257B2/ja active Active
- 2013-03-28 EP EP23169487.8A patent/EP4241676A3/en active Pending
- 2013-03-28 AU AU2013239327A patent/AU2013239327B2/en active Active
- 2013-03-28 EP EP13768257.1A patent/EP2830496B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
KR20140142330A (ko) | 2014-12-11 |
AU2013239327A1 (en) | 2014-11-06 |
AU2013239327B2 (en) | 2018-08-23 |
JP2015514456A (ja) | 2015-05-21 |
EP4241676A3 (en) | 2023-10-18 |
EP2830496A1 (en) | 2015-02-04 |
KR102081241B1 (ko) | 2020-02-25 |
US10098569B2 (en) | 2018-10-16 |
US20150073306A1 (en) | 2015-03-12 |
CN110353685B (zh) | 2022-03-04 |
EP4241676A2 (en) | 2023-09-13 |
EP2830496A4 (en) | 2015-12-16 |
CN104321015A (zh) | 2015-01-28 |
WO2013142908A1 (en) | 2013-10-03 |
CN110353685A (zh) | 2019-10-22 |
EP2830496B1 (en) | 2023-04-26 |
JP6435257B2 (ja) | 2018-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2947765T3 (es) | Procedimiento y aparato para procesar grabaciones de sonido de un paciente | |
Amrulloh et al. | Automatic cough segmentation from non-contact sound recordings in pediatric wards | |
Abeyratne et al. | Cough sound analysis can rapidly diagnose childhood pneumonia | |
Espinoza et al. | Glottal aerodynamic measures in women with phonotraumatic and nonphonotraumatic vocal hyperfunction | |
Altan et al. | Deep learning with 3D-second order difference plot on respiratory sounds | |
Dafna et al. | Automatic detection of whole night snoring events using non-contact microphone | |
US11712198B2 (en) | Estimation of sleep quality parameters from whole night audio analysis | |
Swarnkar et al. | Automatic identification of wet and dry cough in pediatric patients with respiratory diseases | |
Aggarwal et al. | A structured learning approach with neural conditional random fields for sleep staging | |
Tabatabaei et al. | Methods for adventitious respiratory sound analyzing applications based on smartphones: A survey | |
Paisarnsrisomsuk et al. | Deep Sleep: Convolutional neural networks for predictive modeling of human sleep time-signals | |
Dar et al. | Lung anomaly detection from respiratory sound database (sound signals) | |
Abeyratne et al. | Cough Sound Analysis-A new tool for diagnosing Pneumonia | |
Sun et al. | Amplitude spectrum trend-based feature for excitation location classification from snore sounds | |
Yılmaz et al. | Obstructive sleep apnea detection with nonlinear analysis of speech | |
Vatanparvar et al. | Speechspiro: Lung function assessment from speech pattern as an alternative to spirometry for mobile health tracking | |
US20210401364A1 (en) | System and Methods for Screening Obstructive Sleep Apnea During Wakefulness Using Anthropometric Information and Tracheal Breathing Sounds | |
Rossi et al. | Identification of characteristic points in multivariate physiological signals by sensor fusion and multi-task deep networks | |
Aly et al. | A new model to detect COVID-19 coughing and breathing sound symptoms classification from CQT and Mel spectrogram image representation using deep learning | |
Dubey et al. | Efficient classification of the adventitious sounds of the lung through a combination of SVM-LSTM-Bayesian optimization algorithm with features based on wavelet bi-phase and bi-spectrum | |
Snider et al. | Automatic classification of breathing sounds during sleep | |
Koravanavar et al. | Lung Sound Based Pulmonary Disease Classification Using Deep Learning | |
Rogers et al. | Long-term, continuous, and multimodal monitoring of respiratory digital biomarkers via wireless epidermal mechano-acoustic sensing in clinical and home settings for COVID-19 patients | |
Gupta et al. | Correlating spirometry findings with auscultation sounds for diagnosis of respiratory diseases | |
Shi et al. | Recognition System for Diagnosing Pneumonia and Bronchitis Using Children’s Breathing Sounds Based on Transfer Learning |