EA201290082A1 - Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания - Google Patents
Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравниванияInfo
- Publication number
- EA201290082A1 EA201290082A1 EA201290082A EA201290082A EA201290082A1 EA 201290082 A1 EA201290082 A1 EA 201290082A1 EA 201290082 A EA201290082 A EA 201290082A EA 201290082 A EA201290082 A EA 201290082A EA 201290082 A1 EA201290082 A1 EA 201290082A1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- phonograms
- formant
- similarity
- speaker
- identification
- Prior art date
Links
- 239000012634 fragment Substances 0.000 abstract 4
- 230000003304 psychophysiological effect Effects 0.000 abstract 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Television Signal Processing For Recording (AREA)
- Television Receiver Circuits (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Предлагаемый способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания позволяет осуществлять надежную идентификацию говорящего как для длинных, так и для коротких фонограмм, фонограмм, записанных в различных каналах с высоким уровнем помех и искажений, а также фонограмм с произвольной устной речью дикторов, находящихся в различных психофизиологических состояниях, говорящих на различающихся языках, что обеспечивает широкую область применения предлагаемого способа, в том числе в криминалистических исследованиях. Идентификация говорящего по фонограммам устной речи осуществляют путем оценки сходства между первой фонограммой говорящего и второй, эталонной фонограммой. Для указанной оценки на первой и второй фонограммах выбирают опорные фрагменты речевых сигналов, на которых присутствуют формантные траектории по крайней мере трех формант, сравнивают между собой опорные фрагменты, в которых совпадают значения по крайней мере двух формантных частот, оценивают сходство сравниваемых опорных фрагментов по совпадению значений остальных формантных частот, а сходство фонограмм в целом определяют по суммарной оценке сходства всех сравниваемых опорных фрагментов.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2009136387/09A RU2419890C1 (ru) | 2009-09-24 | 2009-09-24 | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
PCT/RU2010/000661 WO2011046474A2 (ru) | 2009-09-24 | 2010-11-03 | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
Publications (2)
Publication Number | Publication Date |
---|---|
EA201290082A1 true EA201290082A1 (ru) | 2012-07-30 |
EA019949B1 EA019949B1 (ru) | 2014-07-30 |
Family
ID=43876755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EA201290082A EA019949B1 (ru) | 2009-09-24 | 2010-11-03 | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
Country Status (6)
Country | Link |
---|---|
US (2) | US9047866B2 (ru) |
EP (1) | EP2482277B1 (ru) |
EA (1) | EA019949B1 (ru) |
ES (1) | ES2547731T3 (ru) |
RU (1) | RU2419890C1 (ru) |
WO (1) | WO2011046474A2 (ru) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2419890C1 (ru) | 2009-09-24 | 2011-05-27 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
JP5589537B2 (ja) | 2010-04-30 | 2014-09-17 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム、情報提供装置および情報処理システム |
RU2459281C1 (ru) * | 2011-09-15 | 2012-08-20 | Общество с ограниченной ответственностью "Цифрасофт" | Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала |
DE102011085280A1 (de) * | 2011-10-27 | 2013-05-02 | Robert Bosch Gmbh | Überwachung einer differentiellen mehrkanalübertragungsstrecke |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
US20140188468A1 (en) * | 2012-12-28 | 2014-07-03 | Dmitry Dyrmovskiy | Apparatus, system and method for calculating passphrase variability |
US9015045B2 (en) | 2013-03-11 | 2015-04-21 | Nuance Communications, Inc. | Method for refining a search |
US9728182B2 (en) * | 2013-03-15 | 2017-08-08 | Setem Technologies, Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
US20140309992A1 (en) * | 2013-04-16 | 2014-10-16 | University Of Rochester | Method for detecting, identifying, and enhancing formant frequencies in voiced speech |
RU2530314C1 (ru) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке |
RU2598314C2 (ru) * | 2013-08-05 | 2016-09-20 | Общество с ограниченной ответственностью "Центр речевых технологий" (ООО "ЦРТ") | Способ оценки вариативности парольной фразы (варианты) |
JP6316685B2 (ja) * | 2014-07-04 | 2018-04-25 | 日本電信電話株式会社 | 声まね音声評価装置、声まね音声評価方法及びプログラム |
BR102014023647B1 (pt) * | 2014-09-24 | 2022-12-06 | Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes | Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
US10672402B2 (en) * | 2017-04-11 | 2020-06-02 | International Business Machines Corporation | Speech with context authenticator |
EP3688754A1 (en) * | 2017-09-26 | 2020-08-05 | Sony Europe B.V. | Method and electronic device for formant attenuation/amplification |
KR102585231B1 (ko) * | 2018-02-02 | 2023-10-05 | 삼성전자주식회사 | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 |
CN108670199B (zh) * | 2018-05-28 | 2023-05-23 | 暨南大学 | 一种构音障碍元音评估模板及评估方法 |
CN111986698B (zh) * | 2019-05-24 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
WO2021127976A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN111933172B (zh) * | 2020-08-10 | 2024-09-06 | 广州九四智能科技有限公司 | 人声分离提取方法、装置、计算机设备及存储介质 |
CN111879397B (zh) * | 2020-09-01 | 2022-05-13 | 国网河北省电力有限公司检修分公司 | 高压断路器储能机构故障诊断方法 |
CN114400010A (zh) * | 2021-12-17 | 2022-04-26 | 深圳市声扬科技有限公司 | 一种语谱图的显示处理方法、装置、设备及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3466394A (en) | 1966-05-02 | 1969-09-09 | Ibm | Voice verification system |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
DE2431458C2 (de) | 1974-07-01 | 1986-05-28 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und Anordnung zur automatischen Sprechererkennung |
EP0572531A4 (en) * | 1991-02-22 | 1995-03-22 | Seaway Technologies Inc | ACOUSTIC METHOD AND APPARATUS FOR IDENTIFYING HUMAN SOUND SOURCES. |
US5265191A (en) | 1991-09-17 | 1993-11-23 | At&T Bell Laboratories | Technique for voice-based security systems |
US5339385A (en) | 1992-07-22 | 1994-08-16 | Itt Corporation | Speaker verifier using nearest-neighbor distance measure |
RU2047912C1 (ru) | 1994-04-20 | 1995-11-10 | Виктор Николаевич Сорокин | Способ распознавания изолированных слов речи с адаптацией к диктору |
SE515447C2 (sv) * | 1996-07-25 | 2001-08-06 | Telia Ab | Metod och anordning för talverifiering |
RU2107950C1 (ru) * | 1996-08-08 | 1998-03-27 | Николай Владимирович Байчаров | Способ идентификации личности по фонограммам произвольной устной речи |
US5995927A (en) | 1997-03-14 | 1999-11-30 | Lucent Technologies Inc. | Method for performing stochastic matching for use in speaker verification |
US6389392B1 (en) | 1997-10-15 | 2002-05-14 | British Telecommunications Public Limited Company | Method and apparatus for speaker recognition via comparing an unknown input to reference data |
RU2161826C2 (ru) | 1998-08-17 | 2001-01-10 | Пензенский научно-исследовательский электротехнический институт | Способ автоматической идентификации личности |
US6411930B1 (en) | 1998-11-18 | 2002-06-25 | Lucent Technologies Inc. | Discriminative gaussian mixture models for speaker verification |
GB9913773D0 (en) * | 1999-06-14 | 1999-08-11 | Simpson Mark C | Speech signal processing |
US6993378B2 (en) * | 2001-06-25 | 2006-01-31 | Science Applications International Corporation | Identification by analysis of physiometric variation |
RU2230375C2 (ru) * | 2002-09-03 | 2004-06-10 | Общество с ограниченной ответственностью "Центр речевых технологий" | Метод распознавания диктора и устройство для его осуществления |
US20050171774A1 (en) * | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
JP4455417B2 (ja) * | 2005-06-13 | 2010-04-21 | 株式会社東芝 | 移動ロボット、プログラム及びロボット制御方法 |
US20100217591A1 (en) * | 2007-01-09 | 2010-08-26 | Avraham Shpigel | Vowel recognition system and method in speech to text applictions |
RU2419890C1 (ru) | 2009-09-24 | 2011-05-27 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
-
2009
- 2009-09-24 RU RU2009136387/09A patent/RU2419890C1/ru active
-
2010
- 2010-11-03 EA EA201290082A patent/EA019949B1/ru not_active IP Right Cessation
- 2010-11-03 WO PCT/RU2010/000661 patent/WO2011046474A2/ru active Application Filing
- 2010-11-03 ES ES10823678.7T patent/ES2547731T3/es active Active
- 2010-11-03 EP EP10823678.7A patent/EP2482277B1/en active Active
-
2012
- 2012-03-23 US US13/429,260 patent/US9047866B2/en active Active
-
2013
- 2013-07-31 US US13/956,240 patent/US20130325470A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
RU2419890C1 (ru) | 2011-05-27 |
US20130325470A1 (en) | 2013-12-05 |
ES2547731T3 (es) | 2015-10-08 |
WO2011046474A3 (ru) | 2011-06-16 |
EA019949B1 (ru) | 2014-07-30 |
US20120232899A1 (en) | 2012-09-13 |
EP2482277A2 (en) | 2012-08-01 |
WO2011046474A2 (ru) | 2011-04-21 |
EP2482277B1 (en) | 2015-06-24 |
EP2482277A4 (en) | 2013-04-10 |
US9047866B2 (en) | 2015-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EA201290082A1 (ru) | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания | |
MX2008013078A (es) | Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto. | |
EP2806425A3 (en) | System and method for speaker verification | |
NO20064431L (no) | Prosessering av et multikanalsignal | |
NO20083580L (no) | Autentisering av taler | |
WO2007035183A3 (en) | Method, system, and program product for measuring audio video synchronization independent of speaker characteristics | |
WO2008045476A3 (en) | System and method for utilizing omni-directional microphones for speech enhancement | |
Koldovsky et al. | Time-domain blind audio source separation using advanced component clustering and reconstruction | |
DE602006015376D1 (de) | Vorrichtung zur ausblendung von signalausfällen für eine mehrkanalanordnung | |
WO2006091551A3 (en) | Audio signal de-identification | |
JP2014515833A5 (ru) | ||
WO2014145960A3 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
WO2010148141A3 (en) | Apparatus and method for speech analysis | |
Chiba et al. | Amplitude-based speech enhancement with nonnegative matrix factorization for asynchronous distributed recording | |
Stupakov et al. | The design and collection of COSINE, a multi-microphone in situ speech corpus recorded in noisy environments | |
WO2008036768A3 (en) | System and method for identifying perceptual features | |
US9015044B2 (en) | Formant based speech reconstruction from noisy signals | |
Wang et al. | Attention-based fusion for bone-conducted and air-conducted speech enhancement in the complex domain | |
Kallasjoki et al. | Recognition of reverberant speech by missing data imputation and NMF feature enhancement | |
Sahidullah | Enhancement of speaker recognition performance using block level, relative and temporal information of subband energies | |
Vijayalakshmi et al. | Selective pole modification-based technique for the analysis and detection of hypernasality | |
Villalba et al. | The I3A speaker recognition system for NIST SRE12: Post-evaluation analysis | |
Jin et al. | Far-field speaker recognition | |
Fan et al. | Acoustic analysis for speaker identification of whispered speech | |
ATE554479T1 (de) | Vorrichtung und verfahren zum übertragen oder wiederabspielen eines mehrkanal-audiosignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): KG MD |
|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): AM AZ TJ TM |