EA201290082A1 - Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания - Google Patents
Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравниванияInfo
- Publication number
- EA201290082A1 EA201290082A1 EA201290082A EA201290082A EA201290082A1 EA 201290082 A1 EA201290082 A1 EA 201290082A1 EA 201290082 A EA201290082 A EA 201290082A EA 201290082 A EA201290082 A EA 201290082A EA 201290082 A1 EA201290082 A1 EA 201290082A1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- phonograms
- formant
- similarity
- speaker
- identification
- Prior art date
Links
- 239000012634 fragment Substances 0.000 abstract 4
- 230000003304 psychophysiological effect Effects 0.000 abstract 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Television Signal Processing For Recording (AREA)
- Television Receiver Circuits (AREA)
- Telephonic Communication Services (AREA)
Abstract
Предлагаемый способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания позволяет осуществлять надежную идентификацию говорящего как для длинных, так и для коротких фонограмм, фонограмм, записанных в различных каналах с высоким уровнем помех и искажений, а также фонограмм с произвольной устной речью дикторов, находящихся в различных психофизиологических состояниях, говорящих на различающихся языках, что обеспечивает широкую область применения предлагаемого способа, в том числе в криминалистических исследованиях. Идентификация говорящего по фонограммам устной речи осуществляют путем оценки сходства между первой фонограммой говорящего и второй, эталонной фонограммой. Для указанной оценки на первой и второй фонограммах выбирают опорные фрагменты речевых сигналов, на которых присутствуют формантные траектории по крайней мере трех формант, сравнивают между собой опорные фрагменты, в которых совпадают значения по крайней мере двух формантных частот, оценивают сходство сравниваемых опорных фрагментов по совпадению значений остальных формантных частот, а сходство фонограмм в целом определяют по суммарной оценке сходства всех сравниваемых опорных фрагментов.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2009136387/09A RU2419890C1 (ru) | 2009-09-24 | 2009-09-24 | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
PCT/RU2010/000661 WO2011046474A2 (ru) | 2009-09-24 | 2010-11-03 | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
Publications (2)
Publication Number | Publication Date |
---|---|
EA201290082A1 true EA201290082A1 (ru) | 2012-07-30 |
EA019949B1 EA019949B1 (ru) | 2014-07-30 |
Family
ID=43876755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EA201290082A EA019949B1 (ru) | 2009-09-24 | 2010-11-03 | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
Country Status (6)
Country | Link |
---|---|
US (2) | US9047866B2 (ru) |
EP (1) | EP2482277B1 (ru) |
EA (1) | EA019949B1 (ru) |
ES (1) | ES2547731T3 (ru) |
RU (1) | RU2419890C1 (ru) |
WO (1) | WO2011046474A2 (ru) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2419890C1 (ru) | 2009-09-24 | 2011-05-27 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
JP5589537B2 (ja) | 2010-04-30 | 2014-09-17 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム、情報提供装置および情報処理システム |
RU2459281C1 (ru) * | 2011-09-15 | 2012-08-20 | Общество с ограниченной ответственностью "Цифрасофт" | Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала |
DE102011085280A1 (de) * | 2011-10-27 | 2013-05-02 | Robert Bosch Gmbh | Überwachung einer differentiellen mehrkanalübertragungsstrecke |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
US20140188468A1 (en) * | 2012-12-28 | 2014-07-03 | Dmitry Dyrmovskiy | Apparatus, system and method for calculating passphrase variability |
US9015045B2 (en) | 2013-03-11 | 2015-04-21 | Nuance Communications, Inc. | Method for refining a search |
US9728182B2 (en) * | 2013-03-15 | 2017-08-08 | Setem Technologies, Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
US20140309992A1 (en) * | 2013-04-16 | 2014-10-16 | University Of Rochester | Method for detecting, identifying, and enhancing formant frequencies in voiced speech |
RU2530314C1 (ru) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке |
RU2598314C2 (ru) * | 2013-08-05 | 2016-09-20 | Общество с ограниченной ответственностью "Центр речевых технологий" (ООО "ЦРТ") | Способ оценки вариативности парольной фразы (варианты) |
JP6316685B2 (ja) * | 2014-07-04 | 2018-04-25 | 日本電信電話株式会社 | 声まね音声評価装置、声まね音声評価方法及びプログラム |
BR102014023647B1 (pt) * | 2014-09-24 | 2022-12-06 | Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes | Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
US10672402B2 (en) * | 2017-04-11 | 2020-06-02 | International Business Machines Corporation | Speech with context authenticator |
US11594241B2 (en) * | 2017-09-26 | 2023-02-28 | Sony Europe B.V. | Method and electronic device for formant attenuation/amplification |
KR102585231B1 (ko) * | 2018-02-02 | 2023-10-05 | 삼성전자주식회사 | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 |
CN108670199B (zh) * | 2018-05-28 | 2023-05-23 | 暨南大学 | 一种构音障碍元音评估模板及评估方法 |
CN111986698B (zh) * | 2019-05-24 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
CN111133508A (zh) * | 2019-12-24 | 2020-05-08 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN111933172B (zh) * | 2020-08-10 | 2024-09-06 | 广州九四智能科技有限公司 | 人声分离提取方法、装置、计算机设备及存储介质 |
CN111879397B (zh) * | 2020-09-01 | 2022-05-13 | 国网河北省电力有限公司检修分公司 | 高压断路器储能机构故障诊断方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3466394A (en) | 1966-05-02 | 1969-09-09 | Ibm | Voice verification system |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
DE2431458C2 (de) | 1974-07-01 | 1986-05-28 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und Anordnung zur automatischen Sprechererkennung |
AU1436792A (en) * | 1991-02-22 | 1992-09-15 | Seaway Technologies, Inc. | Acoustic method and apparatus for identifying human sonic sources |
US5265191A (en) | 1991-09-17 | 1993-11-23 | At&T Bell Laboratories | Technique for voice-based security systems |
US5339385A (en) | 1992-07-22 | 1994-08-16 | Itt Corporation | Speaker verifier using nearest-neighbor distance measure |
RU2047912C1 (ru) | 1994-04-20 | 1995-11-10 | Виктор Николаевич Сорокин | Способ распознавания изолированных слов речи с адаптацией к диктору |
SE515447C2 (sv) * | 1996-07-25 | 2001-08-06 | Telia Ab | Metod och anordning för talverifiering |
RU2107950C1 (ru) | 1996-08-08 | 1998-03-27 | Николай Владимирович Байчаров | Способ идентификации личности по фонограммам произвольной устной речи |
US5995927A (en) | 1997-03-14 | 1999-11-30 | Lucent Technologies Inc. | Method for performing stochastic matching for use in speaker verification |
CA2304747C (en) | 1997-10-15 | 2007-08-14 | British Telecommunications Public Limited Company | Pattern recognition using multiple reference models |
RU2161826C2 (ru) | 1998-08-17 | 2001-01-10 | Пензенский научно-исследовательский электротехнический институт | Способ автоматической идентификации личности |
US6411930B1 (en) | 1998-11-18 | 2002-06-25 | Lucent Technologies Inc. | Discriminative gaussian mixture models for speaker verification |
GB9913773D0 (en) * | 1999-06-14 | 1999-08-11 | Simpson Mark C | Speech signal processing |
WO2003000015A2 (en) * | 2001-06-25 | 2003-01-03 | Science Applications International Corporation | Identification by analysis of physiometric variation |
RU2230375C2 (ru) | 2002-09-03 | 2004-06-10 | Общество с ограниченной ответственностью "Центр речевых технологий" | Метод распознавания диктора и устройство для его осуществления |
US20050171774A1 (en) * | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
JP4455417B2 (ja) * | 2005-06-13 | 2010-04-21 | 株式会社東芝 | 移動ロボット、プログラム及びロボット制御方法 |
WO2008084476A2 (en) * | 2007-01-09 | 2008-07-17 | Avraham Shpigel | Vowel recognition system and method in speech to text applications |
RU2419890C1 (ru) | 2009-09-24 | 2011-05-27 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
-
2009
- 2009-09-24 RU RU2009136387/09A patent/RU2419890C1/ru active
-
2010
- 2010-11-03 WO PCT/RU2010/000661 patent/WO2011046474A2/ru active Application Filing
- 2010-11-03 ES ES10823678.7T patent/ES2547731T3/es active Active
- 2010-11-03 EA EA201290082A patent/EA019949B1/ru not_active IP Right Cessation
- 2010-11-03 EP EP10823678.7A patent/EP2482277B1/en active Active
-
2012
- 2012-03-23 US US13/429,260 patent/US9047866B2/en active Active
-
2013
- 2013-07-31 US US13/956,240 patent/US20130325470A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP2482277B1 (en) | 2015-06-24 |
ES2547731T3 (es) | 2015-10-08 |
WO2011046474A2 (ru) | 2011-04-21 |
EP2482277A4 (en) | 2013-04-10 |
US20130325470A1 (en) | 2013-12-05 |
WO2011046474A3 (ru) | 2011-06-16 |
US9047866B2 (en) | 2015-06-02 |
EP2482277A2 (en) | 2012-08-01 |
US20120232899A1 (en) | 2012-09-13 |
RU2419890C1 (ru) | 2011-05-27 |
EA019949B1 (ru) | 2014-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EA201290082A1 (ru) | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания | |
EP2806425A3 (en) | System and method for speaker verification | |
NO20083580L (no) | Autentisering av taler | |
WO2008045476A3 (en) | System and method for utilizing omni-directional microphones for speech enhancement | |
DE602006015376D1 (de) | Vorrichtung zur ausblendung von signalausfällen für eine mehrkanalanordnung | |
WO2007035183A3 (en) | Method, system, and program product for measuring audio video synchronization independent of speaker characteristics | |
BRPI0507207A8 (pt) | Equipamento e método para o processamento de um sinal multicanais | |
CN104123115A (zh) | 一种音频信息处理方法及电子设备 | |
WO2006091551A3 (en) | Audio signal de-identification | |
WO2010148141A3 (en) | Apparatus and method for speech analysis | |
EP2458584A3 (en) | Audio visual signature, method of deriving a signature, and method of comparing audio-visual data | |
EP2361430A4 (en) | DEVICE, SYSTEM AND METHOD FOR DETECTING REAL STATE USING VOICE BIOMETRY | |
Chiba et al. | Amplitude-based speech enhancement with nonnegative matrix factorization for asynchronous distributed recording | |
WO2007135198A3 (en) | Method for adjusting a hearing device with frequency transposition and corresponding arrangement | |
WO2009098181A3 (en) | Audio recording analysis and rating | |
WO2008036768A3 (en) | System and method for identifying perceptual features | |
US20130231927A1 (en) | Formant Based Speech Reconstruction from Noisy Signals | |
CN106328165A (zh) | 一种机器人自身音源消除系统 | |
Kallasjoki et al. | Recognition of reverberant speech by missing data imputation and NMF feature enhancement | |
Sahidullah | Enhancement of speaker recognition performance using block level, relative and temporal information of subband energies | |
EA202091595A1 (ru) | Способ и устройство для построения голосовой модели целевого диктора | |
Rouvier et al. | Far-field speaker recognition benchmark derived from the DiPCo corpus | |
Villalba et al. | The I3A speaker recognition system for NIST SRE12: Post-evaluation analysis | |
Jin et al. | Far-field speaker recognition | |
EP2084704A4 (en) | DEVICE AND METHOD FOR TRANSMITTING OR REPEATING A MULTI CHANNEL AUDIO SIGNAL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): KG MD |
|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): AM AZ TJ TM |