FONOTAKTICKÉ A AKUSTICKÉ ROZPOZNÁVÁNÍ JAZYKŮ

Mark

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

Abstract

Práce pojednává o fonotaktickém a akustickém přístupu pro automatické rozpoznávání jazyka. První část práce pojednává o fonotaktickém přístupu založeném na výskytu fonémových sekvenci v řeči. Nejdříve je prezentován popis vývoje fonémového rozpoznávače jako techniky pro přepis řeči do sekvence smysluplných symbolů. Hlavní důraz je kladen na dobré natrénování fonémového rozpoznávače a kombinaci výsledků z několika fonémových rozpoznávačů trénovaných na různých jazycích (Paralelní fonémové rozpoznávání následované jazykovými modely (PPRLM)). Práce také pojednává o nové technice anti-modely v PPRLM a studuje použití fonémových grafů místo nejlepšího přepisu. Na závěr práce jsou porovnány dva přístupy modelování výstupu fonémového rozpoznávače -- standardní n-gramové jazykové modely a binární rozhodovací stromy. Hlavní přínos v akustickém přístupu je diskriminativní modelování cílových modelů jazyků a první experimenty s kombinací diskriminativního trénování a na příznacích, kde byl odstraněn vliv kanálu. Práce dále zkoumá různé druhy technik fúzi akustického a fonotaktického přístupu. Všechny experimenty jsou provedeny na standardních datech z NIST evaluaci konané v letech 2003, 2005 a 2007, takže jsou přímo porovnatelné s výsledky ostatních skupin zabývajících se automatickým rozpoznáváním jazyka. S fúzí uvedených technik jsme posunuli state-of-the-art výsledky a dosáhli vynikajících výsledků ve dvou NIST evaluacích.
This thesis deals with phonotactic and acoustic techniques for automatic language recognition (LRE). The first part of the thesis deals with the phonotactic language recognition based on co-occurrences of phone sequences in speech. A thorough study of phone recognition as tokenization technique for LRE is done, with focus on the amounts of training data for phone recognizer and on the combination of phone recognizers trained on several language (Parallel Phone Recognition followed by Language Model - PPRLM). The thesis also deals with novel technique of anti-models in PPRLM and investigates into using phone lattices instead of strings. The work on phonotactic approach is concluded by a comparison of classical n-gram modeling techniques and binary decision trees. The acoustic LRE was addressed too, with the main focus on discriminative techniques for training target language acoustic models and on initial (but successful) experiments with removing channel dependencies. We have also investigated into the fusion of phonotactic and acoustic approaches. All experiments were performed on standard data from NIST 2003, 2005 and 2007 evaluations so that the results are directly comparable to other laboratories in the LRE community. With the above mentioned techniques, the fused systems defined the state-of-the-art in the LRE field and reached excellent results in NIST evaluations.

Keywords

rozpoznávání jazyků, identifikace jazyků, fonotaktika, extrakce příznaků, rozpoznávání fonémů, TIMIT, neuronové sítě, časové trajektorie, language recognition, language identification, phonotactics, feature extraction, phone recognition, TIMIT, neural networks, temporal patterns

Citation

MATĚJKA, P. FONOTAKTICKÉ A AKUSTICKÉ ROZPOZNÁVÁNÍ JAZYKŮ [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2009.

Language of document

Study field

Elektronika a sdělovací technika

Comittee

prof. Dr. Ing. Zbyněk Raida (předseda) Ing. Josef Halámek, CSc. (člen) Prof. Ing. Zbyněk Škvor, CSc. (člen) prof. Ing. Vladimír Šebesta, CSc. (člen) prof. Ing. Jarmila Dědková, CSc. (člen) doc. Dr. Ing. Jan Černocký (člen) doc. Ing. Jaroslav Láčík, Ph.D. (člen) doc. Ing. Zdeněk Nováček, CSc. (člen) Doc. Ing. Petr Pollák, CSc. - oponent (člen) Dr. Douglas Reynolds - oponent (člen)

Date of acceptance

2009-04-09

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/12818

Collections

2009

Citace PRO

Full item page