RU2432623C2 - Способ и устройство для естественно-речевого распознавания речевого высказывания - Google Patents
Способ и устройство для естественно-речевого распознавания речевого высказывания Download PDFInfo
- Publication number
- RU2432623C2 RU2432623C2 RU2009102507/09A RU2009102507A RU2432623C2 RU 2432623 C2 RU2432623 C2 RU 2432623C2 RU 2009102507/09 A RU2009102507/09 A RU 2009102507/09A RU 2009102507 A RU2009102507 A RU 2009102507A RU 2432623 C2 RU2432623 C2 RU 2432623C2
- Authority
- RU
- Russia
- Prior art keywords
- recognition
- speech
- grammar
- utterance
- result
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000014509 gene expression Effects 0.000 title abstract description 10
- 230000001755 vocal effect Effects 0.000 title abstract 7
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000009223 counseling Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. Техническим результатом является создание способа и системы распознавания речи с большим объемом распознавания при небольшом грамматическом объеме. Указанный технический результат достигается тем, что способ для естественно-речевого распознавания речевого высказывания включает анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26). Способ включает одновременную подачу речевого сигнала (10) к первой и второй ветвям распознавания речи, включающим в себя соответственно первую грамматику (12) и вторую грамматику (14) для анализа речевого сигнала. В случае распознавания или нераспознавания речевого высказывания посредством первой грамматики (12) или второй грамматики (14) получают первый или второй положительные результаты распознавания или первый или второй отрицательные результаты распознавания. Решение об успешном распознавании речевого высказывания принимают на основании оценки первого и второго результатов распознавания. Посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывания, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания. Используют либо выданный первой грамматикой (12) результат распознавания, либо результат распознавания с наибольшей надежностью распознавания. 2 н. и 1 з.п. ф-лы, 2 ил., 1 табл.
Description
Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания, в частности, на основе системы распознавания речи, который осуществляется, например, в электронной системе обработки данных.
Системы распознавания речи используются в различных областях. Например, они используются в сочетании с офисными приложениями для регистрации текстов или в сочетании с техническими устройствами для управления ими и для ввода команд. Системы распознавания речи используются также для управления информационными и коммуникационными приборами, например радио, мобильными телефонами и навигационными системами. Кроме того, многие фирмы используют системы речевых диалогов для консультирования и информирования клиентов, также основанные на системах распознавания речи. На это и направлена заявка.
При автоматическом распознавании речи для оценки последовательностей слов используются так называемые речевые модели, основанные на грамматическом правиле, называемом также грамматика или граммар. Грамматики определяют однозначные правила предложений. Основанные на грамматиках системы распознавания речи имеют высокую надежность распознавания.
В частности, при консультировании клиентов в технической области, например, что касается мобильных телефонов и тарифов, всегда требуются более мощные системы распознавания речи. Чтобы понимать многочисленные высказывания клиентов, требуются очень большие грамматики, объем которых снижает надежность распознавания.
Любой автоматизированный процесс распознавания речи основан на сравнении конкретного высказывания позвонившего с записанными словами или выражениями. Только в случае совпадения высказывание считается распознанным и может инициировать установленное действие. Однако из этого следует «Grammar Dilemma»: небольшие грамматики имеют небольшой объем распознавания, зато лучшую надежность распознавания. Большие грамматики, наоборот, покрывают широкий спектр выражений, тогда как надежность распознавания снижается.
В US 2002/013346 А1 раскрыт способ распознавания речи, при котором речевое высказывание лица регистрируется и преобразуется в обрабатываемый в устройстве распознавания речи речевой сигнал. Затем параллельно в нескольких ветвях устройства распознавания речи с использованием нескольких грамматик проводится анализ речевого сигнала, и процесс распознавания считается успешно завершенным, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат распознавания.
Аналогичный способ с параллельной обработкой речевого сигнала с помощью нескольких грамматик раскрыт в US 2002/005845 A1.
В WO 00/14727 A1 раскрыта система распознавания речи, в которой с помощью нескольких грамматик проводится последовательная обработка речевого сигнала. Результаты отдельных этапов обработки взвешиваются и выдается общий результат.
Задачей изобретения является реализация способа и системы распознавания речи с большим объемом распознавания при небольшом грамматическом объеме. Следовательно, необходимо создать грамматическую модель, которая использовала бы позитивные аспекты больших и малых грамматик без имплицирования их негативных аспектов.
Эта задача решается согласно изобретению посредством способа и устройства, охарактеризованными признаками независимых пунктов формулы.
Предпочтительные варианты осуществления и другие предпочтительные признаки изобретения приведены в зависимых пунктах формулы.
Предложенный способ основан на регистрации речевого высказывания лица и его преобразовании в обрабатываемый в устройстве распознавания речи речевой сигнал, анализе речевого сигнала параллельно или последовательно в нескольких ветвях устройства распознавания речи с использованием нескольких грамматик и успешном завершении процесса распознавания, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат.
В первом варианте происходит одновременный анализ речевого высказывания двумя или более независимыми грамматиками. В этом случае речевое высказывание лица инициирует два или более одновременных процесса распознавания, которые анализируют и оценивают речевое высказывание независимо друг от друга. Например, здесь сравнительно небольшая основная грамматика с небольшим объемом распознавания уступает место вспомогательной грамматике большего охвата с расширенным объемом распознавания. Обе грамматики не пересекаются.
Второй вариант касается грамматического каскада. В этой модели друг за другом, т.е. последовательно, используются различные грамматики. В тот момент, когда одна грамматика выдает результат распознавания, каскад покидается, и процесс распознавания заканчивается. В этом способе 100% всех распознаваемых высказываний сравниваются с первой грамматикой. В зависимости от производительности и выполнения этой грамматики часть нераспознанных высказываний, например 20%, передается на вторую ступень распознавания. В случае наличия третьей ступени распознавания можно исходить из того, что часть всех входящих высказываний, например 5%, достигает этой третьей ступени распознавания.
Оба способа распознавания покрывают широкий спектр выражений с несколькими «меньшими» грамматиками, которые в комбинации тем не менее гарантируют высокую надежность распознавания. Это может происходить, как сказано выше, в виде одновременного или последовательного процесса распознавания.
Оба предпочтительных варианта осуществления изобретения описаны ниже с помощью чертежей, на которых изображают:
фиг.1 - схематично первый вариант системы распознавания речи с параллельно работающими ветвями распознавания речи;
фиг.2 - схематично второй вариант системы распознавания речи с последовательно работающими, каскадными ветвями распознавания речи.
На фиг.1 речевое высказывание лица в виде речевого сигнала 10 подается одновременно к двум ветвям распознавания речи и анализируется двумя грамматиками 12, 14 (грамматики А, В). Обе грамматики 12, 14 не пересекаются, т.е. они основаны на разных правилах. За счет параллельной обработки речевого сигнала повышаются затраты на анализ и тем самым необходимая вычислительная нагрузка при применении способа в компьютере. Это обстоятельство компенсируется более быстрым распознаванием и существенно более высокой его надежностью.
Сравнение 16 речевого сигнала с грамматикой (А) 12 приводит либо к положительному (да), либо к отрицательному (нет) результату распознавания. Точно так же сравнение 18 речевого сигнала с грамматикой (В) 14 приводит либо к положительному (да), либо к отрицательному (нет) результату распознавания. В процессе распознавания с одновременно работающими грамматиками 12, 14 возникают четыре возможных случая распознавания, которые могут оцениваться разными методами посредством логики 20 (см. таблицу).
Случай распознавания | Грамматика 1 (основная грамматика) | Грамматика 2 (вспомогательная грамматика) | Общий результат |
1 | Отсутствие результата (нет) | Отсутствие результата (нет) | Не распознан |
2 | Результат (да) | Отсутствие результата (нет) | Распознан |
3 | Отсутствие результата (нет) | Результат (да) | Распознан |
4 | Результат (да) | Результат (да) | Распознан |
Случаи 1-3 распознавания не связаны с проблемами, поскольку они дают однозначные результаты. В случае 1 речевой сигнал не распознается и тем самым отклоняется (поз.24). Случаи 2, 3 дают только положительный результат и показывают тем самым однозначно распознавание речевого сигнала (поз.22).
В случае 4, когда обе грамматики 12, 14 распознают речевой сигнал 10, необходимо, напротив, реализовать логику, поскольку результат неоднозначен. Она может принять решение в пользу грамматики 12, может быть ориентирована на надежность распознавания (Confidence Level) или может представлять собой смешанную форму из обоих (например, результат от грамматики 14 используется только тогда, когда надежность распознавания на заданное значение выше, чем от грамматики 12).
Вместо двух параллельных ветвей распознавания речи могут быть предусмотрены согласно изобретению также три или более таких параллельно работающих ветвей.
На фиг.2 изображен другой предпочтительный вариант. Здесь несколько грамматик 12, 14, 26 (грамматики А, В, С) последовательно соединены между собой каскадом. Это значит, что в случае грамматического каскада обращение к различным грамматикам 12, 14, 26 происходит не одновременно, а последовательно. Схематично процесс распознавания можно представить следующим образом: в момент, когда одна грамматика дает положительный результат распознавания, каскад покидается и процесс распознавания завершается (поз.22).
Речевой сигнал 10 подается сначала к первой грамматике (А) 12 и подвергается там анализу. Сравнение 16 речевого сигнала с грамматикой (А) 12 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал подается для дальнейшего анализа ко второй грамматике (В) 14. Сравнение 18 речевого сигнала 10 с грамматикой (В) 14 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал подается для дальнейшего анализа к третьей грамматике (С) 26. Сравнение речевого сигнала с грамматикой (С) 26 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал отклоняется как нераспознанный (поз.24).
В этом способе сначала все 100% входящих речевых сигналов 10 сравниваются с первой грамматикой 12. В зависимости от производительности и выполнения этой грамматики часть речевых высказываний не распознается. Эти нераспознанные речевые сигналы передаются на вторую ступень распознавания. В зависимости от производительности и выполнения второй ступени распознавания речевые сигналы передаются на третью ступень распознавания.
Преимущество грамматического каскада по сравнению со способом одновременного распознавания посредством нескольких грамматик состоит в том, что не возникает дополнительной вычислительной нагрузки, поскольку речевой сигнал 10 в любой момент сравнивается только с одной грамматикой. Однако последовательное распознавание неизбежно приведет к увеличению латентного времени в системе.
Вместо трех ветвей распознавания речи каскадом могут быть предусмотрены согласно изобретению также четыре или более последовательно работающих ветвей распознавания речи.
Перечень ссылочных позиций
10 - речевой сигнал
12 - грамматика А
14 - грамматика В
18 - ответвление А
20 - ответвление В
22 - распознавание завершено
22 - распознавание не завершено
26 - грамматика С
28 - ответвление С
Claims (3)
1. Способ для естественно-речевого распознавания речевого высказывания, включающий в себя следующие этапы:
распознавание речевого высказывания и его преобразование в обрабатываемый в устройстве распознавания речи речевой сигнал (10);
анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26);
успешное завершение процесса распознавания речевого высказывания, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат;
и способ включает в себя следующие этапы:
a) подачу речевого сигнала (10), по меньшей мере, к одной первой ветви распознавания речи, включающей в себя первую грамматику (12) для анализа речевого сигнала, и одновременно ко второй ветви распознавания речи, включающей в себя вторую грамматику (14) для анализа речевого сигнала,
b) анализ речевого сигнала посредством первой грамматики (12), причем в случае распознавания речевого высказывания получают первый положительный результат распознавания, а в случае нераспознавания речевого высказывания - первый отрицательный результат распознавания;
c) анализ речевого сигнала посредством второй грамматики (14), причем в случае распознавания речевого высказывания получают второй положительный результат распознавания, а в случае нераспознавания речевого высказывания - второй отрицательный результат распознавания;
d) принятие решения об успешном распознавании речевого высказывания на основании оценки первого и второго результатов распознавания, отличающийся тем, что посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывании, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания,
в случае, если и первый, и второй результаты распознавания не являются положительными, то речевое высказывание считается нераспознанным,
в случае, если либо первый, либо второй результат распознавания является положительным, то речевое высказывание считается распознанным, и
в случае, если и первый, и второй результаты распознавания являются положительными, то речевое высказывание считается распознанным,
и используют либо выданный первой грамматикой (12) результат распознавания,
либо результат распознавания с наибольшей надежностью распознавания.
распознавание речевого высказывания и его преобразование в обрабатываемый в устройстве распознавания речи речевой сигнал (10);
анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26);
успешное завершение процесса распознавания речевого высказывания, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат;
и способ включает в себя следующие этапы:
a) подачу речевого сигнала (10), по меньшей мере, к одной первой ветви распознавания речи, включающей в себя первую грамматику (12) для анализа речевого сигнала, и одновременно ко второй ветви распознавания речи, включающей в себя вторую грамматику (14) для анализа речевого сигнала,
b) анализ речевого сигнала посредством первой грамматики (12), причем в случае распознавания речевого высказывания получают первый положительный результат распознавания, а в случае нераспознавания речевого высказывания - первый отрицательный результат распознавания;
c) анализ речевого сигнала посредством второй грамматики (14), причем в случае распознавания речевого высказывания получают второй положительный результат распознавания, а в случае нераспознавания речевого высказывания - второй отрицательный результат распознавания;
d) принятие решения об успешном распознавании речевого высказывания на основании оценки первого и второго результатов распознавания, отличающийся тем, что посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывании, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания,
в случае, если и первый, и второй результаты распознавания не являются положительными, то речевое высказывание считается нераспознанным,
в случае, если либо первый, либо второй результат распознавания является положительным, то речевое высказывание считается распознанным, и
в случае, если и первый, и второй результаты распознавания являются положительными, то речевое высказывание считается распознанным,
и используют либо выданный первой грамматикой (12) результат распознавания,
либо результат распознавания с наибольшей надежностью распознавания.
2. Способ по п.1, отличающийся тем, что правила грамматик (12, 14, 26) не пересекаются.
3. Устройство для осуществления способа по пп.1 или 2 для естественно-речевого распознавания речевого высказывания, содержащее
средства (10) для регистрации речевого высказывания и для его преобразования в обрабатываемый в устройстве распознавания речи речевой сигнал,
устройство распознавания речи с несколькими ветвями распознавания речи, причем каждая ветвь распознавания речи содержит грамматику (12, 14, 26) для анализа речевого сигнала (10),
причем речевой сигнал подается к ветвям распознавания речи параллельно, и
средства (20, 22, 24) для управления и оценки процесса распознавания, в зависимости от результата распознавания, по меньшей мере, в одной ветви распознавания речи.
средства (10) для регистрации речевого высказывания и для его преобразования в обрабатываемый в устройстве распознавания речи речевой сигнал,
устройство распознавания речи с несколькими ветвями распознавания речи, причем каждая ветвь распознавания речи содержит грамматику (12, 14, 26) для анализа речевого сигнала (10),
причем речевой сигнал подается к ветвям распознавания речи параллельно, и
средства (20, 22, 24) для управления и оценки процесса распознавания, в зависимости от результата распознавания, по меньшей мере, в одной ветви распознавания речи.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006029755.5 | 2006-06-27 | ||
DE102006029755A DE102006029755A1 (de) | 2006-06-27 | 2006-06-27 | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2009102507A RU2009102507A (ru) | 2010-08-10 |
RU2432623C2 true RU2432623C2 (ru) | 2011-10-27 |
Family
ID=38543007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2009102507/09A RU2432623C2 (ru) | 2006-06-27 | 2007-06-14 | Способ и устройство для естественно-речевого распознавания речевого высказывания |
Country Status (9)
Country | Link |
---|---|
US (1) | US9208787B2 (ru) |
EP (1) | EP2036078A1 (ru) |
KR (1) | KR20090033459A (ru) |
CN (1) | CN101484934B (ru) |
BR (1) | BRPI0713987A2 (ru) |
CA (1) | CA2656114C (ru) |
DE (1) | DE102006029755A1 (ru) |
RU (1) | RU2432623C2 (ru) |
WO (1) | WO2008000353A1 (ru) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195461B2 (en) | 2006-12-15 | 2012-06-05 | Mitsubishi Electric Corporation | Voice recognition system |
DE102008025532B4 (de) * | 2008-05-28 | 2014-01-09 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102010040553A1 (de) * | 2010-09-10 | 2012-03-15 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
DE102010049869B4 (de) * | 2010-10-28 | 2023-03-16 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
US9093076B2 (en) | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
EP2733697A1 (en) * | 2012-11-16 | 2014-05-21 | QNX Software Systems Limited | Application services interface to ASR |
US9135916B2 (en) * | 2013-02-26 | 2015-09-15 | Honeywell International Inc. | System and method for correcting accent induced speech transmission problems |
KR101370539B1 (ko) | 2013-03-15 | 2014-03-06 | 포항공과대학교 산학협력단 | 지시 표현 처리에 기반한 대화 처리 방법 및 장치 |
US10186262B2 (en) | 2013-07-31 | 2019-01-22 | Microsoft Technology Licensing, Llc | System with multiple simultaneous speech recognizers |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9698999B2 (en) * | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
US9601108B2 (en) | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US9552817B2 (en) * | 2014-03-19 | 2017-01-24 | Microsoft Technology Licensing, Llc | Incremental utterance decoder combination for efficient and accurate decoding |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
CN113259736B (zh) * | 2021-05-08 | 2022-08-09 | 深圳市康意数码科技有限公司 | 一种语音控制电视机的方法及电视机 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6249761B1 (en) * | 1997-09-30 | 2001-06-19 | At&T Corp. | Assigning and processing states and arcs of a speech recognition model in parallel processors |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
EP1273004A1 (en) * | 2000-04-06 | 2003-01-08 | One Voice Technologies Inc. | Natural language and dialogue generation processing |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
US7464033B2 (en) * | 2000-07-31 | 2008-12-09 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
JP2002116796A (ja) | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
US20020107695A1 (en) * | 2001-02-08 | 2002-08-08 | Roth Daniel L. | Feedback for unrecognized speech |
US6964020B1 (en) * | 2001-02-22 | 2005-11-08 | Sprint Communications Company L.P. | Method and system for facilitating construction of a canned message in a microbrowser environment |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
FR2832524A1 (fr) * | 2001-11-22 | 2003-05-23 | Cegetel Groupe | Procede de gestion d'un document principal |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US7177814B2 (en) * | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
US7016849B2 (en) | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7184957B2 (en) * | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US20040158468A1 (en) * | 2003-02-12 | 2004-08-12 | Aurilab, Llc | Speech recognition with soft pruning |
US7426468B2 (en) * | 2003-03-01 | 2008-09-16 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7603267B2 (en) * | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
US7647645B2 (en) * | 2003-07-23 | 2010-01-12 | Omon Ayodele Edeki | System and method for securing computer system against unauthorized access |
CA2573002A1 (en) * | 2004-06-04 | 2005-12-22 | Benjamin Firooz Ghassabian | Systems to enhance data entry in mobile and fixed environment |
JP4574390B2 (ja) * | 2005-02-22 | 2010-11-04 | キヤノン株式会社 | 音声認識方法 |
DE102005030967B4 (de) * | 2005-06-30 | 2007-08-09 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
-
2006
- 2006-06-27 DE DE102006029755A patent/DE102006029755A1/de not_active Ceased
-
2007
- 2007-06-14 KR KR1020097001732A patent/KR20090033459A/ko not_active Application Discontinuation
- 2007-06-14 CA CA2656114A patent/CA2656114C/en not_active Expired - Fee Related
- 2007-06-14 US US12/306,350 patent/US9208787B2/en not_active Expired - Fee Related
- 2007-06-14 EP EP07764643A patent/EP2036078A1/de not_active Withdrawn
- 2007-06-14 WO PCT/EP2007/005224 patent/WO2008000353A1/de active Application Filing
- 2007-06-14 CN CN2007800246599A patent/CN101484934B/zh not_active Expired - Fee Related
- 2007-06-14 BR BRPI0713987-0A patent/BRPI0713987A2/pt not_active Application Discontinuation
- 2007-06-14 RU RU2009102507/09A patent/RU2432623C2/ru active
Also Published As
Publication number | Publication date |
---|---|
WO2008000353A1 (de) | 2008-01-03 |
DE102006029755A1 (de) | 2008-01-03 |
KR20090033459A (ko) | 2009-04-03 |
CA2656114A1 (en) | 2008-01-03 |
CA2656114C (en) | 2016-02-09 |
US20100114577A1 (en) | 2010-05-06 |
BRPI0713987A2 (pt) | 2012-11-20 |
CN101484934A (zh) | 2009-07-15 |
CN101484934B (zh) | 2013-01-02 |
US9208787B2 (en) | 2015-12-08 |
RU2009102507A (ru) | 2010-08-10 |
EP2036078A1 (de) | 2009-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2432623C2 (ru) | Способ и устройство для естественно-речевого распознавания речевого высказывания | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
US8396713B2 (en) | Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN110853628A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN112562640B (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
Weng et al. | Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech | |
Serafini et al. | An experimental review of speaker diarization methods with application to two-speaker conversational telephone speech recordings | |
Furui | History and development of speech recognition | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
Picheny et al. | Trends and advances in speech recognition | |
Tran et al. | Joint modeling of text and acoustic-prosodic cues for neural parsing | |
Liu et al. | Learning salient features for speech emotion recognition using CNN | |
Zhang et al. | Improved context-dependent acoustic modeling for continuous Chinese speech recognition | |
CN117634471A (zh) | 一种nlp质检方法及计算机可读存储介质 | |
Iori et al. | The direction of technical change in AI and the trajectory effects of government funding | |
Barnard et al. | Real-world speech recognition with neural networks | |
CN115641850A (zh) | 话术轮次结束的识别方法、装置、存储介质及计算机设备 | |
Pandey et al. | Keyword spotting in continuous speech using spectral and prosodic information fusion | |
Gonze et al. | Coding with the voice | |
KR102069101B1 (ko) | 고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법 | |
KR101095864B1 (ko) | 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법 | |
CN113297579B (zh) | 基于时序神经通路的语音识别模型中毒检测方法及装置 |