[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2017211513A - Speech recognition device, method therefor, and program - Google Patents

Speech recognition device, method therefor, and program Download PDF

Info

Publication number
JP2017211513A
JP2017211513A JP2016104880A JP2016104880A JP2017211513A JP 2017211513 A JP2017211513 A JP 2017211513A JP 2016104880 A JP2016104880 A JP 2016104880A JP 2016104880 A JP2016104880 A JP 2016104880A JP 2017211513 A JP2017211513 A JP 2017211513A
Authority
JP
Japan
Prior art keywords
speech
recognition
recognition result
section
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016104880A
Other languages
Japanese (ja)
Other versions
JP6526602B2 (en
Inventor
隆朗 福冨
Takaaki Fukutomi
隆朗 福冨
岡本 学
Manabu Okamoto
学 岡本
清彰 松井
Kiyoaki Matsui
清彰 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016104880A priority Critical patent/JP6526602B2/en
Publication of JP2017211513A publication Critical patent/JP2017211513A/en
Application granted granted Critical
Publication of JP6526602B2 publication Critical patent/JP6526602B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a speech recognition device, etc., with which it is possible to detect an iteration and avoid the degradation of recognition accuracy due to the iteration.SOLUTION: A speech recognition device includes: a first utterance section detection unit for assuming a non-speech section less than a prescribed threshold θas one portion of a speech section and detecting a first speech section that is a speech section of speech data; a second utterance section detection unit for assuming a non-speech section less than a prescribed threshold θ, where θ<θ, as one portion of a speech section and detecting a second speech section that is a speech section of speech data; a speech recognition unit for performing speech recognition on the speech data that corresponds to the first speech section to obtain a first recognition result and performing speech recognition on the speech data that corresponds to the second speech section to obtain a second recognition result; and a recognition result correction unit for calculating the degree of similarity between the first recognition result of some speech section and the first recognition result of an other speech section and, when the degree of similarity is larger than a prescribed threshold, deletes the first recognition result of the some speech section, and defines the first recognition result that is left as a recognition result.SELECTED DRAWING: Figure 1

Description

本発明は、人間の発話などをコンピューターに認識させ、発話を文字列に変換する音声認識技術に関する。   The present invention relates to a speech recognition technique for causing a computer to recognize a human utterance and converting the utterance into a character string.

音声認識技術においては、発話区間検出技術(非特許文献1参照)を用いて、利用者の発話のみを切り出し、音声認識を行う。利用者の発話のみを精度よく切り出すことで、発話していない雑音区間を除外し、精度よく音声認識ができる。   In the speech recognition technology, using a speech segment detection technology (see Non-Patent Document 1), only the user's speech is cut out and speech recognition is performed. By cutting out only the user's utterance with high accuracy, it is possible to exclude a non-speaking noise section and to perform voice recognition with high accuracy.

発話区間検出においては、入力音声の各フレームに対して音声尤度、非音声尤度を算出し、音声区間を決定する手法がとられることが多い。   In speech segment detection, a method is often employed in which speech likelihood and non-speech likelihood are calculated for each frame of input speech to determine speech segments.

ひとつの発話として音声認識に渡す発話は、尤度計算から音声区間と判定された区間のみを渡すのではなく、音声区間の前後にマージンとしての非音声区間を付与したり、音声区間と音声区間の間(以下、「ギャップ」ともいう)に存在する短い非音声区間も含まれる。   The utterance passed to speech recognition as one utterance does not pass only the section determined as the speech section from the likelihood calculation, but gives a non-speech section as a margin before and after the speech section, or the speech section and the speech section Also included is a short non-speech segment that exists in between (hereinafter also referred to as “gap”).

どの程度のマージンを付与するか、及び、どの程度のギャップであればひとつの発話とするかは、一般に利用環境に応じて人手で調整する。   In general, how much margin is given and how much gap is used for one utterance is manually adjusted according to the use environment.

藤本雅清, “音声区間検出の基礎と最近の研究動向”, IEICE Technical Report., SP2010-23(2010-06), pp.7-12.Masayoshi Fujimoto, “Fundamentals of Speech Interval Detection and Recent Research Trends”, IEICE Technical Report., SP2010-23 (2010-06), pp.7-12.

しかしながら、音声対話システムなどにおいて、利用者が目的の発話を言い直すケースがあり、その場合、発話の言い直しは、自然な連続した発話と比較して言語的なつながりが低下することから音声認識精度が劣化する。また、音声対話対話システムとしてもその意味解釈が難しくなり、音声対話システムとしての信頼度が低下する。   However, there are cases in which the user re-states the desired utterance in a speech dialogue system, etc., and in that case, the re-utterance of the utterance reduces the linguistic connection compared to natural continuous utterance, so the speech recognition accuracy Deteriorates. In addition, it becomes difficult to interpret the semantics of a spoken dialogue system, and the reliability of the spoken dialogue system decreases.

言い直し箇所も発話区間であることから発話区間検出処理では除外することができない。   Since the restated part is also an utterance section, it cannot be excluded by the utterance section detection process.

発話区間検出において結合する音声区間ギャップを短く設定することで、音声認識に渡される発話区間は短くなる。言い直しをする際には、短い非音声区間を挟むことから、ギャップの調整により言い直しとそれ以降の発話に分割することができるが、短く分割されやすくなると文脈としてのつながりが利用しづらくなるため認識精度が劣化する。   By setting the speech segment gap to be combined in the speech segment detection to be short, the speech segment passed to speech recognition is shortened. When rephrasing, a short non-speech segment is inserted, so it can be divided into reutterance and subsequent utterances by adjusting the gap, but it becomes difficult to use the connection as a context if it becomes easier to divide shortly Therefore, recognition accuracy deteriorates.

本発明は、言い直しを検出することで言い直しによる認識精度の劣化を回避することができる音声認識装置、その方法及びプログラムを提供することを目的とする。   It is an object of the present invention to provide a speech recognition device, a method and a program thereof that can avoid deterioration in recognition accuracy due to rephrasing by detecting rephrasing.

上記の課題を解決するために、本発明の一態様によれば、音声認識装置は、所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出する第一発話区間検出部と、θ12とし、所定の閾値θ2未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第二音声区間t1,t2,…,tJを検出する第二発話区間検出部と、第一音声区間s1,s2,…,sLに対応する音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、第二音声区間t1,t2,…,tJに対応する音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得る音声認識部と、i=1,…,L-1とし、m=1,2,…,Mとし、Mは1以上L-1以下の何れかの整数とし、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする認識結果修正部とを含む。 In order to solve the above-described problem, according to one aspect of the present invention, the speech recognition apparatus regards a non-speech interval less than a predetermined threshold θ 1 as a part of a speech segment, and is a speech segment of speech data. A first utterance section detecting unit that detects the first speech sections s 1 , s 2 ,..., S L , and θ 12 and a non-speech section less than a predetermined threshold θ 2 is regarded as a part of the speech section. Te, the second speech section t 1 is a speech segment of the speech data, t 2, ..., a second utterances section detection unit for detecting a t J, the first speech section s 1, s 2, ..., corresponding to s L the first recognition result performs speech recognition sr 1, sr 2 the audio data to be, ..., give sr L, the second speech section t 1, t 2, ..., sound the audio data corresponding to t J A speech recognition unit that performs recognition and obtains second recognition results tr 1 , tr 2 ,..., Tr J , i = 1,..., L-1, m = 1, 2,. and L-1 following any integer, when L> J, first recognition result sr i and the first recognition result sr i + m Recognition result similarity alpha i, m is calculated and if the similarity alpha i, m is greater than a predetermined threshold value, which remove the first recognition result sr i, only the remaining first recognition result as recognition result of the And a correction section.

上記の課題を解決するために、本発明の他の態様によれば、音声認識方法は、所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出する第一発話区間検出ステップと、θ12とし、所定の閾値θ2未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第二音声区間t1,t2,…,tJを検出する第二発話区間検出ステップと、第一音声区間s1,s2,…,sLに対応する音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、第二音声区間t1,t2,…,tJに対応する音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得る音声認識ステップと、i=1,…,L-1とし、m=1,2,…,Mとし、Mは1以上L-1以下の何れかの整数とし、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする認識結果修正ステップとを含む。 In order to solve the above-described problem, according to another aspect of the present invention, a speech recognition method regards a non-speech interval less than a predetermined threshold θ 1 as a part of a speech interval, A first speech segment detection step for detecting a certain first speech segment s 1 , s 2 ,..., S L , and θ 12, and a non-speech segment less than a predetermined threshold θ 2 as a part of the speech segment Assuming that the second speech segment detection step for detecting the second speech segment t 1 , t 2 ,..., T J which is the speech segment of the speech data, and the first speech segment s 1 , s 2 ,. the first recognition result performs speech recognition on the corresponding audio data sr 1, sr 2, ..., give sr L, the second speech section t 1, t 2, ..., the audio data corresponding to t J A speech recognition step for performing speech recognition and obtaining second recognition results tr 1 , tr 2 ,..., Tr J , i = 1,..., L−1, m = 1, 2,. Any integer less than or equal to L-1 and when L> J, the first recognition result s Calculate the r i and similarity alpha i, m the first recognition result sr i + m, if the similarity alpha i, m is greater than a predetermined threshold, deletes the first recognition result sr i, remaining the A recognition result correcting step in which only one recognition result is used as a recognition result.

本発明によれば、言い直しを検出することで言い直しによる認識精度の劣化を回避することができ、音声認識を用いるシステムの信頼性を向上させるという効果を奏する。   According to the present invention, it is possible to avoid deterioration in recognition accuracy due to rephrasing by detecting rephrasing, and there is an effect of improving the reliability of a system using speech recognition.

第一実施形態に係る音声認識装置の機能ブロック図。The functional block diagram of the speech recognition apparatus which concerns on 1st embodiment. 第一実施形態に係る音声認識装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the speech recognition apparatus which concerns on 1st embodiment. 入力音声データ、第一音声区間及び第二音声区間の例を示す図。The figure which shows the example of input audio | voice data, a 1st audio | voice area, and a 2nd audio | voice area. 入力音声データ、第一認識結果及び第二認識結果の例を示す図。The figure which shows the example of input audio | voice data, a 1st recognition result, and a 2nd recognition result. 認識結果修正部103の処理フローの例を示す図。The figure which shows the example of the processing flow of the recognition result correction part 103. FIG.

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted.

<第一実施形態>
本実施形態では、感度の異なる(ギャップの長さの異なる)2つの発話区間検出を動作させ、それぞれに対する音声認識結果を参照することで、言い直しを検出する。
<First embodiment>
In the present embodiment, two speech segment detections having different sensitivities (different gap lengths) are operated, and the rephrasing is detected by referring to the speech recognition result for each.

図1は第一実施形態に係る音声認識装置100の機能ブロック図を、図2はその処理フローを示す。   FIG. 1 is a functional block diagram of the speech recognition apparatus 100 according to the first embodiment, and FIG. 2 shows a processing flow thereof.

音声認識装置100は、第一発話区間検出部101−1、第二発話区間検出部101−2、音声認識部102及び認識結果修正部103を含む。   The speech recognition apparatus 100 includes a first utterance section detection unit 101-1, a second utterance section detection unit 101-2, a speech recognition unit 102, and a recognition result correction unit 103.

音声認識装置100は、マイクロホン等の音声デバイスで収音された音声データを入力とし、その音声データを音声認識し、音声認識結果を出力する。   The voice recognition apparatus 100 receives voice data collected by a voice device such as a microphone, recognizes the voice data, and outputs a voice recognition result.

<第一発話区間検出部101−1及び第二発話区間検出部101−2>
第一発話区間検出部101−1は、音声データを入力とし、所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出し(S101−1)、音声認識部102に出力する。
<First utterance section detection unit 101-1 and second utterance section detection unit 101-2>
The first utterance section detection unit 101-1 receives voice data, regards a non-speech section less than a predetermined threshold θ 1 as a part of the voice section, and first voice section s 1 that is a voice section of the voice data. , s 2 ,..., s L are detected (S 101-1) and output to the speech recognition unit 102.

第二発話区間検出部101−2は、音声データを入力とし、所定の閾値θ2未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第二音声区間t1,t2,…,tJを検出し(S101−2)、音声認識部102に出力する。ただし、θ12とする。 The second utterance section detection unit 101-2 receives voice data as input, regards a non-speech section less than a predetermined threshold θ 2 as a part of the voice section, and a second voice section t 1 that is a voice section of the voice data. , t 2 ,..., t J are detected (S101-2) and output to the speech recognition unit 102. However, θ 12 is assumed.

なお、本実施形態では、第一音声区間s1,s2,…,sL及び第二音声区間t1,t2,…,tJとして、音声区間を切り出した音声データを出力する。ただし、音声区間と、その音声区間に対応する音声データとを取得できればよいため、切り出す前の音声データと音声区間を示す情報(例えば(i)音声区間の開始時刻と終了時刻、(ii)音声区間の開始時刻と音声区間の長さ等)を出力してもよい。 In the present embodiment, the first speech section s 1, s 2, ..., s L and the second speech section t 1, t 2, ..., as t J, and outputs the voice data obtained by cutting out speech interval. However, since it is only necessary to acquire the voice section and the voice data corresponding to the voice section, information indicating the voice data before being cut out and the voice section (for example, (i) start time and end time of the voice section, (ii) voice The start time of the section and the length of the voice section may be output.

例えば、第一発話区間検出部101−1及び第二発話区間検出部101−2は、音声デバイスからの入力音声データを解析し、音声区間の検出を行う。音声区間検出方法は、既存のいかなる音声区間検出方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、非特許文献1の音声区間検出方法を用いればよい。ただし、本実施形態では、検出感度の異なる2つの設定で音声区間検出処理を行う。図3は、入力音声データ、第一音声区間s1,s2,…,sL及び第二音声区間t1,t2,…,tJの例を示す。 For example, the first utterance section detection unit 101-1 and the second utterance section detection unit 101-2 analyze input voice data from the voice device, and detect a voice section. As the speech segment detection method, any existing speech segment detection method may be used, and an optimum method may be selected as appropriate in accordance with the use environment or the like. For example, the speech section detection method of Non-Patent Document 1 may be used. However, in the present embodiment, the voice section detection process is performed with two settings having different detection sensitivities. 3, the input voice data, the first speech section s 1, s 2, ..., s L and the second speech section t 1, t 2, ..., show examples of t J.

第一発話区間検出部101−1は、言い直しや考えながら話す際に生じるような発話内での短い非音声区間にも敏感に発話を分割するように設定する(図3参照)。つまり、閾値θ1を小さな値に設定する。他方、第二発話区間検出部101−2は、そのような短い非音声区間は音声区間の一部とみなすように設定する(図3参照)。つまり、閾値θ2を閾値θ1よりも大きな値に設定する。例えば、第一発話区間検出部101−1及び第二発話区間検出部101−2は、内部で音声尤度と非音声尤度との比(以下、尤度比ともいう)を算出し、尤度比がある閾値βを下回る区間(非音声区間)が閾値βを上回る区間(音声区間)に挟まれている場合において、当該非音声区間がある時間長θ1またはθ2よりも短い場合はその非音声区間を音声区間として処理する。ここでの設定の違いは、この時間長θ1を非常に短く、たとえば0.1秒などに設定し、他方、時間長θ2を、通常の発話内における一般的な間を考慮し、0.5秒程度に設定することにある。θ1を非常に短くすることで発話区間(音声区間)が細かく分割されやすくなる。第一発話区間検出部101−1及び第二発話区間検出部101−2では、異なる設定で動かした複数の区間検出結果(第一音声区間s1,s2,…,sL及び第二音声区間t1,t2,…,tJ、ただし、θ12なので、第一音声区間の個数Lは必ず第二音声区間の個数J以上となる、つまり、L≧Jとなる)が出力される。 The first utterance section detection unit 101-1 is set so as to divide the utterance sensitively even in a short non-speech section in the utterance that occurs when speaking while rephrasing or thinking (see FIG. 3). That is, the threshold value θ 1 is set to a small value. On the other hand, the second utterance section detecting unit 101-2 sets such a short non-voice section as a part of the voice section (see FIG. 3). That is, the threshold value θ 2 is set to a value larger than the threshold value θ 1 . For example, the first utterance section detection unit 101-1 and the second utterance section detection unit 101-2 internally calculate a ratio between speech likelihood and non-speech likelihood (hereinafter also referred to as likelihood ratio). When a section (non-speech section) where the degree ratio is below a certain threshold β is sandwiched by a section (speech section) above the threshold β, the non-speech section is shorter than a certain time length θ 1 or θ 2 The non-voice section is processed as a voice section. The difference in setting here is that this time length θ 1 is very short, for example, set to 0.1 seconds, etc., while the time length θ 2 is set to about 0.5 seconds in consideration of general intervals in normal speech. It is to set to. By making θ 1 very short, the speech section (voice section) can be easily divided finely. In the first utterances section detection unit 101-1 and the second utterances section detection unit 101-2, a plurality of section detection result of moving at different settings (first speech section s 1, s 2, ..., s L and a second audio (Interval t 1 , t 2 ,..., T J , where θ 12 , the number L of the first speech segment is always equal to or greater than the number J of the second speech segment, that is, L ≧ J) Is output.

<音声認識部102>
音声認識部102は、音声データ、第一音声区間s1,s2,…,sL及び第二音声区間t1,t2,…,tJ(音声区間を切り出した音声データ)を入力とし、第一音声区間s1,s2,…,sLに対応する音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、第二音声区間t1,t2,…,tJに対応する音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得(S102)、認識結果修正部103に出力する。音声認識方法は、既存のいかなる音声認識方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。図4は、第一認識結果sr1,sr2,…,srL及び第二認識結果tr1,tr2,…,trJの例を示す。
<Voice recognition unit 102>
The voice recognition unit 102 receives voice data, first voice sections s 1 , s 2 ,..., S L and second voice sections t 1 , t 2 ,..., T J (voice data obtained by cutting out voice sections). first speech section s 1, s 2, ..., the first recognition result sr 1, sr 2 performs speech recognition on the speech data corresponding to s L, ..., give sr L, the second speech section t 1 , t 2 ,..., t J are subjected to speech recognition to obtain second recognition results tr 1 , tr 2 ,..., tr J (S102) and output to the recognition result correction unit 103. As the speech recognition method, any existing speech recognition method may be used, and an optimal method may be selected as appropriate in accordance with the usage environment. Figure 4 is a first recognition result sr 1, sr 2, ..., sr L and second recognition result tr 1, tr 2, ..., an example of tr J.

<認識結果修正部103>
認識結果修正部103は、第一認識結果sr1,sr2,…,srLと第二認識結果tr1,tr2,…,trJとを受け取り、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とし(S103)、音声認識装置100の出力値として出力する。ただし、i=1,2,…,L-1とし、m=1とする。なお、L>Jのとき、Jは第二認識結果に含まれる発話の個数を示すため少なくとも1以上の値となり、Lは1より大きな値となる。
<Recognition Result Correction Unit 103>
The recognition result correcting unit 103 receives the first recognition result sr 1 , sr 2 ,..., Sr L and the second recognition result tr 1 , tr 2 ,..., Tr J, and when L> J, the first recognition result sr i a first recognition result to calculate the similarity alpha i, m and sr i + m, if the similarity alpha i, m is greater than a predetermined threshold, deletes the first recognition result sr i, remaining the Only one recognition result is set as a recognition result (S103) and output as an output value of the speech recognition apparatus 100. However, i = 1, 2,..., L-1 and m = 1. When L> J, J indicates the number of utterances included in the second recognition result, and is at least 1 or more, and L is greater than 1.

図5は、認識結果修正部103の処理フローの例を示す。認識結果修正部103は、第一発話区間検出部101−1及び第二発話区間検出部101−2から入力された発話区間の数L,Jが異なる場合(L≠J、ただし、L≧JなのでL>Jとなる、図5のS103−Aのyesの場合)、発話区間数が多い方の認識結果(つまり、第一認識結果))に対して言い直しの検出を行う(S103−B〜S103−H)。なお、この例では、flagが0のとき言い直しが行われていないと判断し、flagが1のとき言い直しが行われたと判断する。そこで、まず、flagを0に設定する(S103−B)。発話区間の数L,Jが同一である場合(L=J、図5のS103−Aのnoの場合)には処理は行わず、発話区間長が長い方の認識結果(第二認識結果)tr1,tr2,…,trJをそのまま出力する(S103−J)。このような処理により、以降の処理S103−B〜S103−lを省略することができる。言い直しの検出は、複数発話区間のうち時間軸上で前後するもの(本実施形態では、sriとsri+1)の認識結果文字列の類似度αi,mを算出し(S103−D)、その類似度がある閾値ηを上回っている際に(S103−Eのyesの場合)、sri+1はsriの言い直し箇所だとして判断し、flagを1に設定する(S103−F)。ただし、類似度の計算には認識結果文字列すべてを用いるのではなく、過去の認識結果sriの末尾からn文字、sri+1の先頭からn文字のみを用いるものとし、類似度計算自体は公知の技術を用いて算出する。ここでnは例えば5とする。類似度の計算は、2つの文字系列を比較し、スコアを出力できるものであればよく、たとえばDPマッチングなどを用いるとよい。類似度のスコアを0から1に正規化した場合ηは0.85程度にしておくとよい。計算した類似度計算結果から、近接する発話で類似度がηを上回っている場合には、近接する過去の認識結果sriを削除する(S103−G)。この処理をすべての認識結果sriに対して行い(S103−C、なお、図5のS103−Cの上端内の数値は、変数iの初期値、終値、増分値を表す。)、言い直しが行われていた場合(S103−Hのyesの場合)、近接する発話で類似度がη以下であった認識結果(削除されていない第一音声認識結果sri)のみを出力する(S103−I)。なお、第一音声認識結果srL(i=Lのとき)は、i=L+1の比較が行われることがないため、必ず出力される。なお、第一認識結果sr1,sr2,…,srLは、第二認識結果tr1,tr2,…,trJに比べると、短く分割される。そのため、第一認識結果sr1,sr2,…,srLは、第二認識結果tr1,tr2,…,trJに比べると、文脈としてのつながりが利用しづらくなり、認識精度が劣化すると考えられる。そのため、近接するどの認識結果でも類似度が閾値ηを上回らなかった場合には、第二認識結果tr1,tr2,…,trJを出力する(S103−J)。 FIG. 5 shows an example of the processing flow of the recognition result correction unit 103. The recognition result correcting unit 103 determines that the number of utterance sections L and J input from the first utterance section detection unit 101-1 and the second utterance section detection unit 101-2 are different (L ≠ J, where L ≧ J Therefore, when L> J is satisfied (in the case of yes in S103-A in FIG. 5), rephrasing detection is performed on the recognition result with the larger number of utterance sections (that is, the first recognition result) (S103-B). ~ S103-H). In this example, it is determined that rephrase is not performed when flag is 0, and it is determined that restatement is performed when flag is 1. Therefore, first, flag is set to 0 (S103-B). When the numbers L and J of the utterance sections are the same (L = J, no in S103-A in FIG. 5), no processing is performed, and the recognition result with the longer utterance section length (second recognition result). tr 1 , tr 2 ,..., tr J are output as they are (S103-J). By such processing, the subsequent processing S103-B to S103-l can be omitted. Detection of restatement are those which back and forth on the time axis among the plurality speech period (in this embodiment, sr i and sr i + 1) to calculate the similarity alpha i, m recognition result string (S103- D), when the when exceeds a certain similarity threshold η of (S103-E yes), sr i + 1 is determined as it rephrasing locations sr i, sets the flag to 1 (S103 -F). However, rather than using all recognition result string in the calculation of similarity, from the end of the previous recognition results sr i n characters shall be used from the beginning of sr i + 1 n characters only, similarity calculation itself Is calculated using a known technique. Here, n is, for example, 5. The degree of similarity may be calculated as long as two character sequences can be compared and a score can be output. For example, DP matching may be used. When the similarity score is normalized from 0 to 1, η should be about 0.85. From the calculated degree of similarity calculation result, the similarity in speech that proximity when exceeds the η deletes the previous recognition results sr i close (S103-G). This processing is performed for all the recognition results sr i (S103-C, The numerical values in the upper end of the S103-C in FIG. 5 represents the initial value of the variable i, closing, the increment value.), Restates may have been performed (in the case of yes in S103-H), utterance similarity (first speech recognition results that have not been deleted sr i) the recognition result was below the η outputs only adjacent (S103- I). The first speech recognition result sr L (when i = L) is always output because i = L + 1 is not compared. Incidentally, the first recognition result sr 1, sr 2, ..., sr L , the second recognition result tr 1, tr 2, ..., compared to tr J, divided shortened. Therefore, first recognition result sr 1, sr 2, ..., sr L , the second recognition result tr 1, tr 2, ..., compared to tr J, becomes difficult to use the connection as a context, recognition accuracy is degraded I think that. Therefore, if the similarity does not exceed the threshold η in any adjacent recognition result, second recognition results tr 1 , tr 2 ,..., Tr J are output (S103-J).

<効果>
以上の構成により、言い直しを検出することで言い直しによる認識精度の劣化を回避することができ、音声認識を用いるシステムの信頼性を向上させるという効果を奏する。
<Effect>
With the above configuration, it is possible to avoid deterioration in recognition accuracy due to rephrasing by detecting rephrasing, and there is an effect of improving the reliability of a system using speech recognition.

<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
<Second embodiment>
A description will be given centering on differences from the first embodiment.

認識結果修正部103は、第一認識結果sr1,sr2,…,srLと第二認識結果tr1,tr2,…,trJとを受け取り、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とし(S103)、音声認識装置100の出力値として出力する。ただし、i=1,2,…,L-1とし、m=1,2,…,Mとし、Mは1以上L-1以下の何れかの整数とする。 The recognition result correcting unit 103 receives the first recognition result sr 1 , sr 2 ,..., Sr L and the second recognition result tr 1 , tr 2 ,..., Tr J, and when L> J, the first recognition result sr i a first recognition result to calculate the similarity alpha i, m and sr i + m, if the similarity alpha i, m is greater than a predetermined threshold, deletes the first recognition result sr i, remaining the Only one recognition result is set as a recognition result (S103) and output as an output value of the speech recognition apparatus 100. Here, i = 1, 2,..., L−1, m = 1, 2,..., M, and M is an integer from 1 to L−1.

認識結果修正部103において、直前の発話区間とのみ認識結果の類似度比較を行うのではなく、過去の発話区間すべて、または過去M個分の発話区間(認識結果)との類似度を算出する形態もある。この場合、直近にある発話区間の方が言い直しである可能性が高いことから比較対象との時間的距離に応じた重みを導入するのがよい。たとえば、DPマッチング等で算出した類似度のスコアをαi,mとし、発話区間同士の開始時刻のずれ(第一認識結果sriの発話開始時刻と第一認識結果sri+mの発話開始時刻との差分)をΔti+mとした場合、距離重みを考慮した類似度は、αi,m/Δtと定義するとよい。つまり、
αi,mi,m/Δti+m
として、類似度αi,mを更新する。また、Mは3,4個程度に設定するのがよい。あるいは、過去T秒以内の発話区間のように時間的な制約をかけてもよい。Tはたとえば5秒などにするとよい。
The recognition result correcting unit 103 does not compare the similarity of the recognition result with only the immediately preceding utterance section, but calculates the similarity with all the past utterance sections or the past M utterance sections (recognition results). There is also a form. In this case, since the most recent utterance section is more likely to be rephrased, it is preferable to introduce a weight according to the temporal distance from the comparison target. For example, a score of similarity calculated in DP matching or the like as alpha i, m, shift start time between speech segment (the start utterance of the first recognition results sr i utterance start time and the first recognition result of sr i + m When Δt i + m is defined as the difference from the time, the similarity considering the distance weight may be defined as α i, m / Δt. That means
α i, m = α i, m / Δt i + m
The similarity α i, m is updated. Also, M should be set to about 3,4. Alternatively, time constraints may be imposed such as utterance intervals within the past T seconds. T may be 5 seconds, for example.

<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、言い直しが行われているか否かの判定範囲を広げることで、より精度の高い音声認識が可能となる。なお、M=1のとき、第一実施形態と同様の構成となるため、第一実施形態は第二実施形態の一例とも言える。
<Effect>
By setting it as such a structure, the effect similar to 1st embodiment can be acquired. Furthermore, by expanding the determination range of whether or not rephrasing is performed, more accurate speech recognition is possible. In addition, since it becomes the same structure as 1st embodiment when M = 1, 1st embodiment can also be said to be an example of 2nd embodiment.

<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
<Third embodiment>
A description will be given centering on differences from the first embodiment.

認識結果修正部103において、認識結果文字列の類似度を計算するが、文字列の表記での類似度ではなく、一度音素に変換し、音素系列の類似度を計算してもよい。なお、音声認識部102で音声認識処理を行う際に、音声データから音声認識結果(文字列)に変換する過程で、音素系列を取得するため、その音素系列を利用して類似度を計算してもよい。また、本実施形態では、音素系列の類似度を計算しているが、音声データの類似度を計算してもよいし、音声データから得られる特徴量(例えばMFCC(メル周波数ケプストラム係数)等)の類似度を計算してもよい。ただし、文字列や音素系列で類似度を計算したほうが類似度の精度は良い。   The recognition result correcting unit 103 calculates the similarity of the recognition result character string, but instead of the similarity in the notation of the character string, it may be converted into a phoneme once to calculate the similarity of the phoneme sequence. When the speech recognition unit 102 performs speech recognition processing, a phoneme sequence is acquired in the process of converting speech data into a speech recognition result (character string), and the similarity is calculated using the phoneme sequence. May be. Further, in the present embodiment, the similarity of the phoneme series is calculated, but the similarity of the voice data may be calculated, and the feature amount obtained from the voice data (for example, MFCC (Mel Frequency Cepstrum Coefficient), etc.) The similarity may be calculated. However, the accuracy of the similarity is better if the similarity is calculated using a character string or a phoneme sequence.

<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.

Claims (8)

所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出する第一発話区間検出部と、
θ12とし、所定の閾値θ2未満の非音声区間を音声区間の一部とみなして、前記音声データの音声区間である第二音声区間t1,t2,…,tJを検出する第二発話区間検出部と、
前記第一音声区間s1,s2,…,sLに対応する前記音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、前記第二音声区間t1,t2,…,tJに対応する前記音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得る音声認識部と、
i=1,…,L-1とし、m=1,2,…,Mとし、Mは1以上L-1以下の何れかの整数とし、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、前記類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする認識結果修正部とを含む、
音声認識装置。
A first utterance section detector that detects first speech sections s 1 , s 2 ,..., S L that are speech sections of speech data, considering a non-speech section less than a predetermined threshold θ 1 as a part of the speech section. When,
and θ 12, the predetermined threshold value theta 2 less than non-speech section is regarded as part of the speech segment, the second speech section t 1 is a speech segment of the speech data, t 2, ..., a t J A second utterance section detection unit to detect;
, S L to perform speech recognition on the speech data corresponding to the first speech sections s 1 , s 2 ,..., S L to obtain first recognition results sr 1 , sr 2 ,. t 1, t 2, ..., the second the recognition result performed speech recognition on the speech data corresponding to t J tr 1, tr 2, ..., a speech recognition unit for obtaining a tr J,
i = 1, ..., a L-1, m = 1, 2, ..., and M, M is 1 or more L-1 following any integer, when L> J, a first recognition result sr i similarity alpha i, m the first recognition result sr i + m is calculated, if the similarity alpha i, m is greater than a predetermined threshold, deletes the first recognition result sr i, the remaining first recognized Including a recognition result correction unit that recognizes only the result as a recognition result,
Voice recognition device.
請求項1の音声認識装置であって、
前記類似度αi,mは、前記第一認識結果sriの末尾からn文字と、前記第一認識結果sri+mの先頭からn文字との間の類似度である、
音声認識装置。
The speech recognition device according to claim 1,
The similarity alpha i, m is said tail from n characters of the first recognition results sr i, a similarity between the first recognition result sr i + m from the beginning n characters,
Voice recognition device.
請求項1または請求項2の音声認識装置であって、
M=1である、
音声認識装置。
The speech recognition device according to claim 1 or 2,
M = 1,
Voice recognition device.
請求項1から請求項3の何れかの音声認識装置であって、
第一認識結果sriの発話開始時刻と第一認識結果sri+mの発話開始時刻との差分をΔti+mとし、Mは2以上i未満の何れかの整数であり、前記認識結果修正部において、前記類似度αi,mを次式により更新し、更新後の類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする、
αi,mi,m/Δti+m
音声認識装置。
The voice recognition device according to any one of claims 1 to 3,
The difference between the utterance start time and the utterance start time of the first recognition results sr i + m of the first recognition results sr i and Δt i + m, M is any integer less than 2 or i, the recognition result in modifying portion, wherein the similarity alpha i, m is updated by the following equation, if the similarity alpha i, m after update is larger than a predetermined threshold, deletes the first recognition result sr i, the remaining first recognized Only the result is the recognition result.
α i, m = α i, m / Δt i + m
Voice recognition device.
請求項1から請求項4の何れかの音声認識装置であって、
前記認識結果修正部において、前記類似度αi,mを第一認識結果sriに対する音素系列と第一認識結果sri+mに対する音素系列とから計算する、
音声認識装置。
The voice recognition device according to any one of claims 1 to 4,
In the recognition result correction unit, calculated from the degree of similarity alpha i, phoneme series m for the first recognition result sr i and phoneme sequences for the first recognition result sr i + m,
Voice recognition device.
請求項1から請求項5の何れかの音声認識装置であって、
前記認識結果修正部は、L=Jのとき、類似度αi,mの計算及び第一認識結果sriの削除を省略し、第二認識結果を認識結果とする、
音声認識装置。
The voice recognition device according to any one of claims 1 to 5,
The recognition result correction unit, when L = J, omitting the deletion of computation and the first recognition result sr i of the similarity alpha i, m, and the recognition result of the second recognition result,
Voice recognition device.
所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出する第一発話区間検出ステップと、
θ12とし、所定の閾値θ2未満の非音声区間を音声区間の一部とみなして、前記音声データの音声区間である第二音声区間t1,t2,…,tJを検出する第二発話区間検出ステップと、
前記第一音声区間s1,s2,…,sLに対応する前記音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、前記第二音声区間t1,t2,…,tJに対応する前記音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得る音声認識ステップと、
i=1,…,L-1とし、m=1,2,…,Mとし、Mは1以上L-1以下の何れかの整数とし、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、前記類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする認識結果修正ステップとを含む、
音声認識方法。
A first utterance section detection step of detecting first speech sections s 1 , s 2 ,..., S L that are speech sections of speech data, considering a non-speech section less than a predetermined threshold θ 1 as a part of the speech section. When,
and θ 12, the predetermined threshold value theta 2 less than non-speech section is regarded as part of the speech segment, the second speech section t 1 is a speech segment of the speech data, t 2, ..., a t J A second utterance section detecting step to detect;
, S L to perform speech recognition on the speech data corresponding to the first speech sections s 1 , s 2 ,..., S L to obtain first recognition results sr 1 , sr 2 ,. t 1, t 2, ..., the second recognition result performs speech recognition on the speech data corresponding to t J tr 1, tr 2, ..., a speech recognition step of obtaining a tr J,
i = 1, ..., a L-1, m = 1, 2, ..., and M, M is 1 or more L-1 following any integer, when L> J, a first recognition result sr i similarity alpha i, m the first recognition result sr i + m is calculated, if the similarity alpha i, m is greater than a predetermined threshold, it deletes the first recognition result sr i, the remaining first recognized A recognition result correction step in which only the result is a recognition result,
Speech recognition method.
請求項1から請求項6の何れかの音声認識装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the voice recognition device according to any one of claims 1 to 6.
JP2016104880A 2016-05-26 2016-05-26 Speech recognition apparatus, method thereof and program Active JP6526602B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016104880A JP6526602B2 (en) 2016-05-26 2016-05-26 Speech recognition apparatus, method thereof and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016104880A JP6526602B2 (en) 2016-05-26 2016-05-26 Speech recognition apparatus, method thereof and program

Publications (2)

Publication Number Publication Date
JP2017211513A true JP2017211513A (en) 2017-11-30
JP6526602B2 JP6526602B2 (en) 2019-06-05

Family

ID=60475438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016104880A Active JP6526602B2 (en) 2016-05-26 2016-05-26 Speech recognition apparatus, method thereof and program

Country Status (1)

Country Link
JP (1) JP6526602B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020085323A1 (en) * 2018-10-22 2020-04-30 ヤマハ株式会社 Speech processing method, speech processing device, and speech processing program
WO2024117569A1 (en) * 2022-11-30 2024-06-06 한국전자기술연구원 Apparatus and method for recognizing sound event by considering sound event-specific duration

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020085323A1 (en) * 2018-10-22 2020-04-30 ヤマハ株式会社 Speech processing method, speech processing device, and speech processing program
WO2024117569A1 (en) * 2022-11-30 2024-06-06 한국전자기술연구원 Apparatus and method for recognizing sound event by considering sound event-specific duration

Also Published As

Publication number Publication date
JP6526602B2 (en) 2019-06-05

Similar Documents

Publication Publication Date Title
US11513766B2 (en) Device arbitration by multiple speech processing systems
Pundak et al. Deep context: end-to-end contextual speech recognition
US11664020B2 (en) Speech recognition method and apparatus
CN112420026B (en) Optimizing keyword retrieval system
JP6812843B2 (en) Computer program for voice recognition, voice recognition device and voice recognition method
JP5310563B2 (en) Speech recognition system, speech recognition method, and speech recognition program
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP2018523156A (en) Language model speech end pointing
JPWO2008001485A1 (en) Language model generation system, language model generation method, and language model generation program
JP6585112B2 (en) Voice keyword detection apparatus and voice keyword detection method
JP2006227628A (en) Speech recognition method based on confidence level of keyword model which is weighted for respective frames and apparatus using the method
US9437187B2 (en) Voice search device, voice search method, and non-transitory recording medium
US12087305B2 (en) Speech processing
JP2016180839A (en) Noise-suppressed speech recognition device and program therefor
JP2019101385A (en) Audio processing apparatus, audio processing method, and audio processing program
WO2018163279A1 (en) Voice processing device, voice processing method and voice processing program
JPWO2018078885A1 (en) Dialogue device, dialogue method and computer program for dialogue
KR102067973B1 (en) Method for wakeup word selection using edit distance
JP6526602B2 (en) Speech recognition apparatus, method thereof and program
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP6716513B2 (en) VOICE SEGMENT DETECTING DEVICE, METHOD THEREOF, AND PROGRAM
JP2010054574A (en) Device for estimating speaker change, speaker identifying device and computer program
JP6852029B2 (en) Word detection system, word detection method and word detection program
JP5673239B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP7583080B2 (en) Contextual Bias for Speech Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190508

R150 Certificate of patent or registration of utility model

Ref document number: 6526602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150