JP2007133033A - 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム - Google Patents
音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム Download PDFInfo
- Publication number
- JP2007133033A JP2007133033A JP2005323993A JP2005323993A JP2007133033A JP 2007133033 A JP2007133033 A JP 2007133033A JP 2005323993 A JP2005323993 A JP 2005323993A JP 2005323993 A JP2005323993 A JP 2005323993A JP 2007133033 A JP2007133033 A JP 2007133033A
- Authority
- JP
- Japan
- Prior art keywords
- text
- result
- speech
- subword
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000006243 chemical reaction Methods 0.000 claims description 85
- 238000013518 transcription Methods 0.000 claims description 36
- 230000035897 transcription Effects 0.000 claims description 36
- 235000016496 Panda oleosa Nutrition 0.000 claims description 10
- 240000000220 Panda oleosa Species 0.000 claims description 10
- 230000000877 morphologic effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000001360 synchronised effect Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供すること
【解決手段】音声テキスト化システム1は、編集手段22により得られた編集結果テキストに含まれる文字と音声認識手段11により生成された時刻情報つきの音声認識結果に含まれる文字とを対応づけるマッチング手段27と、このマッチング手段27によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント手段28とを備えている。
【選択図】図1
【解決手段】音声テキスト化システム1は、編集手段22により得られた編集結果テキストに含まれる文字と音声認識手段11により生成された時刻情報つきの音声認識結果に含まれる文字とを対応づけるマッチング手段27と、このマッチング手段27によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント手段28とを備えている。
【選択図】図1
Description
本発明は、音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラムに関し、特に、音声認識を利用することで効率の良い音声のテキスト化を行う音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラムに関する。
会議や講演などの議事録を作成するためには、音声データをテキスト化する作業が必要となる(以下では、このような音声のテキスト化を「書き起こし」と呼ぶ)。
しかし、音声の書き起こし作業には非常に多くの人的コストがかかるため、作業効率の改善が求められている。
一方で、近年の音声認識技術の進歩により、自由発話を対象とした音声認識の精度が向上しつつある。
このような状況下で、音声認識技術を利用した書き起こし作業の支援が検討されるようになってきた。
しかし、音声の書き起こし作業には非常に多くの人的コストがかかるため、作業効率の改善が求められている。
一方で、近年の音声認識技術の進歩により、自由発話を対象とした音声認識の精度が向上しつつある。
このような状況下で、音声認識技術を利用した書き起こし作業の支援が検討されるようになってきた。
音声認識を利用した従来の音声テキスト化システムの一例が、特許文献1に記載されている。この特許文献1に記載された音声テキスト化システムは、書き起こし対象となる音声データを音声認識することで音声を自動的にテキスト化した上で、認識結果テキスト中の誤り箇所を人手によって編集して書き起こしを完成させる音声テキスト化システムである。
図9に示すように、この従来の音声テキスト化システム200は、音声記憶手段212と、音声認識手段211と、認識結果記憶手段213と、認識結果編集手段222と、編集位置記憶手段225と、編集結果記憶手段226と、音声再生手段221と、音声再生時刻記憶手段224と、同期手段223とから構成されている。
図9に示すように、この従来の音声テキスト化システム200は、音声記憶手段212と、音声認識手段211と、認識結果記憶手段213と、認識結果編集手段222と、編集位置記憶手段225と、編集結果記憶手段226と、音声再生手段221と、音声再生時刻記憶手段224と、同期手段223とから構成されている。
このような構成を有する従来の音声テキスト化システム200は次のように動作する。
音声記憶手段212には、書き起こし対象となる音声データが記憶されている。
音声認識手段211は、音声記憶手段212から音声データを読み込んで音声認識し、単語単位の認識結果テキストを認識結果記憶手段213に出力する。このとき、認識結果テキスト中の各単語の時刻情報も認識結果記憶手段213に記憶しておく。このようにすることで、認識結果テキストと音声データとを対応づけることができる。
認識結果編集手段222は、認識結果記憶手段213に記憶された認識結果テキストを読み込み、書き起こし作業者の編集指示に従って認識結果テキスト中の誤り箇所を編集し、編集されたテキストを編集結果記憶手段226に出力する。認識結果編集手段222は一般的なテキストエディタと同様に、テキスト上の位置を表す編集カーソルを備え、編集カーソル位置のテキストに対して編集が行われる。この編集カーソルの位置は、編集位置記憶手段225に記憶されている。
音声記憶手段212には、書き起こし対象となる音声データが記憶されている。
音声認識手段211は、音声記憶手段212から音声データを読み込んで音声認識し、単語単位の認識結果テキストを認識結果記憶手段213に出力する。このとき、認識結果テキスト中の各単語の時刻情報も認識結果記憶手段213に記憶しておく。このようにすることで、認識結果テキストと音声データとを対応づけることができる。
認識結果編集手段222は、認識結果記憶手段213に記憶された認識結果テキストを読み込み、書き起こし作業者の編集指示に従って認識結果テキスト中の誤り箇所を編集し、編集されたテキストを編集結果記憶手段226に出力する。認識結果編集手段222は一般的なテキストエディタと同様に、テキスト上の位置を表す編集カーソルを備え、編集カーソル位置のテキストに対して編集が行われる。この編集カーソルの位置は、編集位置記憶手段225に記憶されている。
一方、音声再生手段221は、書き起こし作業者の音声再生指示に従って音声記憶手段212に記憶されている音声データを再生する。このとき、再生している音声の時刻は、音声再生時刻記憶手段224に記憶されている。書き起こし作業者は、再生している音声を聞き取ることで編集作業を進めていく。
同期手段223は、同期指示に従って編集位置記憶手段225に記憶されている編集カーソルの位置と、音声再生時刻記憶手段224に記憶されている音声再生時刻とを同期させる。これは、認識結果記憶手段213に記憶されている認識結果テキストと音声データとの対応づけを参照することで可能となる。
すなわち、音声再生時刻を編集カーソルの位置に同期させる場合は、編集カーソルが置かれている認識結果単語の時刻に音声再生時刻を合わせれば良い。このように音声再生時刻を編集カーソルの位置に同期させることにより、書き起こし作業者は、これから編集するために編集カーソルを置いているテキストに対応する音声を素早く聞いて確認することができる。
また、これとは逆に、編集カーソルの位置を音声再生時刻に同期させる場合は、再生している音声に対応する認識結果テキストの上に編集カーソルを合わせれば良い。
このように編集カーソルの位置を音声再生時刻に同期させることにより、書き起こし作業者は、誤認識されている音声を聞いたらすぐに編集カーソルを編集すべきテキスト上に移動することができる。
すなわち、音声再生時刻を編集カーソルの位置に同期させる場合は、編集カーソルが置かれている認識結果単語の時刻に音声再生時刻を合わせれば良い。このように音声再生時刻を編集カーソルの位置に同期させることにより、書き起こし作業者は、これから編集するために編集カーソルを置いているテキストに対応する音声を素早く聞いて確認することができる。
また、これとは逆に、編集カーソルの位置を音声再生時刻に同期させる場合は、再生している音声に対応する認識結果テキストの上に編集カーソルを合わせれば良い。
このように編集カーソルの位置を音声再生時刻に同期させることにより、書き起こし作業者は、誤認識されている音声を聞いたらすぐに編集カーソルを編集すべきテキスト上に移動することができる。
以上述べたように、この従来の音声テキスト化システムでは、認識結果テキストと音声データとの対応づけを利用することで、編集カーソルの位置と音声再生時刻とを相互に同期させることができるため、書き起こし作業の効率が改善される。
この従来の音声テキスト化システムの問題点は、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合に、編集後のテキストと音声データとを対応づけられない、ということである。
その理由は、編集が加えられたテキストに対しては詳細な時刻情報が付与されていないためである。
その理由は、編集が加えられたテキストに対しては詳細な時刻情報が付与されていないためである。
以下で、認識結果テキストに対して編集を加えた場合について、具体例を用いて説明する。
「次回の会議は二十六日の午前八時から開催致します」という発話が「次回」「の」「会議」「は」「二重」「路」「に」「地」「の」「全」「八」「字」「から」「開催」「致し」「ます」と認識された場合を考える。
認識結果テキストは鍵括弧で括られたように単語単位で出力されており、各単語「次回」「の」「会議」などに対してそれぞれ時刻情報が付与されている。したがって、この時点では、編集カーソルがどの単語上にあっても編集カーソルの位置に音声再生時刻を同期させることができるし、また、逆に、音声再生時刻がどこであっても音声再生時刻に対応する単語上に編集カーソルを同期させることができる。
「次回の会議は二十六日の午前八時から開催致します」という発話が「次回」「の」「会議」「は」「二重」「路」「に」「地」「の」「全」「八」「字」「から」「開催」「致し」「ます」と認識された場合を考える。
認識結果テキストは鍵括弧で括られたように単語単位で出力されており、各単語「次回」「の」「会議」などに対してそれぞれ時刻情報が付与されている。したがって、この時点では、編集カーソルがどの単語上にあっても編集カーソルの位置に音声再生時刻を同期させることができるし、また、逆に、音声再生時刻がどこであっても音声再生時刻に対応する単語上に編集カーソルを同期させることができる。
しかし、書き起こし作業者が「二重」「路」「に」「地」「の」「全」「八」「字」という誤認識部分を削除して、「二十六日の午前八時」と打ち込んで編集した場合を考えると問題が生じる。
この時点で、編集後の「二十六日の午前八時」に対しては詳細な時刻情報が失われており、その結果、編集後のテキストと音声データとの対応づけが得られなくなっている。例えば、編集後のテキスト中の「午前」の時刻情報が得られないため、対応する音声データがどこであるかが分からない。したがって、編集カーソルが「午前」の上に置かれているときに音声再生時刻を同期させることはできないし、また、逆に、「午前」の音声を再生しているときに編集カーソルを「午前」という編集後のテキスト上に同期させることもできない。
このように、編集後のテキストと音声データとを対応づけられないと、書き起こし作業者が編集箇所を再度確認したいと思ったときに、編集カーソルと音声再生時刻との同期機能を利用することができず、作業の効率が低下してしまう。
また、ある作業者が編集した書き起こしテキストを別の作業者がクロスチェックすることは一般的に広く行われているが、そのような場合でも、同様の問題が生じる。
この時点で、編集後の「二十六日の午前八時」に対しては詳細な時刻情報が失われており、その結果、編集後のテキストと音声データとの対応づけが得られなくなっている。例えば、編集後のテキスト中の「午前」の時刻情報が得られないため、対応する音声データがどこであるかが分からない。したがって、編集カーソルが「午前」の上に置かれているときに音声再生時刻を同期させることはできないし、また、逆に、「午前」の音声を再生しているときに編集カーソルを「午前」という編集後のテキスト上に同期させることもできない。
このように、編集後のテキストと音声データとを対応づけられないと、書き起こし作業者が編集箇所を再度確認したいと思ったときに、編集カーソルと音声再生時刻との同期機能を利用することができず、作業の効率が低下してしまう。
また、ある作業者が編集した書き起こしテキストを別の作業者がクロスチェックすることは一般的に広く行われているが、そのような場合でも、同様の問題が生じる。
そこで、本発明は、音声の書き起こし作業において、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供することをその目的とする。
本発明の音声テキスト化システムは、編集手段により得られた編集結果テキストに含まれる文字と音声認識手段により生成された時刻情報つきの音声認識結果に含まれる文字とを対応づけるマッチング手段と、このマッチング手段によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント手段とを備えている。ここで、時刻情報とは、音声データ中の基準点(たとえばデータの先頭)からの経過時間や経過フレーム数などで、音声データ中の位置を表したものである(請求項1ないし請求項5)。
上記音声テキスト化システムによれば、マッチング手段により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント手段が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。
上記音声テキスト化システムにおいて、音声認識結果は表記から構成するようにし、マッチング手段は、編集結果テキストと音声認識結果とを表記の整合により対応づけるようにしてもよい(請求項2)。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
上記音声テキスト化システムにおいて、音声認識結果はサブワード列として構成するようにするとともに、編集結果テキストをサブワード列に変換するサブワード変換手段を備え、マッチング手段は、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけるようにしてもよい(請求項3)。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
上記音声テキスト化システムにおいて、サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換するようにしてもよい(請求項4)。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
上記音声テキスト化システムにおいて、サブワード変換手段は、編集手段に入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換するようにしてもよい(請求項5)。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
本発明の音声テキスト化方法は、書き起こしの対象となる音声データを音声認識してテキストに変換するとともにこのテキストに時刻情報を付加して音声認識結果を生成する音声認識工程と、音声データの書き起こし結果となる編集結果テキストを生成する編集工程と、編集結果テキストに含まれる文字と音声認識結果に含まれる文字とを対応づけるマッチング工程と、このマッチング工程によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント工程とを備えている(請求項6ないし請求項10)。
上記音声テキスト化方法によれば、マッチング工程により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント工程が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。
上記音声テキスト化方法において、音声認識結果は表記から構成し、マッチング工程では、編集結果テキストと音声認識結果とを表記の整合により対応づけしてもよい(請求項7)。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
上記音声テキスト化方法において、音声認識結果はサブワード列として構成するようにし、マッチング工程が作動する前に編集結果テキストをサブワード列に変換するサブワード変換工程を備えるようにし、マッチング工程では、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけしてもよい(請求項8)。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
上記音声テキスト化方法において、サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい(請求項9)。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
上記音声テキスト化方法において、サブワード変換工程では、編集工程で入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換してもよい(請求項10)。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
本発明の音声テキスト化用プログラムは、書き起こしの対象となる音声データを音声認識してテキストに変換するとともにこのテキストに時刻情報を付加して音声認識結果を生成する音声認識機能と、音声データの書き起こし結果となる編集結果テキストを生成する編集機能と、編集結果テキストに含まれる文字と音声認識結果に含まれる文字とを対応づけるマッチング機能と、このマッチング機能によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント機能とをコンピュータに実行させる(請求項11ないし請求項15)。
上記音声テキスト用プログラムによれば、マッチング機能により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント機能が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、コンピュータを、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができるシステムとして動作させることができる。
そのため、コンピュータを、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができるシステムとして動作させることができる。
上記音声テキスト化用プログラムにおいて、音声認識結果は表記から構成するようにし、マッチング機能は、編集結果テキストと音声認識結果とを表記の整合により対応づけしてもよい(請求項12)。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
上記音声テキスト化用プログラムにおいて、音声認識結果はサブワード列として構成するようにし、マッチング機能が作動する前に編集結果テキストをサブワード列に変換するサブワード変換機能をコンピュータに実行させるとともに、マッチング機能は、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけしてもよい(請求項13)。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
上記音声テキスト化用プログラムにおいて、サブワード変換機能は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい(請求項14)。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
上記音声テキスト化用プログラムにおいて、サブワード変換機能は、編集機能に入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換してもよい(請求項15)。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
本発明によれば、時刻情報が付与されていない編集結果テキストを、時刻情報が付与されている認識結果に対応づけることにより、編集結果テキスト上でも時刻情報を得ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。
本発明の第1の実施形態である音声テキスト化システム1の構成と動作について、図面を参照して詳細に説明する。
図1は、音声テキスト化システム1の機能ブロック図である。
図1を参照すると、音声テキスト化システム1は、音声認識装置10と、編集装置20とを備えている。
音声認識装置10は、音声認識手段11と、音声記憶手段12と、認識結果記憶手段13とを備えている。
編集装置20は、編集手段22と、編集位置記憶手段25と、編集結果記憶手段26と、音声再生手段21と、音声再生時刻記憶手段24と、マッチング手段27と、アライメント手段28と、同期手段23とを備えている。
図1は、音声テキスト化システム1の機能ブロック図である。
図1を参照すると、音声テキスト化システム1は、音声認識装置10と、編集装置20とを備えている。
音声認識装置10は、音声認識手段11と、音声記憶手段12と、認識結果記憶手段13とを備えている。
編集装置20は、編集手段22と、編集位置記憶手段25と、編集結果記憶手段26と、音声再生手段21と、音声再生時刻記憶手段24と、マッチング手段27と、アライメント手段28と、同期手段23とを備えている。
音声記憶手段12は、テキスト化の対象となる音声データを記憶する。音声データは、例えば、アナログの音声信号を所定のサンプリング周波数でサンプリングし、各サンプリング値を量子化することでデジタル化したデータである。
音声認識手段11は、音声記憶手段12から音声データを読み込んで認識し、認識結果を認識結果記憶手段13に出力する。このとき、認識結果の時刻情報も認識結果記憶手段13に記憶する。
音声認識手段11は、音声記憶手段12から音声データを読み込んで認識し、認識結果を認識結果記憶手段13に出力する。このとき、認識結果の時刻情報も認識結果記憶手段13に記憶する。
編集手段22は、書き起こし結果となるテキストを編集するためのテキストエディタで、認識結果記憶手段13から認識結果テキストを読み込み、書き起こし作業者の編集指示に従ってテキストを編集し、編集後のテキストを編集結果記憶手段26に記憶する。
編集位置記憶手段25は、テキスト上の編集位置を記憶する。
編集位置記憶手段25は、テキスト上の編集位置を記憶する。
音声再生手段21は、書き起こし作業者の音声再生指示に従って、音声記憶手段12に記憶されている書き起こし対象となる音声データを再生する。
音声再生時刻記憶手段24は、音声再生手段21が再生している音声の時刻を記憶する。
マッチング手段27は、編集結果記憶手段26に記憶されている編集結果テキストと、認識結果記憶手段13に記憶されている時刻情報付きの認識結果との対応づけを行う。
アライメント手段28は、マッチング手段27による対応づけ結果を参照することで、編集結果記憶手段26に記憶されている編集結果テキストと音声記憶手段12に記憶されている音声データとの対応づけを行う。
同期手段23は、同期指示に従って、アライメント手段28による対応づけ結果を参照することで、編集位置記憶手段25に記憶されている編集位置と音声再生時刻記憶手段24に記憶されている音声再生時刻とを同期させる。
上記の、音声記憶手段12、認識結果記憶手段13、音声再生時刻記憶手段24、編集位置記憶手段25、編集結果記憶手段26は、それぞれ、磁気ディスク装置や半導体メモリ等の記憶装置で構成されている。
音声再生時刻記憶手段24は、音声再生手段21が再生している音声の時刻を記憶する。
マッチング手段27は、編集結果記憶手段26に記憶されている編集結果テキストと、認識結果記憶手段13に記憶されている時刻情報付きの認識結果との対応づけを行う。
アライメント手段28は、マッチング手段27による対応づけ結果を参照することで、編集結果記憶手段26に記憶されている編集結果テキストと音声記憶手段12に記憶されている音声データとの対応づけを行う。
同期手段23は、同期指示に従って、アライメント手段28による対応づけ結果を参照することで、編集位置記憶手段25に記憶されている編集位置と音声再生時刻記憶手段24に記憶されている音声再生時刻とを同期させる。
上記の、音声記憶手段12、認識結果記憶手段13、音声再生時刻記憶手段24、編集位置記憶手段25、編集結果記憶手段26は、それぞれ、磁気ディスク装置や半導体メモリ等の記憶装置で構成されている。
次に、図1および図2のフローチャートを参照して音声テキスト化システム1全体の動作について詳細に説明する。
音声認識手段11は、音声記憶手段12に記憶されている音声データを読み込んで認識し、認識結果を認識結果記憶手段13に出力する(図2のS101)。このとき、音声認識手段11は、音声認識結果として表記情報だけではなく、認識結果と音声データとを対応づけるための時刻情報を付随させて出力する。
例えば、認識結果の表記は「次回の会議は二重路に地の全八字から開催致します」であり、「次回」は音声データ中の時刻0.1〜0.4秒、「の」は音声データ中の時刻0.4〜0.5秒、…に対応している、というような情報を出力して記憶する(図3参照)。
音声認識処理は、例えば、特徴量としてMFCC(Mel-scale Frequency Cepstral Coefficients)を用い、音響モデルとして隠れマルコフモデル、言語モデルとして単語N-gramモデルを使った一般的な大語彙連続音声認識技術によって実現する。
音声認識手段11は、音声記憶手段12に記憶されている音声データを読み込んで認識し、認識結果を認識結果記憶手段13に出力する(図2のS101)。このとき、音声認識手段11は、音声認識結果として表記情報だけではなく、認識結果と音声データとを対応づけるための時刻情報を付随させて出力する。
例えば、認識結果の表記は「次回の会議は二重路に地の全八字から開催致します」であり、「次回」は音声データ中の時刻0.1〜0.4秒、「の」は音声データ中の時刻0.4〜0.5秒、…に対応している、というような情報を出力して記憶する(図3参照)。
音声認識処理は、例えば、特徴量としてMFCC(Mel-scale Frequency Cepstral Coefficients)を用い、音響モデルとして隠れマルコフモデル、言語モデルとして単語N-gramモデルを使った一般的な大語彙連続音声認識技術によって実現する。
編集手段22は、書き起こし作業者が音声をテキスト化するためのテキストエディタであり、テキスト上の編集位置が編集位置記憶手段25に記憶されている。すなわち、編集位置記憶手段25に記憶されている編集位置のテキストが、作業者によるキーボード入力等によって編集される(図2のS102)。このとき、編集位置に相当する文字を反転表示したり、文字の下に下線を表示したりすることにより、書き起こし作業者が編集位置を確認できるようにすることが好ましい。
編集手段22によって編集された編集結果テキストは、編集結果記憶手段26に記憶する。
編集手段22によって編集された編集結果テキストは、編集結果記憶手段26に記憶する。
なお、本実施例では、編集手段22は、編集開始前に、認識結果記憶手段13に記憶されている認識結果テキストを読み込み、認識結果中の誤り箇所を編集していくと仮定しているが、認識結果を読み込まずに何もテキストが存在しない状態から新規に書き起こしを行うことも可能である。
音声再生手段21は、書き起こし作業者のキーボード等による音声再生指示に従って、音声記憶手段12に記憶されている書き起こし対象となる音声データを再生し、スピーカ等の出力装置から出力する。
書き起こし作業者は、音声再生手段21によって再生される音声を聞きとって書き起こしを行う。このとき、再生している音声の時刻は、音声再生時刻記憶手段24に記憶する。また、音声再生時刻記憶手段24に記憶されている音声再生時刻が後述する同期手段23によって書き換えられた場合、音声再生手段21は、新しく書き換えられた時刻の音声を再生する。
書き起こし作業者は、音声再生手段21によって再生される音声を聞きとって書き起こしを行う。このとき、再生している音声の時刻は、音声再生時刻記憶手段24に記憶する。また、音声再生時刻記憶手段24に記憶されている音声再生時刻が後述する同期手段23によって書き換えられた場合、音声再生手段21は、新しく書き換えられた時刻の音声を再生する。
同期手段23は、書き起こし作業者の同期指示があるかどうかを判定し(図2のS103)、同期指示があれば、同期処理を実行する。この同期処理には、音声再生時刻を編集位置に同期させる場合と、編集位置を音声再生時刻に同期させる場合の2通りの同期がある。すなわち、前者の同期処理は、編集位置のテキストに対応する音声データの再生を可能とし、後者の同期処理は、音声が再生されている場所に対応するテキスト上に編集位置を移動することを可能とする。
同期手段23がこれらの同期指示を受けた(図2のS103の判定がイエスの)ときには、まず、マッチング手段27が、編集結果記憶手段26に記憶されている編集結果テキストと認識結果記憶手段13に記憶されている認識結果との対応づけを行う(図2のS104)。
次に、アライメント手段28が、マッチング手段27による対応づけ結果を参照することで、編集結果記憶手段26に記憶されている編集結果テキストと音声記憶手段12に記憶されている音声データとの対応づけを行う(図3のS105)。
次に、アライメント手段28が、マッチング手段27による対応づけ結果を参照することで、編集結果記憶手段26に記憶されている編集結果テキストと音声記憶手段12に記憶されている音声データとの対応づけを行う(図3のS105)。
次に、具体例を用いてマッチング手段27およびアライメント手段28による対応づけの動作を詳細に説明する。
「次回の会議は二十六日の午前八時から開催致します」という発話が、音声認識手段11により「次回の会議は二重路に地の全八字から開催致します」と認識され、書き起こし作業者が、「二重路に地の全八字」という誤認識箇所を「二十六日の午前八時」と編集した場合を例に説明する。
図3は、上記の例におけるマッチング手段27、アライメント手段28の動作を示す図である。
マッチング手段27は、編集結果テキスト「次回の会議は二十六日の午前八時から開催致します」と、認識結果の表記「次回の会議は二重路に地の全八字から開催致します」とを図3で示したように対応づける(図2のS104)。この対応づけは、公知の技術であるダイナミックプログラミング(DP:Dynamic Programming)によるマッチングを表記文字単位で実行することによって得ることができる。
すなわち、編集結果テキスト「二十六日の午前八時」と認識結果の表記「二重路に地の全八字」の両方に存在する「二」「の」「八」などの表記文字によって対応がとられる。
「次回の会議は二十六日の午前八時から開催致します」という発話が、音声認識手段11により「次回の会議は二重路に地の全八字から開催致します」と認識され、書き起こし作業者が、「二重路に地の全八字」という誤認識箇所を「二十六日の午前八時」と編集した場合を例に説明する。
図3は、上記の例におけるマッチング手段27、アライメント手段28の動作を示す図である。
マッチング手段27は、編集結果テキスト「次回の会議は二十六日の午前八時から開催致します」と、認識結果の表記「次回の会議は二重路に地の全八字から開催致します」とを図3で示したように対応づける(図2のS104)。この対応づけは、公知の技術であるダイナミックプログラミング(DP:Dynamic Programming)によるマッチングを表記文字単位で実行することによって得ることができる。
すなわち、編集結果テキスト「二十六日の午前八時」と認識結果の表記「二重路に地の全八字」の両方に存在する「二」「の」「八」などの表記文字によって対応がとられる。
このように、編集結果テキストと認識結果との対応づけが得られると、認識結果には時刻情報が付随しているため、アライメント手段28は、編集結果テキストと音声データとの対応づけをとることができる(図2のS105)。たとえば、図3の編集結果テキストの位置P1は認識結果の位置P2に対応し、P2は音声データの時刻t3に対応しているから、P1をt3に対応付けることができる。
同期手段23は、アライメント手段28による編集結果テキストと音声データとの対応づけを参照することで、編集位置や音声再生時刻がいかなる場所にあっても、音声再生時刻を編集位置に同期させること、および、編集位置を音声再生時刻に同期させることが可能となる(図2のステップS106)。
同期手段23は、アライメント手段28による編集結果テキストと音声データとの対応づけを参照することで、編集位置や音声再生時刻がいかなる場所にあっても、音声再生時刻を編集位置に同期させること、および、編集位置を音声再生時刻に同期させることが可能となる(図2のステップS106)。
以上で説明したような、書き起こしテキストの編集(図2のS102)と、編集結果テキストと音声データとの対応づけ(図2のS104、S105)と、編集位置と音声再生時刻との同期処理(図2のS106)とを書き起こしテキストの編集が終了するまで繰り返し実行する(図2のS107)。書き起こしテキストが完成すると処理全体が終了する。
なお、以上の説明では、マッチング手段27、アライメント手段28による編集結果テキストと音声データとの対応づけ処理(図2のS104、S105)は、作業者の同期指示があった場合に行っているが、この対応づけを書き起こしテキストが編集されたタイミングで随時実行しても良い。
すなわち、図2のS102とS103との間でS104、S105を実行しておいても良い。この場合、同期指示があった場合には即座に同期手段23による同期処理(図2のS106)が実行される。
すなわち、図2のS102とS103との間でS104、S105を実行しておいても良い。この場合、同期指示があった場合には即座に同期手段23による同期処理(図2のS106)が実行される。
次に、本実施の形態の効果について説明する。
音声テキスト化システム1では、マッチング手段27が時刻情報が付与されていない編集結果テキストと時刻情報が付与されている認識結果とを対応づけることにより、アライメント手段28は、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。
その結果、同期手段23は、編集位置や音声再生時刻がいかなる場所にあっても両者の同期をとることが可能となり、書き起こし作業の効率が大幅に向上する。
音声テキスト化システム1では、マッチング手段27が時刻情報が付与されていない編集結果テキストと時刻情報が付与されている認識結果とを対応づけることにより、アライメント手段28は、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。
その結果、同期手段23は、編集位置や音声再生時刻がいかなる場所にあっても両者の同期をとることが可能となり、書き起こし作業の効率が大幅に向上する。
次に、本発明の第2の実施形態である音声テキスト化システム2の構成と動作について、図面を参照して詳細に説明する。
図4は、音声テキスト化システム2の機能ブロック図である。
音声テキスト化システム2の基本的な構成および動作は、図1の音声テキスト化システム1と同一であるが、図4のマッチング手段30は、表記文字の整合により対応づけるのではなく、音素や音節などのサブワードの整合により対応づける点、および図4の音声認識手段11aは、音声認識結果を時刻情報付きのサブワード列として出力し、認識結果記憶手段13に記憶する点が異なる。
それ以外の各部の構成と動作は、図1の音声テキスト化システム1と同一であるため、ここではその詳細な説明を省略する。
図4は、音声テキスト化システム2の機能ブロック図である。
音声テキスト化システム2の基本的な構成および動作は、図1の音声テキスト化システム1と同一であるが、図4のマッチング手段30は、表記文字の整合により対応づけるのではなく、音素や音節などのサブワードの整合により対応づける点、および図4の音声認識手段11aは、音声認識結果を時刻情報付きのサブワード列として出力し、認識結果記憶手段13に記憶する点が異なる。
それ以外の各部の構成と動作は、図1の音声テキスト化システム1と同一であるため、ここではその詳細な説明を省略する。
図5を参照すると、本実施の形態におけるマッチング手段30は、サブワード変換手段31と、サブワードマッチング手段32とを備えている。
次に、具体例によって、マッチング手段30の動作について詳細に説明する。本実施の形態は、マッチング手段30が、編集結果テキストと認識結果とをサブワードの整合により対応づけるところに特徴がある。ここで、サブワードとは、音素や音節等の基本的な音響単位のことである。
以下では、サブワードとして音素を採用した場合を例に説明するが、音節等の他の基本的な音響単位を用いても同じである。
前述の例と同様に、「次回の会議は二重路に地の全八字から開催致します」という認識結果を持つ発話に対して、「次回の会議は二十六日の午前八時から開催致します」と編集した場合を考える。認識結果としては、「j i k a i n o k a i g i w a n i j u: r o n i ch i n o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列とその時刻情報も出力し、認識結果記憶手段13に記憶する。
音声認識処理では一般に、認識結果中の各単語を構成する音素列や音節列の情報を持っているため、認識結果を音素列として出力することは簡単に実現できる。
サブワード変換手段31は、表記で構成された編集結果テキストを音素列に変換する。すなわち、「次回の会議は二十六日の午前八時から開催致します」という編集結果テキストを「j i k a i n o k a i g i w a n i j u: r o k u n i ch i n o g o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列に変換する。
次に、具体例によって、マッチング手段30の動作について詳細に説明する。本実施の形態は、マッチング手段30が、編集結果テキストと認識結果とをサブワードの整合により対応づけるところに特徴がある。ここで、サブワードとは、音素や音節等の基本的な音響単位のことである。
以下では、サブワードとして音素を採用した場合を例に説明するが、音節等の他の基本的な音響単位を用いても同じである。
前述の例と同様に、「次回の会議は二重路に地の全八字から開催致します」という認識結果を持つ発話に対して、「次回の会議は二十六日の午前八時から開催致します」と編集した場合を考える。認識結果としては、「j i k a i n o k a i g i w a n i j u: r o n i ch i n o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列とその時刻情報も出力し、認識結果記憶手段13に記憶する。
音声認識処理では一般に、認識結果中の各単語を構成する音素列や音節列の情報を持っているため、認識結果を音素列として出力することは簡単に実現できる。
サブワード変換手段31は、表記で構成された編集結果テキストを音素列に変換する。すなわち、「次回の会議は二十六日の午前八時から開催致します」という編集結果テキストを「j i k a i n o k a i g i w a n i j u: r o k u n i ch i n o g o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列に変換する。
サブワードマッチング手段32は、サブワード変換手段によって変換された編集結果テキストの音素列と、認識結果記憶手段13に記憶された認識結果の音素列とを対応づける。
この様子を示したのが図6であり、サブワードで対応づけることによって、表記で対応づけるよりも認識誤りに頑健で正確な対応づけが可能となる。なぜならば、一般に音声認識では、表記では誤認識をしている場合でも、音素などのサブワードでは正解していることが多い、という特徴があるためである。
例えば、図6の例では、表記レベルでは「十」を「重」に、「時」を「字」に誤認識しており、これらは表記の整合ではマッチしないが、音素で整合することで両者が正しくマッチすることが分かる。
なお、音素列同士の対応づけは、公知の技術であるDPマッチングなどの手法を用いれば良い。
この様子を示したのが図6であり、サブワードで対応づけることによって、表記で対応づけるよりも認識誤りに頑健で正確な対応づけが可能となる。なぜならば、一般に音声認識では、表記では誤認識をしている場合でも、音素などのサブワードでは正解していることが多い、という特徴があるためである。
例えば、図6の例では、表記レベルでは「十」を「重」に、「時」を「字」に誤認識しており、これらは表記の整合ではマッチしないが、音素で整合することで両者が正しくマッチすることが分かる。
なお、音素列同士の対応づけは、公知の技術であるDPマッチングなどの手法を用いれば良い。
次に、サブワード変換手段31で、編集結果テキストをサブワード列に変換する方法について説明する。
書き起こし対象の言語が英語のように単語単位で分かち書きされている言語であれば、発音記号が付与されている単語辞書を参照することで、編集結果テキストをサブワード列に変換することが可能である。しかし、書き起こし対象の言語が日本語のように単語単位で分かち書きされていない言語の場合は、編集結果テキストを直接サブワード列に変換することができない。
以下では、書き起こし対象が日本語である場合に、編集結果テキストをサブワード列に変換する方法について説明する。
書き起こし対象の言語が英語のように単語単位で分かち書きされている言語であれば、発音記号が付与されている単語辞書を参照することで、編集結果テキストをサブワード列に変換することが可能である。しかし、書き起こし対象の言語が日本語のように単語単位で分かち書きされていない言語の場合は、編集結果テキストを直接サブワード列に変換することができない。
以下では、書き起こし対象が日本語である場合に、編集結果テキストをサブワード列に変換する方法について説明する。
図7は、日本語の編集結果テキストをサブワード列に変換するサブワード変換手段31の一例を示すブロック図である。
図7に示すサブワード変換手段31は、形態素解析手段33と、読み情報付き形態素解析辞書記憶手段34とを備えている。
形態素解析手段33は、編集結果記憶手段26から入力された編集結果テキスト、すなわち「次回の会議は二十六日の午前八時から開催致します」に対して、公知の技術である形態素解析を実行する。
このとき、形態素解析手段33は、読み情報付き形態素解析辞書記憶手段34を参照して形態素解析を行うため、入力された編集結果テキストの読み情報、すなわち「じかい の かいぎ わ に じゅー ろく にち の ごぜん はち じ から かいさい いたし ます」を得ることができる。読み情報から音素や音節などのサブワードに変換することは容易であるため、以上の方法により、編集結果テキストをサブワード列に変換することができる。
図7に示すサブワード変換手段31は、形態素解析手段33と、読み情報付き形態素解析辞書記憶手段34とを備えている。
形態素解析手段33は、編集結果記憶手段26から入力された編集結果テキスト、すなわち「次回の会議は二十六日の午前八時から開催致します」に対して、公知の技術である形態素解析を実行する。
このとき、形態素解析手段33は、読み情報付き形態素解析辞書記憶手段34を参照して形態素解析を行うため、入力された編集結果テキストの読み情報、すなわち「じかい の かいぎ わ に じゅー ろく にち の ごぜん はち じ から かいさい いたし ます」を得ることができる。読み情報から音素や音節などのサブワードに変換することは容易であるため、以上の方法により、編集結果テキストをサブワード列に変換することができる。
また、サブワード変換手段31で、編集結果テキストをサブワード列に変換する別の方法として、編集手段22に対する書き起こし作業者のキーボード入力を記憶しておく方法をとることもできる。
すなわち、キーボードによる一般的な日本語入力においては、かな文字、すなわち読み情報を入力して漢字変換を施すため、キーボード入力を記憶しておくことで、編集結果テキストの読み情報を得ることができる。
前述の例では、「二十六日」と打ち込むために、キーボードを例えば、「n i j y u u r o k u n i c h i (にじゅうろくにち)」と打ち込んでから漢字変換を施す。キーボード入力から得られたこの読み情報も編集結果記憶手段26に記憶しておくことで、サブワード変換手段31は、編集結果テキストをサブワード列に変換することができる。
すなわち、キーボードによる一般的な日本語入力においては、かな文字、すなわち読み情報を入力して漢字変換を施すため、キーボード入力を記憶しておくことで、編集結果テキストの読み情報を得ることができる。
前述の例では、「二十六日」と打ち込むために、キーボードを例えば、「n i j y u u r o k u n i c h i (にじゅうろくにち)」と打ち込んでから漢字変換を施す。キーボード入力から得られたこの読み情報も編集結果記憶手段26に記憶しておくことで、サブワード変換手段31は、編集結果テキストをサブワード列に変換することができる。
なお、以上の説明では、サブワード変換手段31はマッチング手段30に含まれていたが、サブワード変換手段は、編集手段22に含まれていても良い。
この場合、書き起こしテキストが編集されたタイミングで編集結果テキストのサブワード列への変換がなされ、変換されたサブワード列も編集結果記憶手段26に記憶される。
したがって、マッチング手段30は、編集結果テキストと認識結果とをサブワードの整合により対応づけることが可能となる。
この場合、書き起こしテキストが編集されたタイミングで編集結果テキストのサブワード列への変換がなされ、変換されたサブワード列も編集結果記憶手段26に記憶される。
したがって、マッチング手段30は、編集結果テキストと認識結果とをサブワードの整合により対応づけることが可能となる。
次に、本実施の形態の効果について説明する。
音声テキスト化システム2では、マッチング手段30が、編集結果テキストと認識結果とを基本的な音響単位であるサブワードの整合によって対応づけるため、書き起こし対象となる音声データの認識精度が低い場合でも、編集結果テキストと音声データとを高い精度で対応づけることができる。
音声テキスト化システム2では、マッチング手段30が、編集結果テキストと認識結果とを基本的な音響単位であるサブワードの整合によって対応づけるため、書き起こし対象となる音声データの認識精度が低い場合でも、編集結果テキストと音声データとを高い精度で対応づけることができる。
次に、本発明の第3の実施形態であるコンピュータ3の構成と動作について、図面を参照して詳細に説明する。
図8は、本発明の第1の実施の形態および第2の実施の形態をプログラムにより構成した場合に、そのプログラムにより制御されるコンピュータ3の構成図である。
図8を参照すると、コンピュータ3は、MPU(Micro Processing Unit)等を含んで構成されるデータ処理装置50と、磁気ディスクや半導体メモリ等で構成される記憶装置40と、液晶ディスプレイやスピーカ等の出力装置およびキーボードやマウス等の入力装置を備えた入出力装置60と、音声テキスト化用プログラム70とを備えている。
図8は、本発明の第1の実施の形態および第2の実施の形態をプログラムにより構成した場合に、そのプログラムにより制御されるコンピュータ3の構成図である。
図8を参照すると、コンピュータ3は、MPU(Micro Processing Unit)等を含んで構成されるデータ処理装置50と、磁気ディスクや半導体メモリ等で構成される記憶装置40と、液晶ディスプレイやスピーカ等の出力装置およびキーボードやマウス等の入力装置を備えた入出力装置60と、音声テキスト化用プログラム70とを備えている。
記憶装置40は、音声記憶手段41、認識結果記憶手段42、編集位置記憶手段43、音声再生時刻記憶手段44、編集結果記憶手段45などとして使用される。
音声テキスト化用プログラム70は、データ処理装置50に読み込まれ、データ処理装置50の動作を制御することにより、データ処理装置50上に前述した各実施の形態における機能手段を実現する。
すなわち、データ処理装置50は、音声テキスト化用プログラム70の制御により、音声認識手段11および11a、音声再生手段21、編集手段22、同期手段23、マッチング手段27および30、アライメント手段28と同一の処理を実行する。
音声テキスト化用プログラム70は、データ処理装置50に読み込まれ、データ処理装置50の動作を制御することにより、データ処理装置50上に前述した各実施の形態における機能手段を実現する。
すなわち、データ処理装置50は、音声テキスト化用プログラム70の制御により、音声認識手段11および11a、音声再生手段21、編集手段22、同期手段23、マッチング手段27および30、アライメント手段28と同一の処理を実行する。
本発明によれば、会議や講演の議事録を作成するための音声のテキスト化作業、或いは、映画やテレビ番組の字幕作成などの業務において、作業者の負担を軽減して作業の効率を改善する、といった用途に適用できる。
1、2 音声テキスト化システム
3 コンピュータ
10 音声認識装置
11、11a 音声認識手段
12 音声記憶手段
13 認識結果記憶手段
20 編集装置
21 音声再生手段
22 編集手段
23 同期手段
24 音声再生時刻記憶手段
25 編集位置記憶手段
26 編集結果記憶手段
27、30 マッチング手段
28 アライメント手段
31 サブワード変換手段
32 サブワードマッチング手段
33 形態素解析手段
34 読み情報付き形態素解析辞書記憶手段
40 記憶装置
41 音声記憶手段
42 認識結果記憶手段
43 編集位置記憶手段
44 音声再生時刻記憶手段
45 編集結果記憶手段
50 データ処理装置
60 入出力装置
70 音声テキスト化用プログラム
200 音声テキスト化装置
210 音声認識装置
211 音声認識手段
212 音声記憶手段
213 認識結果記憶手段
220 編集装置
221 音声再生手段
222 認識結果編集手段
223 同期手段
224 音声再生時刻記憶手段
225 編集位置記憶手段
226 編集結果記憶手段
3 コンピュータ
10 音声認識装置
11、11a 音声認識手段
12 音声記憶手段
13 認識結果記憶手段
20 編集装置
21 音声再生手段
22 編集手段
23 同期手段
24 音声再生時刻記憶手段
25 編集位置記憶手段
26 編集結果記憶手段
27、30 マッチング手段
28 アライメント手段
31 サブワード変換手段
32 サブワードマッチング手段
33 形態素解析手段
34 読み情報付き形態素解析辞書記憶手段
40 記憶装置
41 音声記憶手段
42 認識結果記憶手段
43 編集位置記憶手段
44 音声再生時刻記憶手段
45 編集結果記憶手段
50 データ処理装置
60 入出力装置
70 音声テキスト化用プログラム
200 音声テキスト化装置
210 音声認識装置
211 音声認識手段
212 音声記憶手段
213 認識結果記憶手段
220 編集装置
221 音声再生手段
222 認識結果編集手段
223 同期手段
224 音声再生時刻記憶手段
225 編集位置記憶手段
226 編集結果記憶手段
Claims (15)
- 音声データの書き起こし結果となる編集結果テキストを生成する編集手段を備えた音声テキスト化システムにおいて、
前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識手段と、
前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング手段と、
このマッチング手段によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント手段とを備えたことを特徴とする音声テキスト化システム。 - 前記音声認識結果は表記から構成され、
前記マッチング手段は、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけること
を特徴とする請求項1に記載の音声テキスト化システム。 - 前記音声認識結果はサブワード列として構成され、
前記編集結果テキストをサブワード列に変換するサブワード変換手段を備え、
前記マッチング手段は、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項1に記載の音声テキスト化システム。 - 前記サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項3に記載の音声テキスト化システム。
- 前記サブワード変換手段は、前記編集手段に入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項3に記載の音声テキスト化システム。
- 音声データの書き起こし結果となる編集結果テキストを生成する編集工程を備えた音声テキスト化方法において、
前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識工程と、
前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング工程と、
このマッチング工程によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント工程とを備えたことを特徴とする音声テキスト化方法。 - 前記音声認識結果は表記から構成され、
前記マッチング工程では、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけることを特徴とする請求項6に記載の音声テキスト化方法。 - 前記音声認識結果はサブワード列として構成され、
前記マッチング工程が作動する前に前記編集結果テキストをサブワード列に変換するサブワード変換工程を備え、
前記マッチング工程では、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項6に記載の音声テキスト化方法。 - 前記サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項8に記載の音声テキスト化方法。
- 前記サブワード変換工程では、前記編集工程で入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項8に記載の音声テキスト化方法。
- 音声データの書き起こし結果となる編集結果テキストを生成する編集機能をコンピュータに実行させる音声テキスト化用プログラムにおいて、
前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識機能と、
前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング機能と、
このマッチング機能によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント機能とを前記コンピュータに実行させることを特徴とする音声テキスト化用プログラム。 - 前記音声認識結果は表記から構成され、
前記マッチング機能は、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけることを特徴とする請求項11に記載の音声テキスト化用プログラム。 - 前記音声認識結果はサブワード列として構成され、
前記マッチング機能が作動する前に前記編集結果テキストをサブワード列に変換するサブワード変換機能を前記コンピュータに実行させるとともに、
前記マッチング機能は、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項11に記載の音声テキスト化用プログラム。 - 前記サブワード変換機能は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項13に記載の音声テキスト化用プログラム。
- 前記サブワード変換機能は、前記編集機能に入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項13に記載の音声テキスト化用プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005323993A JP2007133033A (ja) | 2005-11-08 | 2005-11-08 | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
US12/089,619 US8155958B2 (en) | 2005-11-08 | 2006-11-08 | Speech-to-text system, speech-to-text method, and speech-to-text program |
PCT/JP2006/322255 WO2007055233A1 (ja) | 2005-11-08 | 2006-11-08 | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005323993A JP2007133033A (ja) | 2005-11-08 | 2005-11-08 | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007133033A true JP2007133033A (ja) | 2007-05-31 |
Family
ID=38023235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005323993A Pending JP2007133033A (ja) | 2005-11-08 | 2005-11-08 | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8155958B2 (ja) |
JP (1) | JP2007133033A (ja) |
WO (1) | WO2007055233A1 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009075249A (ja) * | 2007-09-19 | 2009-04-09 | Ntt Data Corp | 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム |
WO2010146869A1 (ja) * | 2009-06-18 | 2010-12-23 | 日本電気株式会社 | 編集支援システム、編集支援方法および編集支援プログラム |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP2013152365A (ja) * | 2012-01-25 | 2013-08-08 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP2014235263A (ja) * | 2013-05-31 | 2014-12-15 | ヤマハ株式会社 | 音声認識装置およびプログラム |
JP2015127894A (ja) * | 2013-12-27 | 2015-07-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 支援装置、情報処理方法、及び、プログラム |
JP2015187733A (ja) * | 2015-04-28 | 2015-10-29 | 株式会社東芝 | 書き起こし支援システムおよび書き起こし支援方法 |
JP2016177311A (ja) * | 2016-05-25 | 2016-10-06 | 株式会社東芝 | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
US10061761B2 (en) | 2016-07-22 | 2018-08-28 | International Business Machines Corporation | Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources |
JP2020012855A (ja) * | 2018-07-13 | 2020-01-23 | 株式会社ソケッツ | テキスト表示用同期情報生成装置および方法 |
JP2020154057A (ja) * | 2019-03-19 | 2020-09-24 | 株式会社モアソンジャパン | 音声データのテキスト編集装置及び音声データのテキスト編集方法 |
US12148432B2 (en) | 2019-12-17 | 2024-11-19 | Sony Group Corporation | Signal processing device, signal processing method, and signal processing system |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131545B1 (en) * | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
US20100324895A1 (en) * | 2009-01-15 | 2010-12-23 | K-Nfb Reading Technology, Inc. | Synchronization for document narration |
JP5014449B2 (ja) * | 2010-02-26 | 2012-08-29 | シャープ株式会社 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
US8392186B2 (en) | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
US8554558B2 (en) | 2010-07-12 | 2013-10-08 | Nuance Communications, Inc. | Visualizing automatic speech recognition and machine translation output |
US8224654B1 (en) | 2010-08-06 | 2012-07-17 | Google Inc. | Editing voice input |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
WO2016035069A1 (en) * | 2014-09-01 | 2016-03-10 | Beyond Verbal Communication Ltd | System for configuring collective emotional architecture of individual and methods thereof |
CN105869654B (zh) * | 2016-03-29 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 音频消息的处理方法及装置 |
CN109949813A (zh) * | 2017-12-20 | 2019-06-28 | 北京君林科技股份有限公司 | 一种将语音转换为文字的方法、装置及系统 |
JP7096510B2 (ja) | 2018-08-15 | 2022-07-06 | 日本電信電話株式会社 | 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、表示装置、及び編集支援装置 |
CN111192579B (zh) * | 2019-12-30 | 2022-09-23 | 思必驰科技股份有限公司 | 信息处理方法、信息控制中心设备及计算机可读存储介质 |
CN113571061A (zh) * | 2020-04-28 | 2021-10-29 | 阿里巴巴集团控股有限公司 | 语音转写文本编辑系统、方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152787A (ja) * | 1994-01-13 | 1995-06-16 | Sony Corp | 情報アクセスシステムおよび記録媒体 |
JP2003316375A (ja) * | 2002-04-26 | 2003-11-07 | Ricoh Co Ltd | 分散ディクテーションシステム、プログラム及び記憶媒体 |
JP2004170765A (ja) * | 2002-11-21 | 2004-06-17 | Sony Corp | 音声処理装置および方法、記録媒体並びにプログラム |
JP2005165066A (ja) * | 2003-12-03 | 2005-06-23 | Internatl Business Mach Corp <Ibm> | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
JP2005228178A (ja) * | 2004-02-16 | 2005-08-25 | Nec Corp | 書き起こしテキスト作成支援システムおよびプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0731677B2 (ja) * | 1987-09-29 | 1995-04-10 | シャープ株式会社 | 文書作成・校正支援装置 |
JP2937710B2 (ja) | 1993-09-22 | 1999-08-23 | 日本電気株式会社 | インクジェットプリンタ用印字検査装置 |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
JPH07210185A (ja) | 1993-11-30 | 1995-08-11 | Sony Corp | 朗読情報作成装置および朗読装置 |
US5903867A (en) | 1993-11-30 | 1999-05-11 | Sony Corporation | Information access system and recording system |
US6961700B2 (en) * | 1996-09-24 | 2005-11-01 | Allvoice Computing Plc | Method and apparatus for processing the output of a speech recognition engine |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US6535848B1 (en) * | 1999-06-08 | 2003-03-18 | International Business Machines Corporation | Method and apparatus for transcribing multiple files into a single document |
JP4323029B2 (ja) | 1999-10-21 | 2009-09-02 | ヤマハ株式会社 | 音声処理装置およびカラオケ装置 |
JP3470664B2 (ja) * | 1999-12-01 | 2003-11-25 | 日本電気株式会社 | 受信メール表示方法及び絵文字変換機能付き電子メール端末装置 |
AU2001259446A1 (en) * | 2000-05-02 | 2001-11-12 | Dragon Systems, Inc. | Error correction in speech recognition |
US6785650B2 (en) * | 2001-03-16 | 2004-08-31 | International Business Machines Corporation | Hierarchical transcription and display of input speech |
ATE286294T1 (de) | 2001-03-29 | 2005-01-15 | Koninkl Philips Electronics Nv | Synchronisierung eines audio- und eines textcursors während der editierung |
US7136803B2 (en) * | 2001-09-25 | 2006-11-14 | Apple Computer, Inc. | Japanese virtual dictionary |
US7774694B2 (en) * | 2002-12-06 | 2010-08-10 | 3M Innovation Properties Company | Method and system for server-based sequential insertion processing of speech recognition results |
US20070244700A1 (en) * | 2006-04-12 | 2007-10-18 | Jonathan Kahn | Session File Modification with Selective Replacement of Session File Components |
US7881930B2 (en) * | 2007-06-25 | 2011-02-01 | Nuance Communications, Inc. | ASR-aided transcription with segmented feedback training |
-
2005
- 2005-11-08 JP JP2005323993A patent/JP2007133033A/ja active Pending
-
2006
- 2006-11-08 WO PCT/JP2006/322255 patent/WO2007055233A1/ja active Application Filing
- 2006-11-08 US US12/089,619 patent/US8155958B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152787A (ja) * | 1994-01-13 | 1995-06-16 | Sony Corp | 情報アクセスシステムおよび記録媒体 |
JP2003316375A (ja) * | 2002-04-26 | 2003-11-07 | Ricoh Co Ltd | 分散ディクテーションシステム、プログラム及び記憶媒体 |
JP2004170765A (ja) * | 2002-11-21 | 2004-06-17 | Sony Corp | 音声処理装置および方法、記録媒体並びにプログラム |
JP2005165066A (ja) * | 2003-12-03 | 2005-06-23 | Internatl Business Mach Corp <Ibm> | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
JP2005228178A (ja) * | 2004-02-16 | 2005-08-25 | Nec Corp | 書き起こしテキスト作成支援システムおよびプログラム |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009075249A (ja) * | 2007-09-19 | 2009-04-09 | Ntt Data Corp | 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム |
WO2010146869A1 (ja) * | 2009-06-18 | 2010-12-23 | 日本電気株式会社 | 編集支援システム、編集支援方法および編集支援プログラム |
JP5533865B2 (ja) * | 2009-06-18 | 2014-06-25 | 日本電気株式会社 | 編集支援システム、編集支援方法および編集支援プログラム |
US10304457B2 (en) | 2011-07-26 | 2019-05-28 | Kabushiki Kaisha Toshiba | Transcription support system and transcription support method |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP2013152365A (ja) * | 2012-01-25 | 2013-08-08 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP2014235263A (ja) * | 2013-05-31 | 2014-12-15 | ヤマハ株式会社 | 音声認識装置およびプログラム |
JP2015127894A (ja) * | 2013-12-27 | 2015-07-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 支援装置、情報処理方法、及び、プログラム |
JP2015187733A (ja) * | 2015-04-28 | 2015-10-29 | 株式会社東芝 | 書き起こし支援システムおよび書き起こし支援方法 |
JP2016177311A (ja) * | 2016-05-25 | 2016-10-06 | 株式会社東芝 | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
US10061761B2 (en) | 2016-07-22 | 2018-08-28 | International Business Machines Corporation | Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources |
JP2020012855A (ja) * | 2018-07-13 | 2020-01-23 | 株式会社ソケッツ | テキスト表示用同期情報生成装置および方法 |
JP2020154057A (ja) * | 2019-03-19 | 2020-09-24 | 株式会社モアソンジャパン | 音声データのテキスト編集装置及び音声データのテキスト編集方法 |
US12148432B2 (en) | 2019-12-17 | 2024-11-19 | Sony Group Corporation | Signal processing device, signal processing method, and signal processing system |
Also Published As
Publication number | Publication date |
---|---|
US8155958B2 (en) | 2012-04-10 |
US20090048832A1 (en) | 2009-02-19 |
WO2007055233A1 (ja) | 2007-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007133033A (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
US8949128B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US20130041669A1 (en) | Speech output with confidence indication | |
US20050071163A1 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
JP2003518266A (ja) | 音声認識システムのテキスト編集用音声再生 | |
US8155963B2 (en) | Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP2000347681A (ja) | テキスト・ベースの音声合成を利用した音声制御システム用の再生方法 | |
Demuynck et al. | Automatic generation of phonetic transcriptions for large speech corpora. | |
JP2001343992A (ja) | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Demenko et al. | JURISDIC: Polish Speech Database for Taking Dictation of Legal Texts. | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
JP2011242637A (ja) | 音声編集装置 | |
JP5366050B2 (ja) | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム | |
JP2000250401A (ja) | 言語学習方法、言語学習装置およびプログラムを記録した媒体 | |
JP2009157220A (ja) | 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法 | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
JP2009116107A (ja) | 情報処理装置及び方法 | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JPS6184771A (ja) | 音声入力装置 | |
Caballero-Morales | On the development of speech resources for the mixtec language | |
Kamble et al. | Audio Visual Speech Synthesis and Speech Recognition for Hindi Language | |
Rajnoha et al. | Czech spontaneous speech collection and annotation: The database of technical lectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100608 |