JP2007133033A

JP2007133033A - 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム

Info

Publication number: JP2007133033A
Application number: JP2005323993A
Authority: JP
Inventors: Makoto Terao; 真寺尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-11-08
Filing date: 2005-11-08
Publication date: 2007-05-31
Also published as: US8155958B2; US20090048832A1; WO2007055233A1

Abstract

【課題】認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供すること
【解決手段】音声テキスト化システム１は、編集手段２２により得られた編集結果テキストに含まれる文字と音声認識手段１１により生成された時刻情報つきの音声認識結果に含まれる文字とを対応づけるマッチング手段２７と、このマッチング手段２７によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント手段２８とを備えている。
【選択図】図１

Description

本発明は、音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラムに関し、特に、音声認識を利用することで効率の良い音声のテキスト化を行う音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラムに関する。

会議や講演などの議事録を作成するためには、音声データをテキスト化する作業が必要となる(以下では、このような音声のテキスト化を「書き起こし」と呼ぶ)。
しかし、音声の書き起こし作業には非常に多くの人的コストがかかるため、作業効率の改善が求められている。
一方で、近年の音声認識技術の進歩により、自由発話を対象とした音声認識の精度が向上しつつある。
このような状況下で、音声認識技術を利用した書き起こし作業の支援が検討されるようになってきた。

音声認識を利用した従来の音声テキスト化システムの一例が、特許文献１に記載されている。この特許文献１に記載された音声テキスト化システムは、書き起こし対象となる音声データを音声認識することで音声を自動的にテキスト化した上で、認識結果テキスト中の誤り箇所を人手によって編集して書き起こしを完成させる音声テキスト化システムである。
図９に示すように、この従来の音声テキスト化システム２００は、音声記憶手段２１２と、音声認識手段２１１と、認識結果記憶手段２１３と、認識結果編集手段２２２と、編集位置記憶手段２２５と、編集結果記憶手段２２６と、音声再生手段２２１と、音声再生時刻記憶手段２２４と、同期手段２２３とから構成されている。

このような構成を有する従来の音声テキスト化システム２００は次のように動作する。
音声記憶手段２１２には、書き起こし対象となる音声データが記憶されている。
音声認識手段２１１は、音声記憶手段２１２から音声データを読み込んで音声認識し、単語単位の認識結果テキストを認識結果記憶手段２１３に出力する。このとき、認識結果テキスト中の各単語の時刻情報も認識結果記憶手段２１３に記憶しておく。このようにすることで、認識結果テキストと音声データとを対応づけることができる。
認識結果編集手段２２２は、認識結果記憶手段２１３に記憶された認識結果テキストを読み込み、書き起こし作業者の編集指示に従って認識結果テキスト中の誤り箇所を編集し、編集されたテキストを編集結果記憶手段２２６に出力する。認識結果編集手段２２２は一般的なテキストエディタと同様に、テキスト上の位置を表す編集カーソルを備え、編集カーソル位置のテキストに対して編集が行われる。この編集カーソルの位置は、編集位置記憶手段２２５に記憶されている。

一方、音声再生手段２２１は、書き起こし作業者の音声再生指示に従って音声記憶手段２１２に記憶されている音声データを再生する。このとき、再生している音声の時刻は、音声再生時刻記憶手段２２４に記憶されている。書き起こし作業者は、再生している音声を聞き取ることで編集作業を進めていく。

同期手段２２３は、同期指示に従って編集位置記憶手段２２５に記憶されている編集カーソルの位置と、音声再生時刻記憶手段２２４に記憶されている音声再生時刻とを同期させる。これは、認識結果記憶手段２１３に記憶されている認識結果テキストと音声データとの対応づけを参照することで可能となる。
すなわち、音声再生時刻を編集カーソルの位置に同期させる場合は、編集カーソルが置かれている認識結果単語の時刻に音声再生時刻を合わせれば良い。このように音声再生時刻を編集カーソルの位置に同期させることにより、書き起こし作業者は、これから編集するために編集カーソルを置いているテキストに対応する音声を素早く聞いて確認することができる。
また、これとは逆に、編集カーソルの位置を音声再生時刻に同期させる場合は、再生している音声に対応する認識結果テキストの上に編集カーソルを合わせれば良い。
このように編集カーソルの位置を音声再生時刻に同期させることにより、書き起こし作業者は、誤認識されている音声を聞いたらすぐに編集カーソルを編集すべきテキスト上に移動することができる。

以上述べたように、この従来の音声テキスト化システムでは、認識結果テキストと音声データとの対応づけを利用することで、編集カーソルの位置と音声再生時刻とを相互に同期させることができるため、書き起こし作業の効率が改善される。

特表２００４−５３０２０５号公報

この従来の音声テキスト化システムの問題点は、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合に、編集後のテキストと音声データとを対応づけられない、ということである。
その理由は、編集が加えられたテキストに対しては詳細な時刻情報が付与されていないためである。

以下で、認識結果テキストに対して編集を加えた場合について、具体例を用いて説明する。
「次回の会議は二十六日の午前八時から開催致します」という発話が「次回」「の」「会議」「は」「二重」「路」「に」「地」「の」「全」「八」「字」「から」「開催」「致し」「ます」と認識された場合を考える。
認識結果テキストは鍵括弧で括られたように単語単位で出力されており、各単語「次回」「の」「会議」などに対してそれぞれ時刻情報が付与されている。したがって、この時点では、編集カーソルがどの単語上にあっても編集カーソルの位置に音声再生時刻を同期させることができるし、また、逆に、音声再生時刻がどこであっても音声再生時刻に対応する単語上に編集カーソルを同期させることができる。

しかし、書き起こし作業者が「二重」「路」「に」「地」「の」「全」「八」「字」という誤認識部分を削除して、「二十六日の午前八時」と打ち込んで編集した場合を考えると問題が生じる。
この時点で、編集後の「二十六日の午前八時」に対しては詳細な時刻情報が失われており、その結果、編集後のテキストと音声データとの対応づけが得られなくなっている。例えば、編集後のテキスト中の「午前」の時刻情報が得られないため、対応する音声データがどこであるかが分からない。したがって、編集カーソルが「午前」の上に置かれているときに音声再生時刻を同期させることはできないし、また、逆に、「午前」の音声を再生しているときに編集カーソルを「午前」という編集後のテキスト上に同期させることもできない。
このように、編集後のテキストと音声データとを対応づけられないと、書き起こし作業者が編集箇所を再度確認したいと思ったときに、編集カーソルと音声再生時刻との同期機能を利用することができず、作業の効率が低下してしまう。
また、ある作業者が編集した書き起こしテキストを別の作業者がクロスチェックすることは一般的に広く行われているが、そのような場合でも、同様の問題が生じる。

そこで、本発明は、音声の書き起こし作業において、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供することをその目的とする。

本発明の音声テキスト化システムは、編集手段により得られた編集結果テキストに含まれる文字と音声認識手段により生成された時刻情報つきの音声認識結果に含まれる文字とを対応づけるマッチング手段と、このマッチング手段によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント手段とを備えている。ここで、時刻情報とは、音声データ中の基準点（たとえばデータの先頭）からの経過時間や経過フレーム数などで、音声データ中の位置を表したものである（請求項１ないし請求項５）。

上記音声テキスト化システムによれば、マッチング手段により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント手段が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。

上記音声テキスト化システムにおいて、音声認識結果は表記から構成するようにし、マッチング手段は、編集結果テキストと音声認識結果とを表記の整合により対応づけるようにしてもよい（請求項２）。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。

上記音声テキスト化システムにおいて、音声認識結果はサブワード列として構成するようにするとともに、編集結果テキストをサブワード列に変換するサブワード変換手段を備え、マッチング手段は、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけるようにしてもよい（請求項３）。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。

上記音声テキスト化システムにおいて、サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換するようにしてもよい（請求項４）。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。

上記音声テキスト化システムにおいて、サブワード変換手段は、編集手段に入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換するようにしてもよい（請求項５）。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。

本発明の音声テキスト化方法は、書き起こしの対象となる音声データを音声認識してテキストに変換するとともにこのテキストに時刻情報を付加して音声認識結果を生成する音声認識工程と、音声データの書き起こし結果となる編集結果テキストを生成する編集工程と、編集結果テキストに含まれる文字と音声認識結果に含まれる文字とを対応づけるマッチング工程と、このマッチング工程によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント工程とを備えている（請求項６ないし請求項１０）。

上記音声テキスト化方法によれば、マッチング工程により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント工程が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。

上記音声テキスト化方法において、音声認識結果は表記から構成し、マッチング工程では、編集結果テキストと音声認識結果とを表記の整合により対応づけしてもよい（請求項７）。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。

上記音声テキスト化方法において、音声認識結果はサブワード列として構成するようにし、マッチング工程が作動する前に編集結果テキストをサブワード列に変換するサブワード変換工程を備えるようにし、マッチング工程では、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけしてもよい（請求項８）。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。

上記音声テキスト化方法において、サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい（請求項９）。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。

上記音声テキスト化方法において、サブワード変換工程では、編集工程で入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換してもよい（請求項１０）。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。

本発明の音声テキスト化用プログラムは、書き起こしの対象となる音声データを音声認識してテキストに変換するとともにこのテキストに時刻情報を付加して音声認識結果を生成する音声認識機能と、音声データの書き起こし結果となる編集結果テキストを生成する編集機能と、編集結果テキストに含まれる文字と音声認識結果に含まれる文字とを対応づけるマッチング機能と、このマッチング機能によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント機能とをコンピュータに実行させる（請求項１１ないし請求項１５）。

上記音声テキスト用プログラムによれば、マッチング機能により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント機能が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、コンピュータを、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができるシステムとして動作させることができる。

上記音声テキスト化用プログラムにおいて、音声認識結果は表記から構成するようにし、マッチング機能は、編集結果テキストと音声認識結果とを表記の整合により対応づけしてもよい（請求項１２）。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。

上記音声テキスト化用プログラムにおいて、音声認識結果はサブワード列として構成するようにし、マッチング機能が作動する前に編集結果テキストをサブワード列に変換するサブワード変換機能をコンピュータに実行させるとともに、マッチング機能は、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけしてもよい（請求項１３）。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。

上記音声テキスト化用プログラムにおいて、サブワード変換機能は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい（請求項１４）。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。

上記音声テキスト化用プログラムにおいて、サブワード変換機能は、編集機能に入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換してもよい（請求項１５）。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。

本発明によれば、時刻情報が付与されていない編集結果テキストを、時刻情報が付与されている認識結果に対応づけることにより、編集結果テキスト上でも時刻情報を得ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。

本発明の第１の実施形態である音声テキスト化システム１の構成と動作について、図面を参照して詳細に説明する。
図１は、音声テキスト化システム１の機能ブロック図である。
図１を参照すると、音声テキスト化システム１は、音声認識装置１０と、編集装置２０とを備えている。
音声認識装置１０は、音声認識手段１１と、音声記憶手段１２と、認識結果記憶手段１３とを備えている。
編集装置２０は、編集手段２２と、編集位置記憶手段２５と、編集結果記憶手段２６と、音声再生手段２１と、音声再生時刻記憶手段２４と、マッチング手段２７と、アライメント手段２８と、同期手段２３とを備えている。

音声記憶手段１２は、テキスト化の対象となる音声データを記憶する。音声データは、例えば、アナログの音声信号を所定のサンプリング周波数でサンプリングし、各サンプリング値を量子化することでデジタル化したデータである。
音声認識手段１１は、音声記憶手段１２から音声データを読み込んで認識し、認識結果を認識結果記憶手段１３に出力する。このとき、認識結果の時刻情報も認識結果記憶手段１３に記憶する。

編集手段２２は、書き起こし結果となるテキストを編集するためのテキストエディタで、認識結果記憶手段１３から認識結果テキストを読み込み、書き起こし作業者の編集指示に従ってテキストを編集し、編集後のテキストを編集結果記憶手段２６に記憶する。
編集位置記憶手段２５は、テキスト上の編集位置を記憶する。

音声再生手段２１は、書き起こし作業者の音声再生指示に従って、音声記憶手段１２に記憶されている書き起こし対象となる音声データを再生する。
音声再生時刻記憶手段２４は、音声再生手段２１が再生している音声の時刻を記憶する。
マッチング手段２７は、編集結果記憶手段２６に記憶されている編集結果テキストと、認識結果記憶手段１３に記憶されている時刻情報付きの認識結果との対応づけを行う。
アライメント手段２８は、マッチング手段２７による対応づけ結果を参照することで、編集結果記憶手段２６に記憶されている編集結果テキストと音声記憶手段１２に記憶されている音声データとの対応づけを行う。
同期手段２３は、同期指示に従って、アライメント手段２８による対応づけ結果を参照することで、編集位置記憶手段２５に記憶されている編集位置と音声再生時刻記憶手段２４に記憶されている音声再生時刻とを同期させる。
上記の、音声記憶手段１２、認識結果記憶手段１３、音声再生時刻記憶手段２４、編集位置記憶手段２５、編集結果記憶手段２６は、それぞれ、磁気ディスク装置や半導体メモリ等の記憶装置で構成されている。

次に、図１および図２のフローチャートを参照して音声テキスト化システム１全体の動作について詳細に説明する。
音声認識手段１１は、音声記憶手段１２に記憶されている音声データを読み込んで認識し、認識結果を認識結果記憶手段１３に出力する(図２のＳ１０１)。このとき、音声認識手段１１は、音声認識結果として表記情報だけではなく、認識結果と音声データとを対応づけるための時刻情報を付随させて出力する。
例えば、認識結果の表記は「次回の会議は二重路に地の全八字から開催致します」であり、「次回」は音声データ中の時刻0.1〜0.4秒、「の」は音声データ中の時刻0.4〜0.5秒、…に対応している、というような情報を出力して記憶する（図３参照）。
音声認識処理は、例えば、特徴量としてＭＦＣＣ(Mel-scale Frequency Cepstral Coefficients)を用い、音響モデルとして隠れマルコフモデル、言語モデルとして単語N-gramモデルを使った一般的な大語彙連続音声認識技術によって実現する。

編集手段２２は、書き起こし作業者が音声をテキスト化するためのテキストエディタであり、テキスト上の編集位置が編集位置記憶手段２５に記憶されている。すなわち、編集位置記憶手段２５に記憶されている編集位置のテキストが、作業者によるキーボード入力等によって編集される(図２のＳ１０２)。このとき、編集位置に相当する文字を反転表示したり、文字の下に下線を表示したりすることにより、書き起こし作業者が編集位置を確認できるようにすることが好ましい。
編集手段２２によって編集された編集結果テキストは、編集結果記憶手段２６に記憶する。

なお、本実施例では、編集手段２２は、編集開始前に、認識結果記憶手段１３に記憶されている認識結果テキストを読み込み、認識結果中の誤り箇所を編集していくと仮定しているが、認識結果を読み込まずに何もテキストが存在しない状態から新規に書き起こしを行うことも可能である。

音声再生手段２１は、書き起こし作業者のキーボード等による音声再生指示に従って、音声記憶手段１２に記憶されている書き起こし対象となる音声データを再生し、スピーカ等の出力装置から出力する。
書き起こし作業者は、音声再生手段２１によって再生される音声を聞きとって書き起こしを行う。このとき、再生している音声の時刻は、音声再生時刻記憶手段２４に記憶する。また、音声再生時刻記憶手段２４に記憶されている音声再生時刻が後述する同期手段２３によって書き換えられた場合、音声再生手段２１は、新しく書き換えられた時刻の音声を再生する。

同期手段２３は、書き起こし作業者の同期指示があるかどうかを判定し(図２のＳ１０３)、同期指示があれば、同期処理を実行する。この同期処理には、音声再生時刻を編集位置に同期させる場合と、編集位置を音声再生時刻に同期させる場合の２通りの同期がある。すなわち、前者の同期処理は、編集位置のテキストに対応する音声データの再生を可能とし、後者の同期処理は、音声が再生されている場所に対応するテキスト上に編集位置を移動することを可能とする。

同期手段２３がこれらの同期指示を受けた（図２のＳ１０３の判定がイエスの）ときには、まず、マッチング手段２７が、編集結果記憶手段２６に記憶されている編集結果テキストと認識結果記憶手段１３に記憶されている認識結果との対応づけを行う(図２のＳ１０４)。
次に、アライメント手段２８が、マッチング手段２７による対応づけ結果を参照することで、編集結果記憶手段２６に記憶されている編集結果テキストと音声記憶手段１２に記憶されている音声データとの対応づけを行う(図３のＳ１０５)。

次に、具体例を用いてマッチング手段２７およびアライメント手段２８による対応づけの動作を詳細に説明する。
「次回の会議は二十六日の午前八時から開催致します」という発話が、音声認識手段１１により「次回の会議は二重路に地の全八字から開催致します」と認識され、書き起こし作業者が、「二重路に地の全八字」という誤認識箇所を「二十六日の午前八時」と編集した場合を例に説明する。
図３は、上記の例におけるマッチング手段２７、アライメント手段２８の動作を示す図である。
マッチング手段２７は、編集結果テキスト「次回の会議は二十六日の午前八時から開催致します」と、認識結果の表記「次回の会議は二重路に地の全八字から開催致します」とを図３で示したように対応づける(図２のＳ１０４)。この対応づけは、公知の技術であるダイナミックプログラミング(ＤＰ：Dynamic Programming)によるマッチングを表記文字単位で実行することによって得ることができる。
すなわち、編集結果テキスト「二十六日の午前八時」と認識結果の表記「二重路に地の全八字」の両方に存在する「二」「の」「八」などの表記文字によって対応がとられる。

このように、編集結果テキストと認識結果との対応づけが得られると、認識結果には時刻情報が付随しているため、アライメント手段２８は、編集結果テキストと音声データとの対応づけをとることができる(図２のＳ１０５)。たとえば、図３の編集結果テキストの位置Ｐ１は認識結果の位置Ｐ２に対応し、Ｐ２は音声データの時刻ｔ３に対応しているから、Ｐ１をｔ３に対応付けることができる。
同期手段２３は、アライメント手段２８による編集結果テキストと音声データとの対応づけを参照することで、編集位置や音声再生時刻がいかなる場所にあっても、音声再生時刻を編集位置に同期させること、および、編集位置を音声再生時刻に同期させることが可能となる(図２のステップＳ１０６)。

以上で説明したような、書き起こしテキストの編集(図２のＳ１０２)と、編集結果テキストと音声データとの対応づけ(図２のＳ１０４、Ｓ１０５)と、編集位置と音声再生時刻との同期処理(図２のＳ１０６)とを書き起こしテキストの編集が終了するまで繰り返し実行する(図２のＳ１０７)。書き起こしテキストが完成すると処理全体が終了する。

なお、以上の説明では、マッチング手段２７、アライメント手段２８による編集結果テキストと音声データとの対応づけ処理(図２のＳ１０４、Ｓ１０５)は、作業者の同期指示があった場合に行っているが、この対応づけを書き起こしテキストが編集されたタイミングで随時実行しても良い。
すなわち、図２のＳ１０２とＳ１０３との間でＳ１０４、Ｓ１０５を実行しておいても良い。この場合、同期指示があった場合には即座に同期手段２３による同期処理(図２のＳ１０６)が実行される。

次に、本実施の形態の効果について説明する。
音声テキスト化システム１では、マッチング手段２７が時刻情報が付与されていない編集結果テキストと時刻情報が付与されている認識結果とを対応づけることにより、アライメント手段２８は、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。
その結果、同期手段２３は、編集位置や音声再生時刻がいかなる場所にあっても両者の同期をとることが可能となり、書き起こし作業の効率が大幅に向上する。

次に、本発明の第２の実施形態である音声テキスト化システム２の構成と動作について、図面を参照して詳細に説明する。
図４は、音声テキスト化システム２の機能ブロック図である。
音声テキスト化システム２の基本的な構成および動作は、図１の音声テキスト化システム１と同一であるが、図４のマッチング手段３０は、表記文字の整合により対応づけるのではなく、音素や音節などのサブワードの整合により対応づける点、および図４の音声認識手段１１ａは、音声認識結果を時刻情報付きのサブワード列として出力し、認識結果記憶手段１３に記憶する点が異なる。
それ以外の各部の構成と動作は、図１の音声テキスト化システム１と同一であるため、ここではその詳細な説明を省略する。

図５を参照すると、本実施の形態におけるマッチング手段３０は、サブワード変換手段３１と、サブワードマッチング手段３２とを備えている。
次に、具体例によって、マッチング手段３０の動作について詳細に説明する。本実施の形態は、マッチング手段３０が、編集結果テキストと認識結果とをサブワードの整合により対応づけるところに特徴がある。ここで、サブワードとは、音素や音節等の基本的な音響単位のことである。
以下では、サブワードとして音素を採用した場合を例に説明するが、音節等の他の基本的な音響単位を用いても同じである。
前述の例と同様に、「次回の会議は二重路に地の全八字から開催致します」という認識結果を持つ発話に対して、「次回の会議は二十六日の午前八時から開催致します」と編集した場合を考える。認識結果としては、「j i k a i n o k a i g i w a n i j u: r o n i ch i n o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列とその時刻情報も出力し、認識結果記憶手段１３に記憶する。
音声認識処理では一般に、認識結果中の各単語を構成する音素列や音節列の情報を持っているため、認識結果を音素列として出力することは簡単に実現できる。
サブワード変換手段３１は、表記で構成された編集結果テキストを音素列に変換する。すなわち、「次回の会議は二十六日の午前八時から開催致します」という編集結果テキストを「j i k a i n o k a i g i w a n i j u: r o k u n i ch i n o g o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列に変換する。

サブワードマッチング手段３２は、サブワード変換手段によって変換された編集結果テキストの音素列と、認識結果記憶手段１３に記憶された認識結果の音素列とを対応づける。
この様子を示したのが図６であり、サブワードで対応づけることによって、表記で対応づけるよりも認識誤りに頑健で正確な対応づけが可能となる。なぜならば、一般に音声認識では、表記では誤認識をしている場合でも、音素などのサブワードでは正解していることが多い、という特徴があるためである。
例えば、図６の例では、表記レベルでは「十」を「重」に、「時」を「字」に誤認識しており、これらは表記の整合ではマッチしないが、音素で整合することで両者が正しくマッチすることが分かる。
なお、音素列同士の対応づけは、公知の技術であるＤＰマッチングなどの手法を用いれば良い。

次に、サブワード変換手段３１で、編集結果テキストをサブワード列に変換する方法について説明する。
書き起こし対象の言語が英語のように単語単位で分かち書きされている言語であれば、発音記号が付与されている単語辞書を参照することで、編集結果テキストをサブワード列に変換することが可能である。しかし、書き起こし対象の言語が日本語のように単語単位で分かち書きされていない言語の場合は、編集結果テキストを直接サブワード列に変換することができない。
以下では、書き起こし対象が日本語である場合に、編集結果テキストをサブワード列に変換する方法について説明する。

図７は、日本語の編集結果テキストをサブワード列に変換するサブワード変換手段３１の一例を示すブロック図である。
図７に示すサブワード変換手段３１は、形態素解析手段３３と、読み情報付き形態素解析辞書記憶手段３４とを備えている。
形態素解析手段３３は、編集結果記憶手段２６から入力された編集結果テキスト、すなわち「次回の会議は二十六日の午前八時から開催致します」に対して、公知の技術である形態素解析を実行する。
このとき、形態素解析手段３３は、読み情報付き形態素解析辞書記憶手段３４を参照して形態素解析を行うため、入力された編集結果テキストの読み情報、すなわち「じかいのかいぎわにじゅーろくにちのごぜんはちじからかいさいいたします」を得ることができる。読み情報から音素や音節などのサブワードに変換することは容易であるため、以上の方法により、編集結果テキストをサブワード列に変換することができる。

また、サブワード変換手段３１で、編集結果テキストをサブワード列に変換する別の方法として、編集手段２２に対する書き起こし作業者のキーボード入力を記憶しておく方法をとることもできる。
すなわち、キーボードによる一般的な日本語入力においては、かな文字、すなわち読み情報を入力して漢字変換を施すため、キーボード入力を記憶しておくことで、編集結果テキストの読み情報を得ることができる。
前述の例では、「二十六日」と打ち込むために、キーボードを例えば、「n i j y u u r o k u n i c h i (にじゅうろくにち)」と打ち込んでから漢字変換を施す。キーボード入力から得られたこの読み情報も編集結果記憶手段２６に記憶しておくことで、サブワード変換手段３１は、編集結果テキストをサブワード列に変換することができる。

なお、以上の説明では、サブワード変換手段３１はマッチング手段３０に含まれていたが、サブワード変換手段は、編集手段２２に含まれていても良い。
この場合、書き起こしテキストが編集されたタイミングで編集結果テキストのサブワード列への変換がなされ、変換されたサブワード列も編集結果記憶手段２６に記憶される。
したがって、マッチング手段３０は、編集結果テキストと認識結果とをサブワードの整合により対応づけることが可能となる。

次に、本実施の形態の効果について説明する。
音声テキスト化システム２では、マッチング手段３０が、編集結果テキストと認識結果とを基本的な音響単位であるサブワードの整合によって対応づけるため、書き起こし対象となる音声データの認識精度が低い場合でも、編集結果テキストと音声データとを高い精度で対応づけることができる。

次に、本発明の第３の実施形態であるコンピュータ３の構成と動作について、図面を参照して詳細に説明する。
図８は、本発明の第１の実施の形態および第２の実施の形態をプログラムにより構成した場合に、そのプログラムにより制御されるコンピュータ３の構成図である。
図８を参照すると、コンピュータ３は、ＭＰＵ(Micro Processing Unit)等を含んで構成されるデータ処理装置５０と、磁気ディスクや半導体メモリ等で構成される記憶装置４０と、液晶ディスプレイやスピーカ等の出力装置およびキーボードやマウス等の入力装置を備えた入出力装置６０と、音声テキスト化用プログラム７０とを備えている。

記憶装置４０は、音声記憶手段４１、認識結果記憶手段４２、編集位置記憶手段４３、音声再生時刻記憶手段４４、編集結果記憶手段４５などとして使用される。
音声テキスト化用プログラム７０は、データ処理装置５０に読み込まれ、データ処理装置５０の動作を制御することにより、データ処理装置５０上に前述した各実施の形態における機能手段を実現する。
すなわち、データ処理装置５０は、音声テキスト化用プログラム７０の制御により、音声認識手段１１および１１ａ、音声再生手段２１、編集手段２２、同期手段２３、マッチング手段２７および３０、アライメント手段２８と同一の処理を実行する。

本発明によれば、会議や講演の議事録を作成するための音声のテキスト化作業、或いは、映画やテレビ番組の字幕作成などの業務において、作業者の負担を軽減して作業の効率を改善する、といった用途に適用できる。

本発明の第１の実施形態である音声テキスト化システムの構成を示すブロック図である。図１の音声テキスト化システムの動作を示す流れ図である。図１のマッチング手段の動作の具体例を示す図である。本発明の第２の実施形態である音声テキスト化システムの構成を示すブロック図である。図４のマッチング手段の構成を示すブロック図である。図４のマッチング手段の動作の具体例を示す図である。図５のサブワード変換手段の構成例を示すブロック図である。本発明の第３の実施形態であるコンピュータの構成を示すブロック図である。従来の音声テキスト化システムの構成を示すブロック図である。

符号の説明

１、２音声テキスト化システム
３コンピュータ
１０音声認識装置
１１、１１ａ音声認識手段
１２音声記憶手段
１３認識結果記憶手段
２０編集装置
２１音声再生手段
２２編集手段
２３同期手段
２４音声再生時刻記憶手段
２５編集位置記憶手段
２６編集結果記憶手段
２７、３０マッチング手段
２８アライメント手段
３１サブワード変換手段
３２サブワードマッチング手段
３３形態素解析手段
３４読み情報付き形態素解析辞書記憶手段
４０記憶装置
４１音声記憶手段
４２認識結果記憶手段
４３編集位置記憶手段
４４音声再生時刻記憶手段
４５編集結果記憶手段
５０データ処理装置
６０入出力装置
７０音声テキスト化用プログラム
２００音声テキスト化装置
２１０音声認識装置
２１１音声認識手段
２１２音声記憶手段
２１３認識結果記憶手段
２２０編集装置
２２１音声再生手段
２２２認識結果編集手段
２２３同期手段
２２４音声再生時刻記憶手段
２２５編集位置記憶手段
２２６編集結果記憶手段

Claims

音声データの書き起こし結果となる編集結果テキストを生成する編集手段を備えた音声テキスト化システムにおいて、
前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識手段と、
前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング手段と、
このマッチング手段によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント手段とを備えたことを特徴とする音声テキスト化システム。
前記音声認識結果は表記から構成され、
前記マッチング手段は、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけること
を特徴とする請求項１に記載の音声テキスト化システム。
前記音声認識結果はサブワード列として構成され、
前記編集結果テキストをサブワード列に変換するサブワード変換手段を備え、
前記マッチング手段は、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項１に記載の音声テキスト化システム。
前記サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項３に記載の音声テキスト化システム。
前記サブワード変換手段は、前記編集手段に入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項３に記載の音声テキスト化システム。
音声データの書き起こし結果となる編集結果テキストを生成する編集工程を備えた音声テキスト化方法において、
前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識工程と、
前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング工程と、
このマッチング工程によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント工程とを備えたことを特徴とする音声テキスト化方法。
前記音声認識結果は表記から構成され、
前記マッチング工程では、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけることを特徴とする請求項６に記載の音声テキスト化方法。
前記音声認識結果はサブワード列として構成され、
前記マッチング工程が作動する前に前記編集結果テキストをサブワード列に変換するサブワード変換工程を備え、
前記マッチング工程では、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項６に記載の音声テキスト化方法。
前記サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項８に記載の音声テキスト化方法。
前記サブワード変換工程では、前記編集工程で入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項８に記載の音声テキスト化方法。
音声データの書き起こし結果となる編集結果テキストを生成する編集機能をコンピュータに実行させる音声テキスト化用プログラムにおいて、
前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識機能と、
前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング機能と、
このマッチング機能によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント機能とを前記コンピュータに実行させることを特徴とする音声テキスト化用プログラム。
前記音声認識結果は表記から構成され、
前記マッチング機能は、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけることを特徴とする請求項１１に記載の音声テキスト化用プログラム。
前記音声認識結果はサブワード列として構成され、
前記マッチング機能が作動する前に前記編集結果テキストをサブワード列に変換するサブワード変換機能を前記コンピュータに実行させるとともに、
前記マッチング機能は、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項１１に記載の音声テキスト化用プログラム。
前記サブワード変換機能は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項１３に記載の音声テキスト化用プログラム。
前記サブワード変換機能は、前記編集機能に入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項１３に記載の音声テキスト化用プログラム。