[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2007133033A - 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム - Google Patents

音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム Download PDF

Info

Publication number
JP2007133033A
JP2007133033A JP2005323993A JP2005323993A JP2007133033A JP 2007133033 A JP2007133033 A JP 2007133033A JP 2005323993 A JP2005323993 A JP 2005323993A JP 2005323993 A JP2005323993 A JP 2005323993A JP 2007133033 A JP2007133033 A JP 2007133033A
Authority
JP
Japan
Prior art keywords
text
result
speech
subword
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005323993A
Other languages
English (en)
Inventor
Makoto Terao
真 寺尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005323993A priority Critical patent/JP2007133033A/ja
Priority to US12/089,619 priority patent/US8155958B2/en
Priority to PCT/JP2006/322255 priority patent/WO2007055233A1/ja
Publication of JP2007133033A publication Critical patent/JP2007133033A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供すること
【解決手段】音声テキスト化システム1は、編集手段22により得られた編集結果テキストに含まれる文字と音声認識手段11により生成された時刻情報つきの音声認識結果に含まれる文字とを対応づけるマッチング手段27と、このマッチング手段27によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント手段28とを備えている。
【選択図】図1

Description

本発明は、音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラムに関し、特に、音声認識を利用することで効率の良い音声のテキスト化を行う音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラムに関する。
会議や講演などの議事録を作成するためには、音声データをテキスト化する作業が必要となる(以下では、このような音声のテキスト化を「書き起こし」と呼ぶ)。
しかし、音声の書き起こし作業には非常に多くの人的コストがかかるため、作業効率の改善が求められている。
一方で、近年の音声認識技術の進歩により、自由発話を対象とした音声認識の精度が向上しつつある。
このような状況下で、音声認識技術を利用した書き起こし作業の支援が検討されるようになってきた。
音声認識を利用した従来の音声テキスト化システムの一例が、特許文献1に記載されている。この特許文献1に記載された音声テキスト化システムは、書き起こし対象となる音声データを音声認識することで音声を自動的にテキスト化した上で、認識結果テキスト中の誤り箇所を人手によって編集して書き起こしを完成させる音声テキスト化システムである。
図9に示すように、この従来の音声テキスト化システム200は、音声記憶手段212と、音声認識手段211と、認識結果記憶手段213と、認識結果編集手段222と、編集位置記憶手段225と、編集結果記憶手段226と、音声再生手段221と、音声再生時刻記憶手段224と、同期手段223とから構成されている。
このような構成を有する従来の音声テキスト化システム200は次のように動作する。
音声記憶手段212には、書き起こし対象となる音声データが記憶されている。
音声認識手段211は、音声記憶手段212から音声データを読み込んで音声認識し、単語単位の認識結果テキストを認識結果記憶手段213に出力する。このとき、認識結果テキスト中の各単語の時刻情報も認識結果記憶手段213に記憶しておく。このようにすることで、認識結果テキストと音声データとを対応づけることができる。
認識結果編集手段222は、認識結果記憶手段213に記憶された認識結果テキストを読み込み、書き起こし作業者の編集指示に従って認識結果テキスト中の誤り箇所を編集し、編集されたテキストを編集結果記憶手段226に出力する。認識結果編集手段222は一般的なテキストエディタと同様に、テキスト上の位置を表す編集カーソルを備え、編集カーソル位置のテキストに対して編集が行われる。この編集カーソルの位置は、編集位置記憶手段225に記憶されている。
一方、音声再生手段221は、書き起こし作業者の音声再生指示に従って音声記憶手段212に記憶されている音声データを再生する。このとき、再生している音声の時刻は、音声再生時刻記憶手段224に記憶されている。書き起こし作業者は、再生している音声を聞き取ることで編集作業を進めていく。
同期手段223は、同期指示に従って編集位置記憶手段225に記憶されている編集カーソルの位置と、音声再生時刻記憶手段224に記憶されている音声再生時刻とを同期させる。これは、認識結果記憶手段213に記憶されている認識結果テキストと音声データとの対応づけを参照することで可能となる。
すなわち、音声再生時刻を編集カーソルの位置に同期させる場合は、編集カーソルが置かれている認識結果単語の時刻に音声再生時刻を合わせれば良い。このように音声再生時刻を編集カーソルの位置に同期させることにより、書き起こし作業者は、これから編集するために編集カーソルを置いているテキストに対応する音声を素早く聞いて確認することができる。
また、これとは逆に、編集カーソルの位置を音声再生時刻に同期させる場合は、再生している音声に対応する認識結果テキストの上に編集カーソルを合わせれば良い。
このように編集カーソルの位置を音声再生時刻に同期させることにより、書き起こし作業者は、誤認識されている音声を聞いたらすぐに編集カーソルを編集すべきテキスト上に移動することができる。
以上述べたように、この従来の音声テキスト化システムでは、認識結果テキストと音声データとの対応づけを利用することで、編集カーソルの位置と音声再生時刻とを相互に同期させることができるため、書き起こし作業の効率が改善される。
特表2004−530205号公報
この従来の音声テキスト化システムの問題点は、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合に、編集後のテキストと音声データとを対応づけられない、ということである。
その理由は、編集が加えられたテキストに対しては詳細な時刻情報が付与されていないためである。
以下で、認識結果テキストに対して編集を加えた場合について、具体例を用いて説明する。
「次回の会議は二十六日の午前八時から開催致します」という発話が「次回」「の」「会議」「は」「二重」「路」「に」「地」「の」「全」「八」「字」「から」「開催」「致し」「ます」と認識された場合を考える。
認識結果テキストは鍵括弧で括られたように単語単位で出力されており、各単語「次回」「の」「会議」などに対してそれぞれ時刻情報が付与されている。したがって、この時点では、編集カーソルがどの単語上にあっても編集カーソルの位置に音声再生時刻を同期させることができるし、また、逆に、音声再生時刻がどこであっても音声再生時刻に対応する単語上に編集カーソルを同期させることができる。
しかし、書き起こし作業者が「二重」「路」「に」「地」「の」「全」「八」「字」という誤認識部分を削除して、「二十六日の午前八時」と打ち込んで編集した場合を考えると問題が生じる。
この時点で、編集後の「二十六日の午前八時」に対しては詳細な時刻情報が失われており、その結果、編集後のテキストと音声データとの対応づけが得られなくなっている。例えば、編集後のテキスト中の「午前」の時刻情報が得られないため、対応する音声データがどこであるかが分からない。したがって、編集カーソルが「午前」の上に置かれているときに音声再生時刻を同期させることはできないし、また、逆に、「午前」の音声を再生しているときに編集カーソルを「午前」という編集後のテキスト上に同期させることもできない。
このように、編集後のテキストと音声データとを対応づけられないと、書き起こし作業者が編集箇所を再度確認したいと思ったときに、編集カーソルと音声再生時刻との同期機能を利用することができず、作業の効率が低下してしまう。
また、ある作業者が編集した書き起こしテキストを別の作業者がクロスチェックすることは一般的に広く行われているが、そのような場合でも、同様の問題が生じる。
そこで、本発明は、音声の書き起こし作業において、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供することをその目的とする。
本発明の音声テキスト化システムは、編集手段により得られた編集結果テキストに含まれる文字と音声認識手段により生成された時刻情報つきの音声認識結果に含まれる文字とを対応づけるマッチング手段と、このマッチング手段によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント手段とを備えている。ここで、時刻情報とは、音声データ中の基準点(たとえばデータの先頭)からの経過時間や経過フレーム数などで、音声データ中の位置を表したものである(請求項1ないし請求項5)。
上記音声テキスト化システムによれば、マッチング手段により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント手段が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。
上記音声テキスト化システムにおいて、音声認識結果は表記から構成するようにし、マッチング手段は、編集結果テキストと音声認識結果とを表記の整合により対応づけるようにしてもよい(請求項2)。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
上記音声テキスト化システムにおいて、音声認識結果はサブワード列として構成するようにするとともに、編集結果テキストをサブワード列に変換するサブワード変換手段を備え、マッチング手段は、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけるようにしてもよい(請求項3)。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
上記音声テキスト化システムにおいて、サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換するようにしてもよい(請求項4)。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
上記音声テキスト化システムにおいて、サブワード変換手段は、編集手段に入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換するようにしてもよい(請求項5)。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
本発明の音声テキスト化方法は、書き起こしの対象となる音声データを音声認識してテキストに変換するとともにこのテキストに時刻情報を付加して音声認識結果を生成する音声認識工程と、音声データの書き起こし結果となる編集結果テキストを生成する編集工程と、編集結果テキストに含まれる文字と音声認識結果に含まれる文字とを対応づけるマッチング工程と、このマッチング工程によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント工程とを備えている(請求項6ないし請求項10)。
上記音声テキスト化方法によれば、マッチング工程により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント工程が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができる。
上記音声テキスト化方法において、音声認識結果は表記から構成し、マッチング工程では、編集結果テキストと音声認識結果とを表記の整合により対応づけしてもよい(請求項7)。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
上記音声テキスト化方法において、音声認識結果はサブワード列として構成するようにし、マッチング工程が作動する前に編集結果テキストをサブワード列に変換するサブワード変換工程を備えるようにし、マッチング工程では、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけしてもよい(請求項8)。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
上記音声テキスト化方法において、サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい(請求項9)。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
上記音声テキスト化方法において、サブワード変換工程では、編集工程で入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換してもよい(請求項10)。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
本発明の音声テキスト化用プログラムは、書き起こしの対象となる音声データを音声認識してテキストに変換するとともにこのテキストに時刻情報を付加して音声認識結果を生成する音声認識機能と、音声データの書き起こし結果となる編集結果テキストを生成する編集機能と、編集結果テキストに含まれる文字と音声認識結果に含まれる文字とを対応づけるマッチング機能と、このマッチング機能によって得られた対応づけ結果を参照することで編集結果テキストに含まれる文字と音声データとを時刻情報により対応づけるアライメント機能とをコンピュータに実行させる(請求項11ないし請求項15)。
上記音声テキスト用プログラムによれば、マッチング機能により得られた編集結果テキストと音声認識結果との対応づけを利用して、アライメント機能が編集結果テキストの時刻情報を利用することなく編集結果テキストと音声データを対応付けて、編集結果テキストのある部分が音声データのどの部分に対応するかを知ることができる。
そのため、コンピュータを、音声の書き起こし作業において、認識結果テキストに対して編集を加えたり、新規にテキストを編集したりすることにより、編集結果テキストの一部または全部が時刻情報を持たなくなった場合でも、編集結果テキストと音声データとを対応づけることができるシステムとして動作させることができる。
上記音声テキスト化用プログラムにおいて、音声認識結果は表記から構成するようにし、マッチング機能は、編集結果テキストと音声認識結果とを表記の整合により対応づけしてもよい(請求項12)。
このようにすれば、編集結果テキストは通常、表記によって書き起こされることから、編集結果テキストと音声認識結果とを簡単に対応づけることができる。
上記音声テキスト化用プログラムにおいて、音声認識結果はサブワード列として構成するようにし、マッチング機能が作動する前に編集結果テキストをサブワード列に変換するサブワード変換機能をコンピュータに実行させるとともに、マッチング機能は、サブワード列に変換後の編集結果テキストと音声認識結果とをサブワードの整合により対応づけしてもよい(請求項13)。
このようにすれば、一般に音声認識では、表記における認識精度が低い場合でも音素などのサブワードの単位での正解率は比較的高いため、表記の整合性により対応づけをした場合に比べ、より高い精度で音声データと編集結果テキストを対応づけることができる。
上記音声テキスト化用プログラムにおいて、サブワード変換機能は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい(請求項14)。
このようにすれば、処理対象が、例えば日本語のようにテキストを単語単位で分かち書きしない言語の場合でも、形態素辞書が備えている読み情報を利用して編集結果テキストをサブワード列に変換することができる。
上記音声テキスト化用プログラムにおいて、サブワード変換機能は、編集機能に入力されたかな漢字変換前のかな文字列を参照することで、編集結果テキストをサブワード列に変換してもよい(請求項15)。
このようにすれば、かな文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
本発明によれば、時刻情報が付与されていない編集結果テキストを、時刻情報が付与されている認識結果に対応づけることにより、編集結果テキスト上でも時刻情報を得ることができる。
そのため、音声の書き起こし作業において、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。
本発明の第1の実施形態である音声テキスト化システム1の構成と動作について、図面を参照して詳細に説明する。
図1は、音声テキスト化システム1の機能ブロック図である。
図1を参照すると、音声テキスト化システム1は、音声認識装置10と、編集装置20とを備えている。
音声認識装置10は、音声認識手段11と、音声記憶手段12と、認識結果記憶手段13とを備えている。
編集装置20は、編集手段22と、編集位置記憶手段25と、編集結果記憶手段26と、音声再生手段21と、音声再生時刻記憶手段24と、マッチング手段27と、アライメント手段28と、同期手段23とを備えている。
音声記憶手段12は、テキスト化の対象となる音声データを記憶する。音声データは、例えば、アナログの音声信号を所定のサンプリング周波数でサンプリングし、各サンプリング値を量子化することでデジタル化したデータである。
音声認識手段11は、音声記憶手段12から音声データを読み込んで認識し、認識結果を認識結果記憶手段13に出力する。このとき、認識結果の時刻情報も認識結果記憶手段13に記憶する。
編集手段22は、書き起こし結果となるテキストを編集するためのテキストエディタで、認識結果記憶手段13から認識結果テキストを読み込み、書き起こし作業者の編集指示に従ってテキストを編集し、編集後のテキストを編集結果記憶手段26に記憶する。
編集位置記憶手段25は、テキスト上の編集位置を記憶する。
音声再生手段21は、書き起こし作業者の音声再生指示に従って、音声記憶手段12に記憶されている書き起こし対象となる音声データを再生する。
音声再生時刻記憶手段24は、音声再生手段21が再生している音声の時刻を記憶する。
マッチング手段27は、編集結果記憶手段26に記憶されている編集結果テキストと、認識結果記憶手段13に記憶されている時刻情報付きの認識結果との対応づけを行う。
アライメント手段28は、マッチング手段27による対応づけ結果を参照することで、編集結果記憶手段26に記憶されている編集結果テキストと音声記憶手段12に記憶されている音声データとの対応づけを行う。
同期手段23は、同期指示に従って、アライメント手段28による対応づけ結果を参照することで、編集位置記憶手段25に記憶されている編集位置と音声再生時刻記憶手段24に記憶されている音声再生時刻とを同期させる。
上記の、音声記憶手段12、認識結果記憶手段13、音声再生時刻記憶手段24、編集位置記憶手段25、編集結果記憶手段26は、それぞれ、磁気ディスク装置や半導体メモリ等の記憶装置で構成されている。
次に、図1および図2のフローチャートを参照して音声テキスト化システム1全体の動作について詳細に説明する。
音声認識手段11は、音声記憶手段12に記憶されている音声データを読み込んで認識し、認識結果を認識結果記憶手段13に出力する(図2のS101)。このとき、音声認識手段11は、音声認識結果として表記情報だけではなく、認識結果と音声データとを対応づけるための時刻情報を付随させて出力する。
例えば、認識結果の表記は「次回の会議は二重路に地の全八字から開催致します」であり、「次回」は音声データ中の時刻0.1〜0.4秒、「の」は音声データ中の時刻0.4〜0.5秒、…に対応している、というような情報を出力して記憶する(図3参照)。
音声認識処理は、例えば、特徴量としてMFCC(Mel-scale Frequency Cepstral Coefficients)を用い、音響モデルとして隠れマルコフモデル、言語モデルとして単語N-gramモデルを使った一般的な大語彙連続音声認識技術によって実現する。
編集手段22は、書き起こし作業者が音声をテキスト化するためのテキストエディタであり、テキスト上の編集位置が編集位置記憶手段25に記憶されている。すなわち、編集位置記憶手段25に記憶されている編集位置のテキストが、作業者によるキーボード入力等によって編集される(図2のS102)。このとき、編集位置に相当する文字を反転表示したり、文字の下に下線を表示したりすることにより、書き起こし作業者が編集位置を確認できるようにすることが好ましい。
編集手段22によって編集された編集結果テキストは、編集結果記憶手段26に記憶する。
なお、本実施例では、編集手段22は、編集開始前に、認識結果記憶手段13に記憶されている認識結果テキストを読み込み、認識結果中の誤り箇所を編集していくと仮定しているが、認識結果を読み込まずに何もテキストが存在しない状態から新規に書き起こしを行うことも可能である。
音声再生手段21は、書き起こし作業者のキーボード等による音声再生指示に従って、音声記憶手段12に記憶されている書き起こし対象となる音声データを再生し、スピーカ等の出力装置から出力する。
書き起こし作業者は、音声再生手段21によって再生される音声を聞きとって書き起こしを行う。このとき、再生している音声の時刻は、音声再生時刻記憶手段24に記憶する。また、音声再生時刻記憶手段24に記憶されている音声再生時刻が後述する同期手段23によって書き換えられた場合、音声再生手段21は、新しく書き換えられた時刻の音声を再生する。
同期手段23は、書き起こし作業者の同期指示があるかどうかを判定し(図2のS103)、同期指示があれば、同期処理を実行する。この同期処理には、音声再生時刻を編集位置に同期させる場合と、編集位置を音声再生時刻に同期させる場合の2通りの同期がある。すなわち、前者の同期処理は、編集位置のテキストに対応する音声データの再生を可能とし、後者の同期処理は、音声が再生されている場所に対応するテキスト上に編集位置を移動することを可能とする。
同期手段23がこれらの同期指示を受けた(図2のS103の判定がイエスの)ときには、まず、マッチング手段27が、編集結果記憶手段26に記憶されている編集結果テキストと認識結果記憶手段13に記憶されている認識結果との対応づけを行う(図2のS104)。
次に、アライメント手段28が、マッチング手段27による対応づけ結果を参照することで、編集結果記憶手段26に記憶されている編集結果テキストと音声記憶手段12に記憶されている音声データとの対応づけを行う(図3のS105)。
次に、具体例を用いてマッチング手段27およびアライメント手段28による対応づけの動作を詳細に説明する。
「次回の会議は二十六日の午前八時から開催致します」という発話が、音声認識手段11により「次回の会議は二重路に地の全八字から開催致します」と認識され、書き起こし作業者が、「二重路に地の全八字」という誤認識箇所を「二十六日の午前八時」と編集した場合を例に説明する。
図3は、上記の例におけるマッチング手段27、アライメント手段28の動作を示す図である。
マッチング手段27は、編集結果テキスト「次回の会議は二十六日の午前八時から開催致します」と、認識結果の表記「次回の会議は二重路に地の全八字から開催致します」とを図3で示したように対応づける(図2のS104)。この対応づけは、公知の技術であるダイナミックプログラミング(DP:Dynamic Programming)によるマッチングを表記文字単位で実行することによって得ることができる。
すなわち、編集結果テキスト「二十六日の午前八時」と認識結果の表記「二重路に地の全八字」の両方に存在する「二」「の」「八」などの表記文字によって対応がとられる。
このように、編集結果テキストと認識結果との対応づけが得られると、認識結果には時刻情報が付随しているため、アライメント手段28は、編集結果テキストと音声データとの対応づけをとることができる(図2のS105)。たとえば、図3の編集結果テキストの位置P1は認識結果の位置P2に対応し、P2は音声データの時刻t3に対応しているから、P1をt3に対応付けることができる。
同期手段23は、アライメント手段28による編集結果テキストと音声データとの対応づけを参照することで、編集位置や音声再生時刻がいかなる場所にあっても、音声再生時刻を編集位置に同期させること、および、編集位置を音声再生時刻に同期させることが可能となる(図2のステップS106)。
以上で説明したような、書き起こしテキストの編集(図2のS102)と、編集結果テキストと音声データとの対応づけ(図2のS104、S105)と、編集位置と音声再生時刻との同期処理(図2のS106)とを書き起こしテキストの編集が終了するまで繰り返し実行する(図2のS107)。書き起こしテキストが完成すると処理全体が終了する。
なお、以上の説明では、マッチング手段27、アライメント手段28による編集結果テキストと音声データとの対応づけ処理(図2のS104、S105)は、作業者の同期指示があった場合に行っているが、この対応づけを書き起こしテキストが編集されたタイミングで随時実行しても良い。
すなわち、図2のS102とS103との間でS104、S105を実行しておいても良い。この場合、同期指示があった場合には即座に同期手段23による同期処理(図2のS106)が実行される。
次に、本実施の形態の効果について説明する。
音声テキスト化システム1では、マッチング手段27が時刻情報が付与されていない編集結果テキストと時刻情報が付与されている認識結果とを対応づけることにより、アライメント手段28は、認識結果テキストに対して編集を加えた場合や、新規にテキストを編集した場合でも、編集結果テキストと音声データとを対応づけることができる。
その結果、同期手段23は、編集位置や音声再生時刻がいかなる場所にあっても両者の同期をとることが可能となり、書き起こし作業の効率が大幅に向上する。
次に、本発明の第2の実施形態である音声テキスト化システム2の構成と動作について、図面を参照して詳細に説明する。
図4は、音声テキスト化システム2の機能ブロック図である。
音声テキスト化システム2の基本的な構成および動作は、図1の音声テキスト化システム1と同一であるが、図4のマッチング手段30は、表記文字の整合により対応づけるのではなく、音素や音節などのサブワードの整合により対応づける点、および図4の音声認識手段11aは、音声認識結果を時刻情報付きのサブワード列として出力し、認識結果記憶手段13に記憶する点が異なる。
それ以外の各部の構成と動作は、図1の音声テキスト化システム1と同一であるため、ここではその詳細な説明を省略する。
図5を参照すると、本実施の形態におけるマッチング手段30は、サブワード変換手段31と、サブワードマッチング手段32とを備えている。
次に、具体例によって、マッチング手段30の動作について詳細に説明する。本実施の形態は、マッチング手段30が、編集結果テキストと認識結果とをサブワードの整合により対応づけるところに特徴がある。ここで、サブワードとは、音素や音節等の基本的な音響単位のことである。
以下では、サブワードとして音素を採用した場合を例に説明するが、音節等の他の基本的な音響単位を用いても同じである。
前述の例と同様に、「次回の会議は二重路に地の全八字から開催致します」という認識結果を持つ発話に対して、「次回の会議は二十六日の午前八時から開催致します」と編集した場合を考える。認識結果としては、「j i k a i n o k a i g i w a n i j u: r o n i ch i n o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列とその時刻情報も出力し、認識結果記憶手段13に記憶する。
音声認識処理では一般に、認識結果中の各単語を構成する音素列や音節列の情報を持っているため、認識結果を音素列として出力することは簡単に実現できる。
サブワード変換手段31は、表記で構成された編集結果テキストを音素列に変換する。すなわち、「次回の会議は二十六日の午前八時から開催致します」という編集結果テキストを「j i k a i n o k a i g i w a n i j u: r o k u n i ch i n o g o z e N h a ch i j i k a r a k a i s a i i t a sh i m a s u」という音素列に変換する。
サブワードマッチング手段32は、サブワード変換手段によって変換された編集結果テキストの音素列と、認識結果記憶手段13に記憶された認識結果の音素列とを対応づける。
この様子を示したのが図6であり、サブワードで対応づけることによって、表記で対応づけるよりも認識誤りに頑健で正確な対応づけが可能となる。なぜならば、一般に音声認識では、表記では誤認識をしている場合でも、音素などのサブワードでは正解していることが多い、という特徴があるためである。
例えば、図6の例では、表記レベルでは「十」を「重」に、「時」を「字」に誤認識しており、これらは表記の整合ではマッチしないが、音素で整合することで両者が正しくマッチすることが分かる。
なお、音素列同士の対応づけは、公知の技術であるDPマッチングなどの手法を用いれば良い。
次に、サブワード変換手段31で、編集結果テキストをサブワード列に変換する方法について説明する。
書き起こし対象の言語が英語のように単語単位で分かち書きされている言語であれば、発音記号が付与されている単語辞書を参照することで、編集結果テキストをサブワード列に変換することが可能である。しかし、書き起こし対象の言語が日本語のように単語単位で分かち書きされていない言語の場合は、編集結果テキストを直接サブワード列に変換することができない。
以下では、書き起こし対象が日本語である場合に、編集結果テキストをサブワード列に変換する方法について説明する。
図7は、日本語の編集結果テキストをサブワード列に変換するサブワード変換手段31の一例を示すブロック図である。
図7に示すサブワード変換手段31は、形態素解析手段33と、読み情報付き形態素解析辞書記憶手段34とを備えている。
形態素解析手段33は、編集結果記憶手段26から入力された編集結果テキスト、すなわち「次回の会議は二十六日の午前八時から開催致します」に対して、公知の技術である形態素解析を実行する。
このとき、形態素解析手段33は、読み情報付き形態素解析辞書記憶手段34を参照して形態素解析を行うため、入力された編集結果テキストの読み情報、すなわち「じかい の かいぎ わ に じゅー ろく にち の ごぜん はち じ から かいさい いたし ます」を得ることができる。読み情報から音素や音節などのサブワードに変換することは容易であるため、以上の方法により、編集結果テキストをサブワード列に変換することができる。
また、サブワード変換手段31で、編集結果テキストをサブワード列に変換する別の方法として、編集手段22に対する書き起こし作業者のキーボード入力を記憶しておく方法をとることもできる。
すなわち、キーボードによる一般的な日本語入力においては、かな文字、すなわち読み情報を入力して漢字変換を施すため、キーボード入力を記憶しておくことで、編集結果テキストの読み情報を得ることができる。
前述の例では、「二十六日」と打ち込むために、キーボードを例えば、「n i j y u u r o k u n i c h i (にじゅうろくにち)」と打ち込んでから漢字変換を施す。キーボード入力から得られたこの読み情報も編集結果記憶手段26に記憶しておくことで、サブワード変換手段31は、編集結果テキストをサブワード列に変換することができる。
なお、以上の説明では、サブワード変換手段31はマッチング手段30に含まれていたが、サブワード変換手段は、編集手段22に含まれていても良い。
この場合、書き起こしテキストが編集されたタイミングで編集結果テキストのサブワード列への変換がなされ、変換されたサブワード列も編集結果記憶手段26に記憶される。
したがって、マッチング手段30は、編集結果テキストと認識結果とをサブワードの整合により対応づけることが可能となる。
次に、本実施の形態の効果について説明する。
音声テキスト化システム2では、マッチング手段30が、編集結果テキストと認識結果とを基本的な音響単位であるサブワードの整合によって対応づけるため、書き起こし対象となる音声データの認識精度が低い場合でも、編集結果テキストと音声データとを高い精度で対応づけることができる。
次に、本発明の第3の実施形態であるコンピュータ3の構成と動作について、図面を参照して詳細に説明する。
図8は、本発明の第1の実施の形態および第2の実施の形態をプログラムにより構成した場合に、そのプログラムにより制御されるコンピュータ3の構成図である。
図8を参照すると、コンピュータ3は、MPU(Micro Processing Unit)等を含んで構成されるデータ処理装置50と、磁気ディスクや半導体メモリ等で構成される記憶装置40と、液晶ディスプレイやスピーカ等の出力装置およびキーボードやマウス等の入力装置を備えた入出力装置60と、音声テキスト化用プログラム70とを備えている。
記憶装置40は、音声記憶手段41、認識結果記憶手段42、編集位置記憶手段43、音声再生時刻記憶手段44、編集結果記憶手段45などとして使用される。
音声テキスト化用プログラム70は、データ処理装置50に読み込まれ、データ処理装置50の動作を制御することにより、データ処理装置50上に前述した各実施の形態における機能手段を実現する。
すなわち、データ処理装置50は、音声テキスト化用プログラム70の制御により、音声認識手段11および11a、音声再生手段21、編集手段22、同期手段23、マッチング手段27および30、アライメント手段28と同一の処理を実行する。
本発明によれば、会議や講演の議事録を作成するための音声のテキスト化作業、或いは、映画やテレビ番組の字幕作成などの業務において、作業者の負担を軽減して作業の効率を改善する、といった用途に適用できる。
本発明の第1の実施形態である音声テキスト化システムの構成を示すブロック図である。 図1の音声テキスト化システムの動作を示す流れ図である。 図1のマッチング手段の動作の具体例を示す図である。 本発明の第2の実施形態である音声テキスト化システムの構成を示すブロック図である。 図4のマッチング手段の構成を示すブロック図である。 図4のマッチング手段の動作の具体例を示す図である。 図5のサブワード変換手段の構成例を示すブロック図である。 本発明の第3の実施形態であるコンピュータの構成を示すブロック図である。 従来の音声テキスト化システムの構成を示すブロック図である。
符号の説明
1、2 音声テキスト化システム
3 コンピュータ
10 音声認識装置
11、11a 音声認識手段
12 音声記憶手段
13 認識結果記憶手段
20 編集装置
21 音声再生手段
22 編集手段
23 同期手段
24 音声再生時刻記憶手段
25 編集位置記憶手段
26 編集結果記憶手段
27、30 マッチング手段
28 アライメント手段
31 サブワード変換手段
32 サブワードマッチング手段
33 形態素解析手段
34 読み情報付き形態素解析辞書記憶手段
40 記憶装置
41 音声記憶手段
42 認識結果記憶手段
43 編集位置記憶手段
44 音声再生時刻記憶手段
45 編集結果記憶手段
50 データ処理装置
60 入出力装置
70 音声テキスト化用プログラム
200 音声テキスト化装置
210 音声認識装置
211 音声認識手段
212 音声記憶手段
213 認識結果記憶手段
220 編集装置
221 音声再生手段
222 認識結果編集手段
223 同期手段
224 音声再生時刻記憶手段
225 編集位置記憶手段
226 編集結果記憶手段

Claims (15)

  1. 音声データの書き起こし結果となる編集結果テキストを生成する編集手段を備えた音声テキスト化システムにおいて、
    前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識手段と、
    前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング手段と、
    このマッチング手段によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント手段とを備えたことを特徴とする音声テキスト化システム。
  2. 前記音声認識結果は表記から構成され、
    前記マッチング手段は、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけること
    を特徴とする請求項1に記載の音声テキスト化システム。
  3. 前記音声認識結果はサブワード列として構成され、
    前記編集結果テキストをサブワード列に変換するサブワード変換手段を備え、
    前記マッチング手段は、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項1に記載の音声テキスト化システム。
  4. 前記サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項3に記載の音声テキスト化システム。
  5. 前記サブワード変換手段は、前記編集手段に入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項3に記載の音声テキスト化システム。
  6. 音声データの書き起こし結果となる編集結果テキストを生成する編集工程を備えた音声テキスト化方法において、
    前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識工程と、
    前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング工程と、
    このマッチング工程によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント工程とを備えたことを特徴とする音声テキスト化方法。
  7. 前記音声認識結果は表記から構成され、
    前記マッチング工程では、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけることを特徴とする請求項6に記載の音声テキスト化方法。
  8. 前記音声認識結果はサブワード列として構成され、
    前記マッチング工程が作動する前に前記編集結果テキストをサブワード列に変換するサブワード変換工程を備え、
    前記マッチング工程では、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項6に記載の音声テキスト化方法。
  9. 前記サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項8に記載の音声テキスト化方法。
  10. 前記サブワード変換工程では、前記編集工程で入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項8に記載の音声テキスト化方法。
  11. 音声データの書き起こし結果となる編集結果テキストを生成する編集機能をコンピュータに実行させる音声テキスト化用プログラムにおいて、
    前記音声データを音声認識してテキストに変換するとともにこのテキストに前記音声データの時刻情報を付加して音声認識結果を生成する音声認識機能と、
    前記編集結果テキストに含まれる文字と前記音声認識結果に含まれる文字とを対応づけるマッチング機能と、
    このマッチング機能によって得られた対応づけ結果を参照することで前記編集結果テキストに含まれる文字と前記音声データとを時刻情報により対応づけるアライメント機能とを前記コンピュータに実行させることを特徴とする音声テキスト化用プログラム。
  12. 前記音声認識結果は表記から構成され、
    前記マッチング機能は、前記編集結果テキストと前記音声認識結果とを表記の整合により対応づけることを特徴とする請求項11に記載の音声テキスト化用プログラム。
  13. 前記音声認識結果はサブワード列として構成され、
    前記マッチング機能が作動する前に前記編集結果テキストをサブワード列に変換するサブワード変換機能を前記コンピュータに実行させるとともに、
    前記マッチング機能は、前記サブワード列に変換後の編集結果テキストと前記音声認識結果とをサブワードの整合により対応づけることを特徴とする請求項11に記載の音声テキスト化用プログラム。
  14. 前記サブワード変換機能は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする請求項13に記載の音声テキスト化用プログラム。
  15. 前記サブワード変換機能は、前記編集機能に入力されたかな漢字変換前のかな文字列を参照することで、前記編集結果テキストをサブワード列に変換することを特徴とする請求項13に記載の音声テキスト化用プログラム。
JP2005323993A 2005-11-08 2005-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム Pending JP2007133033A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005323993A JP2007133033A (ja) 2005-11-08 2005-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US12/089,619 US8155958B2 (en) 2005-11-08 2006-11-08 Speech-to-text system, speech-to-text method, and speech-to-text program
PCT/JP2006/322255 WO2007055233A1 (ja) 2005-11-08 2006-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005323993A JP2007133033A (ja) 2005-11-08 2005-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム

Publications (1)

Publication Number Publication Date
JP2007133033A true JP2007133033A (ja) 2007-05-31

Family

ID=38023235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005323993A Pending JP2007133033A (ja) 2005-11-08 2005-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム

Country Status (3)

Country Link
US (1) US8155958B2 (ja)
JP (1) JP2007133033A (ja)
WO (1) WO2007055233A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
WO2010146869A1 (ja) * 2009-06-18 2010-12-23 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP2013152365A (ja) * 2012-01-25 2013-08-08 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
JP2015127894A (ja) * 2013-12-27 2015-07-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 支援装置、情報処理方法、及び、プログラム
JP2015187733A (ja) * 2015-04-28 2015-10-29 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2016177311A (ja) * 2016-05-25 2016-10-06 株式会社東芝 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
US10061761B2 (en) 2016-07-22 2018-08-28 International Business Machines Corporation Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources
JP2020012855A (ja) * 2018-07-13 2020-01-23 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP2020154057A (ja) * 2019-03-19 2020-09-24 株式会社モアソンジャパン 音声データのテキスト編集装置及び音声データのテキスト編集方法
US12148432B2 (en) 2019-12-17 2024-11-19 Sony Group Corporation Signal processing device, signal processing method, and signal processing system

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US20100324895A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Synchronization for document narration
JP5014449B2 (ja) * 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US8554558B2 (en) 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
US8224654B1 (en) 2010-08-06 2012-07-17 Google Inc. Editing voice input
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
WO2016035069A1 (en) * 2014-09-01 2016-03-10 Beyond Verbal Communication Ltd System for configuring collective emotional architecture of individual and methods thereof
CN105869654B (zh) * 2016-03-29 2020-12-04 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
CN109949813A (zh) * 2017-12-20 2019-06-28 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
JP7096510B2 (ja) 2018-08-15 2022-07-06 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、表示装置、及び編集支援装置
CN111192579B (zh) * 2019-12-30 2022-09-23 思必驰科技股份有限公司 信息处理方法、信息控制中心设备及计算机可读存储介质
CN113571061A (zh) * 2020-04-28 2021-10-29 阿里巴巴集团控股有限公司 语音转写文本编辑系统、方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JP2003316375A (ja) * 2002-04-26 2003-11-07 Ricoh Co Ltd 分散ディクテーションシステム、プログラム及び記憶媒体
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0731677B2 (ja) * 1987-09-29 1995-04-10 シャープ株式会社 文書作成・校正支援装置
JP2937710B2 (ja) 1993-09-22 1999-08-23 日本電気株式会社 インクジェットプリンタ用印字検査装置
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JPH07210185A (ja) 1993-11-30 1995-08-11 Sony Corp 朗読情報作成装置および朗読装置
US5903867A (en) 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6535848B1 (en) * 1999-06-08 2003-03-18 International Business Machines Corporation Method and apparatus for transcribing multiple files into a single document
JP4323029B2 (ja) 1999-10-21 2009-09-02 ヤマハ株式会社 音声処理装置およびカラオケ装置
JP3470664B2 (ja) * 1999-12-01 2003-11-25 日本電気株式会社 受信メール表示方法及び絵文字変換機能付き電子メール端末装置
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
ATE286294T1 (de) 2001-03-29 2005-01-15 Koninkl Philips Electronics Nv Synchronisierung eines audio- und eines textcursors während der editierung
US7136803B2 (en) * 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
US20070244700A1 (en) * 2006-04-12 2007-10-18 Jonathan Kahn Session File Modification with Selective Replacement of Session File Components
US7881930B2 (en) * 2007-06-25 2011-02-01 Nuance Communications, Inc. ASR-aided transcription with segmented feedback training

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JP2003316375A (ja) * 2002-04-26 2003-11-07 Ricoh Co Ltd 分散ディクテーションシステム、プログラム及び記憶媒体
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
WO2010146869A1 (ja) * 2009-06-18 2010-12-23 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム
JP5533865B2 (ja) * 2009-06-18 2014-06-25 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム
US10304457B2 (en) 2011-07-26 2019-05-28 Kabushiki Kaisha Toshiba Transcription support system and transcription support method
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP2013152365A (ja) * 2012-01-25 2013-08-08 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
JP2015127894A (ja) * 2013-12-27 2015-07-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 支援装置、情報処理方法、及び、プログラム
JP2015187733A (ja) * 2015-04-28 2015-10-29 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2016177311A (ja) * 2016-05-25 2016-10-06 株式会社東芝 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
US10061761B2 (en) 2016-07-22 2018-08-28 International Business Machines Corporation Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources
JP2020012855A (ja) * 2018-07-13 2020-01-23 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP2020154057A (ja) * 2019-03-19 2020-09-24 株式会社モアソンジャパン 音声データのテキスト編集装置及び音声データのテキスト編集方法
US12148432B2 (en) 2019-12-17 2024-11-19 Sony Group Corporation Signal processing device, signal processing method, and signal processing system

Also Published As

Publication number Publication date
US8155958B2 (en) 2012-04-10
US20090048832A1 (en) 2009-02-19
WO2007055233A1 (ja) 2007-05-18

Similar Documents

Publication Publication Date Title
JP2007133033A (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US8949128B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US20130041669A1 (en) Speech output with confidence indication
US20050071163A1 (en) Systems and methods for text-to-speech synthesis using spoken example
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
US8155963B2 (en) Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
Demuynck et al. Automatic generation of phonetic transcriptions for large speech corpora.
JP2001343992A (ja) 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
Demenko et al. JURISDIC: Polish Speech Database for Taking Dictation of Legal Texts.
JP2014134640A (ja) 文字起こし装置およびプログラム
JP2011242637A (ja) 音声編集装置
JP5366050B2 (ja) 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
JP2000250401A (ja) 言語学習方法、言語学習装置およびプログラムを記録した媒体
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP3277579B2 (ja) 音声認識方法および装置
JP2009116107A (ja) 情報処理装置及び方法
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JPS6184771A (ja) 音声入力装置
Caballero-Morales On the development of speech resources for the mixtec language
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
Rajnoha et al. Czech spontaneous speech collection and annotation: The database of technical lectures

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100608