[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6470097B2 - 通訳装置、方法およびプログラム - Google Patents

通訳装置、方法およびプログラム Download PDF

Info

Publication number
JP6470097B2
JP6470097B2 JP2015087637A JP2015087637A JP6470097B2 JP 6470097 B2 JP6470097 B2 JP 6470097B2 JP 2015087637 A JP2015087637 A JP 2015087637A JP 2015087637 A JP2015087637 A JP 2015087637A JP 6470097 B2 JP6470097 B2 JP 6470097B2
Authority
JP
Japan
Prior art keywords
machine translation
translation result
words
result
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015087637A
Other languages
English (en)
Other versions
JP2016206929A (ja
Inventor
聡史 釜谷
聡史 釜谷
明子 坂本
明子 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015087637A priority Critical patent/JP6470097B2/ja
Priority to US15/064,965 priority patent/US9588967B2/en
Publication of JP2016206929A publication Critical patent/JP2016206929A/ja
Application granted granted Critical
Publication of JP6470097B2 publication Critical patent/JP6470097B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

実施形態は、通訳装置に関する。
近年、音声言語処理技術の進展によって、第1の言語による発話音声を第2の言語に変換して出力する音声通訳装置が注目されている。係る音声通訳装置は、会議および講演などにおける、通訳字幕の表示および通訳音声の付与に応用できる。例えば、第1の言語の発話音声の認識結果と、当該認識結果に対応する第2の言語による翻訳結果とが併記された対訳字幕を表示する会議システムが提案されている。
しかしながら、発話が開始してから当該発話に対応する翻訳結果の出力が開始するまでの遅延が問題になることがある。翻訳結果は、観者が内容を理解できるように一定時間に亘って継続的に出力する必要がある。そのため、翻訳結果が長い場合には、発話を重ねる毎に上記遅延が累積して大きくなることがある。例えば、講演などにおいて、話者が連続して発話をする場合に、話者の発話に対応する翻訳字幕の表示が徐々に遅れて、聴者が内容を理解することが困難になる恐れがある。
他方、翻訳結果の出力時間を単純に削減すると、内容の理解が困難になることがある。観者が一定時間に理解することのできる文字数および単語数には限界がある。そのため、翻訳結果の出力時間が短い場合には、観者が内容を理解する(または、読み終える)前に出力が終了する恐れがある。
特開2011−182125号公報
実施形態は、発話が開始してから当該発話に対応する翻訳結果の出力が開始するまでの遅延の累積的な増大を抑制することを目的とする。
実施形態によれば、通訳装置は、音声認識部と、翻訳部と、算出部と、生成部とを備える。音声認識部は、入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する。翻訳部は、音声認識結果を第1の言語から第2の言語に機械翻訳することによって機械翻訳結果を生成する。算出部は、機械翻訳結果が生成された第1の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第2の時刻とに基づいて、0個以上の単語数を算出する。生成部は、少なくとも単語数の単語を機械翻訳結果から省略することによって、発話音声に対応付けて出力される省略文を生成する。
第1の実施形態に係る通訳装置を例示するブロック図。 図1の通訳装置の動作を例示するフローチャート。 図2の省略文生成処理を例示するフローチャート。 図2の省略文生成処理を例示するフローチャート。 省略規則を例示する図。 図1の通訳装置の比較例に相当する通訳装置の動作結果を例示する図。 図1の通訳装置の動作結果を例示する図。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
以降の説明において、英語の発話音声から日本語のテキストに通訳を行うこととする。しかしながら、発話音声の言語および通訳されるテキストの言語はこれらに限定されず、様々な言語を使用することができる。さらに、実施形態は複数の言語を同時に通訳してもよい。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る通訳装置100は、音声入力部101と、音声認識部102と、機械翻訳部103と、単語数算出部104と、省略文生成部105と、出力部106と、制御部107とを備える。通訳装置100は、制御部107によって各部の動作が制御される。
音声入力部101は、話者の発話音声をディジタル音声信号の形式で入力する。音声入力部101として、例えばマイクロフォンなどの既存の音声入力デバイスが用いられてもよい。音声入力部101は、ディジタル音声信号を音声認識部102へと出力する。
音声認識部102は、音声入力部101からディジタル音声信号を入力する。音声認識部102は、ディジタル音声信号に音声認識処理を行うことによって、上記発話音声の内容を表すテキスト形式の音声認識結果を生成する。
音声認識部102は、例えば隠れマルコフモデル(Hidden Markov Model)などの種々の音声認識技術(Automatic Speech Recognition)を利用して処理を行うことができる。音声認識部102は、音声認識結果を機械翻訳部103へと出力する。
機械翻訳部103は、音声認識部102から音声認識結果を入力する。機械翻訳部103は、第1の言語(原言語と呼ぶこともできる)のテキストとしての音声認識結果を第2の言語(目的言語と呼ぶこともできる)のテキストへと機械翻訳することによって、テキスト形式の機械翻訳結果を生成する。
機械翻訳部103は、例えばトランスファ方式、用例ベース方式、統計ベース方式および中間言語方式などの種々の機械翻訳(Machine Translation)技術を利用して処理を行うことができる。機械翻訳部103は、機械翻訳結果を単語数算出部104および省略文生成部105へと出力する。
単語数算出部104は、機械翻訳部103から機械翻訳結果を入力する。単語数算出部104は、さらに、制御部107から後述される時刻データを読み出す。単語数算出部104は、機械翻訳結果が生成された時刻(第1の時刻)と、当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する時刻(第2の時刻)とに基づいて、0個以上の単語数(以降、省略単語数と称される)を算出する。単語数算出部104は、省略単語数を省略文生成部105へと出力する。
例えば、単語数算出部104は、機械翻訳結果が生成されてから当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了するまでの遅延時間(即ち、第1の時刻と第2の時刻との時間差)に基づいて、省略単語数を算出してもよい。または、単語数算出部104は、第1の時刻と、第2の時刻と、機械翻訳結果に含まれる総単語数に応じた時間長(後述される出力継続時間に相当)と、当該機械翻訳結果に対応する発話音声の入力が終了した第3の時刻と、当該発話音声の入力が終了してから省略文(後述される)の出力が終了するまでの許容遅延時間とに基づいて、省略単語数を算出してもよい。
或いは、単語数算出部104は、発話音声の入力が継続した時間長と、当該発話音声に対応する機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、省略単語数を算出してもよい。
省略文生成部105は、機械翻訳部103から機械翻訳結果を入力する。省略文生成部105は、さらに、単語数算出部104から省略単語数を入力する。省略文生成部105は、少なくとも省略単語数の単語(省略単語)を機械翻訳結果から省略することによって、省略文を生成する。省略文生成部105は、省略文を出力部106へと出力する。
具体的には、省略文生成部105は、図5に例示される省略規則に基づいて、機械翻訳結果に含まれる単語の中から省略単語を決定する。省略単語は、単語単位ではなく、例えば、1つの内容語と、その内容語に連続する0個以上の機能語とによって構成される単語群単位で決定されてもよい。省略文生成部105は、省略単語の総数が省略単語数以上となるか、全ての省略規則の適用が済むまで省略規則に基づく処理を繰り返す。省略文生成部105は、機械翻訳結果に対して同一の省略規則を適用可能な複数の省略単語の候補が見つかった場合、それぞれの候補の係り受け関係から最初に到達する共通単語を探し、共通単語からの距離が最も遠い候補を優先して省略してもよい。
尚、省略文生成部105は、特定分野における単語の重要度の評価、談話構造分析およびトピック分析などの文要約の技術を用いて、省略単語を決定してもよい。単語の重要度は、例えば情報の新旧および予め用意された単語リストなどに基づいて評価される。予め用意された単語リストは、例えば講演の資料に含まれる単語を手動または自動で抽出することによって作成されてよい。
さらに、省略文生成部105は、単語を削除する代わりに、視聴者の事前知識に基づいて、文字数の多い単語を文字数の少ない同義語(略語)に変換(例えば、「デスクトップパブリッシング」を「DTP」に変換)することで単語の省略を実現してもよい。略語への変換が許容される単語は、事前にリスト化されていてもよい。
出力部106は、省略文生成部105から省略文を入力する。出力部106は、例えばディスプレイなどの表示デバイスを用いて省略文のテキストを表示してもよいし、スピーカなどの音声出力デバイスを用いて省略文のテキストを音声出力してもよい。
出力部106の音声出力は、例えば音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成およびテキストトゥスピーチなどの種々の音声合成技術を利用して処理を行うことができる。
制御部107は、通訳装置100の各部を制御する。具体的には、制御部107は、通訳装置100の各部からのデータの受け渡しを行う。さらに、制御部107は、当該データの入出力の時刻(時刻データ)をそれぞれ取得する。
通訳装置100は、図2に例示されるように動作する。図2の処理は、話者が発話することで開始する。
音声入力部101は、話者の発話音声をディジタル音声信号の形式で入力する(ステップS201)。音声認識部102は、ステップS201において入力されたディジタル音声信号に音声認識処理を行うことによって、上記発話音声の内容を表すテキスト形式の音声認識結果を生成する(ステップS202)。
機械翻訳部103は、第1の言語のテキストとしての音声認識結果を第2の言語のテキストへと機械翻訳することによって、テキスト形式の機械翻訳結果iを生成する(ステップS203)。ステップS203の後に、省略文生成処理(ステップS204)が行われる。
省略文生成処理(ステップS204)の詳細が図3に例示される。省略文生成処理が開始すると、単語数算出部104は、ステップS203において生成された機械翻訳結果iを入力する(ステップP301)。
ステップP301の後に、機械翻訳結果iの総単語数に応じた時間長を表す出力継続時間tiを算出する(ステップP302)。出力継続時間tiは、例えば人間が1秒間に理解することのできる単語数を基準にして算出される。具体的には、人間が1秒間に理解することのできる単語数を4単語とすると、機械翻訳結果iの単語数が10単語の場合に、出力継続時間tiは2.5秒と算出される。尚、出力継続時間tiは、省略文を音声出力する場合には、音声合成によって生成される音声の出力に要する時間長として算出される。
ステップP303において、単語数算出部104は、機械翻訳結果iよりも過去に生成された他の機械翻訳結果に対応する省略文が存在する場合、機械翻訳結果iの生成が終了した時刻(翻訳終了時刻)と、他の機械翻訳結果に対応する省略文の出力が終了する時刻(出力終了時刻)とに基づいて先行出力継続時間tpを算出する。
例えば、単語数算出部104は、機械翻訳結果iの翻訳終了時刻から他の機械翻訳結果に対応する省略文の出力終了時刻までの時間差を先行出力継続時間tpとして算出してもよい。単語数算出部104は、他の機械翻訳結果に対応する省略文が存在しない場合、または、他の機械翻訳結果に対応する省略文の出力が完了している場合は、先行出力継続時間tpをゼロとする。
ステップP304において、単語数算出部104は、先行出力継続時間tpを省略時間toとして算出してもよい。或いは、単語数算出部104は、翻訳終了時刻に、機械翻訳結果に含まれる総単語数に応じた時間長(すなわち、出力継続時間ti)と先行出力継続時間tpとを足した時刻(すなわち、機械翻訳結果iの出力終了予定時刻)と、発話終了時刻に、発話終了時刻から省略文の出力終了時刻までの許容遅延時間を足した時刻との時間差を省略時間toとして算出してもよい。単語数算出部104は、省略時間toが負の値になる場合は、省略時間toをゼロとする。尚、許容遅延時間は、視聴者ごとに異なる値を設定してもよいし、システムとして初期値を設定してもよい。
ステップP305において、単語数算出部104は、省略時間toに対応する単語の数を表す省略単語数woを算出する。省略単語数woは、例えば人間が1秒間に理解することのできる単語数を基準にして算出される。具体的には、人間が1秒間に理解することのできる単語数を4単語とすると、省略時間toが0.5秒の場合に、省略単語数woは2単語と算出される。尚、省略単語数woは、省略文のテキストを音声出力する場合は、音声合成の読み上げ速度に応じて算出されてもよい。
ステップP306において、省略文生成部105は、少なくとも省略単語数woの単語を機械翻訳結果iから省略することによって、省略文dを生成する。尚、省略単語数woがゼロの場合は、機械翻訳結果iを省略文dとして生成する。
ステップP307において、省略文生成部105は、省略文dの総単語数に応じた時間長を表す出力継続時間tdを算出する。出力継続時間tdは、例えばステップP302と同様の方法で算出される。ステップP307の後に、図3の省略文生成処理は終了し、処理は図2のステップS205へと進む。
ステップS205において、出力部106は、省略文dを出力継続時間tdの期間にわたって出力する。ステップS205の後に、図2の処理は終了する。
他の実施例として、省略文生成処理(ステップS204)は、図4に例示されるように動作しても良い。省略文生成処理が開始すると、単語数算出部104は、ステップS203において生成された機械翻訳結果iを入力する(ステップP301)。
ステップP301の後に、機械翻訳結果iの総単語数に応じた時間長を表す出力継続時間tiを算出する(ステップP302)。
ステップP401において、単語数算出部104は、発話音声の入力が継続した時間長(入力継続時間)と出力継続時間tiとに基づいて、省略時間toの値を算出する。例えば、単語数算出部104は、出力継続時間tiから入力継続時間を減じた値を省略時間toとして算出してもよい。尚、ステップP305以降の処理は、上記の処理と同様であるため、説明を省略する。
尚、上記のステップにおいて、機械翻訳結果iの出力継続時間tiおよび省略文dの出力継続時間tdとして、総単語数に応じた時間長を算出しているが、総文字数に応じた時間長を算出してもよい。
第1の実施形態に係る通訳装置100の比較例に相当する通訳装置の動作結果の具体例が図6に示される。この通訳装置の動作は、発話音声に対応する機械翻訳結果を出力する。図6の音声認識結果に示される一連の発話が、発話開始時刻の順に処理される。一連の発話に対応する機械翻訳結果は、翻訳終了時刻に生成される。図6は、音声認識結果に対応する機械翻訳結果の出力開始時刻および出力終了時刻などを示す。
図6の動作結果は、機械翻訳結果を単純に出力しており、現行の発話と現行の発話に対応する機械翻訳結果の出力とにずれが生じている。例えば、7番目の発話「Do you know what element is the most important for modern systems?」に対応する機械翻訳結果「どの要素が現代のシステム用の最も重要なものか知っていますか。」の出力開始時刻(12:00:24.050)は、7番目の発話終了時刻(12:00:20.600)からおよそ3.5秒後となる。さらに、7番目の機械翻訳結果は、8番目の発話「Yes, that is, yeah, modularity.」の発話終了時刻(12:00:22.600)よりも後に出力される。従って、発話と当該発話に対応する機械翻訳結果との対応関係が取りづらくなり、発話の理解を阻害する恐れがある。
第1の実施形態に係る通訳装置100の動作結果の具体例が図7に示される。図7の音声認識結果に示される一連の発話が、発話開始時刻の順に処理される。一連の発話に対応する機械翻訳結果(図示せず)は、翻訳終了時刻に生成される。図7は、音声認識結果に対応する省略文の出力開始時刻および出力終了時刻などを示す。
以下では、第1の実施形態に係る通訳装置100の動作結果を、図2および図3のフローチャートを参照しながら、図7に基づいて説明する。図7の例は、単語数算出部104において、機械翻訳結果iの翻訳終了時刻から当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に対応する省略文の出力終了時刻までの時間差を先行出力継続時間tpとして算出している。尚、図示されない機械翻訳結果は図6と同様であり、一部のステップについては説明を省略する。
1番目の発話について、機械翻訳部103は、1番目の音声認識結果「When I was young,」を機械翻訳することによって、1番目の機械翻訳結果「私が若かった頃」を生成する(ステップS203)。
単語数算出部104は、1番目の機械翻訳結果の形態素の数(以下、単語数とする)が5であるため、出力継続時間を1.25秒と算出する(ステップP302)。単語数算出部104は、1番目の機械翻訳終了時刻(12:00:01.200)において、1番目の機械翻訳結果よりも過去に生成された他の機械翻訳結果が存在しないことから、先行出力継続時間tpをゼロとする(ステップP303)。単語数算出部104は、省略時間toをゼロとし(ステップP304)、省略単語数woもゼロとする(ステップP305)。
省略文生成部105は、省略する単語がないことから、1番目の機械翻訳結果を1番目の省略文として生成する(ステップP306)。省略文生成部105は、1番目の省略文の出力継続時間を1.25秒と算出する(ステップP307)。出力部106は、1番目の省略文を、1番目の機械翻訳終了時刻から1.25秒間にわたって出力する(ステップS205)。
2番目の発話について、機械翻訳部103は、2番目の音声認識結果「I met a great book called “The Art of System Development”」を機械翻訳することによって、2番目の機械翻訳結果「私は『システム開発の技術』と呼ばれる素晴らしい本に会いました。」を生成する(ステップS203)。
単語数算出部104は、2番目の機械翻訳結果の単語数が15であるため、出力継続時間を3.75秒と算出する(ステップP302)。単語数算出部104は、2番目の機械翻訳終了時刻(12:00:04.800)において、1番目の機械翻訳結果(1番目の省略文)の出力が完了していることから、先行出力継続時間tpをゼロとする(ステップP303)。故に、単語数算出部104は、省略時間toをゼロとし(ステップP304)、省略単語数woもゼロとする(ステップP305)。
省略文生成部105は、省略する単語がないことから、2番目の機械翻訳結果を2番目の省略文として生成する(ステップP306)。省略文生成部105は、2番目の省略文の出力継続時間を3.75秒と算出する(ステップP307)。出力部106は、2番目の省略文を、2番目の機械翻訳終了時刻から3.75秒間にわたって出力する(ステップS205)。
3番目の発話について、機械翻訳部103は、3番目の音声認識結果「which is known as programmers’ bible.」を機械翻訳することによって、3番目の機械翻訳結果「それはプログラマの聖書として知られています。」を生成する(ステップS203)。
単語数算出部104は、3番目の機械翻訳結果の単語数が12であるため、出力継続時間を3秒と算出する(ステップP302)。単語数算出部104は、3番目の機械翻訳終了時刻(12:00:07.400)において、2番目の省略文が出力中(12:00:04.800〜12:00:08.550)であることから、先行出力継続時間tpを算出する(ステップP303)。先行出力継続時間tpは、2番目の省略文の出力終了時刻(12:00:08.550)から3番目の機械翻訳終了時刻を減じた1.15秒となる。単語数算出部104、先行出力継続時間tpを省略時間toとして算出し(ステップP304)、省略単語数woを4.6と算出する(ステップP305)。
省略文生成部105は、図5に例示される「3. 主語代名詞」の規則を適用し、3番目の機械翻訳結果の「それは」を省略単語とする。従って、省略される単語数は、「それ/は」の2単語と算出される。省略文生成部105は、全ての適用される省略規則が済んだことから、省略文「プログラマの聖書として知られています」を生成する(ステップP306)。
省略文生成部105は、3番目の機械翻訳結果に対する省略文(3番目の省略文)の単語数が10であるため、出力継続時間を2.5秒と算出する(ステップP307)。出力部106は、3番目の省略文を、2番目の省略文の出力終了時刻から2.5秒間にわたって出力する(ステップS205)。
4番目の発話について、機械翻訳部103は、4番目の音声認識結果「It was written by, you know, a famous engineer.」を機械翻訳することによって、4番目の機械翻訳結果「それは、ご存じの様に、有名なエンジニアによって書かれました。」を生成する(ステップS203)。以降の処理は、3番目の発話に対する処理と同様であるため、それぞれのステップで得られる値のみを示し、説明を省略する。単語数算出部104は、機械翻訳結果の出力継続時間を4秒(ステップP302)、先行出力継続時間および省略時間を0.55秒(ステップP303,304)、省略単語数を2.2(ステップP305)とそれぞれ算出する。
省略文生成部105は、図5に示される「1. 間投詞」の規則を適用し、4番目の機械翻訳結果の「ご存じの様に」を省略単語とする。従って、省略される単語数は、「ご存じ/の/様/に」の4単語と算出される。省略文生成部105は、省略単語の総数が省略単語数以上となることから、省略文「それは、有名なエンジニアによって書かれました。」を生成する(ステップP306)。
省略文生成部105は、4番目の機械翻訳結果に対する省略文(4番目の省略文)の単語数が12であるため、出力継続時間を3秒と算出する(ステップP307)。出力部106は、4番目の省略文を、3番目の省略文の出力終了時刻から3秒間にわたって出力する(ステップS205)。尚、5番目以降の発話の処理は、上記の処理と同様であるため、説明を省略する。
図7の動作結果は、適切な省略文を生成することによって、現行の発話と現行の発話に対応する省略文の出力とのずれが小さくなっている。例えば、7番目の発話に対応する省略文「どの要素が最も重要なものか知っていますか。」の出力開始時刻(12:00:21.950)は、7番目の発話終了時刻(12:00:20.600)からおよそ1.4秒後となる。さらに、7番目の省略文は、8番目の発話の発話終了時刻(12:00:22.600)よりも前に出力される。従って、聴者は発話と当該発話に対応する省略文との対応関係が取りやすくなり、発話の理解が促進される。
以上説明したように、第1の実施形態に係る通訳装置は、発話音声に対応する機械翻訳結果が生成された時刻と、当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する時刻とに基づいて、0個以上の単語数(省略単語数)を算出する。或いは、この通訳装置は、発話音声の入力が継続した時間長と、当該発話音声に対応する機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、省略単語数を算出する。そして、この通訳装置は、少なくとも省略単語数の単語を機械翻訳結果から省略することによって、発話音声に対応付けて出力される省略文を生成する。従って、この通訳装置によれば、発話が開始してから当該発話に対応する翻訳結果の出力が開始するまでの遅延の累積的な増大を抑制することができる。
尚、第1の実施形態に係る通訳装置100は、視聴者の指示によって省略文の出力終了時刻(すなわち、次の発話に対応付けられた省略文の出力開始時刻)を指定してもよい。例えば、視聴者は、現行の省略文を読み終えた時点で、次の省略文を出力するように通訳装置100に指示をしてもよい。或いは、通訳装置100は、ユーザの指示によって省略された単語を復元して出力してもよい。その際、通訳装置100は、復元された単語の数に合わせて、出力継続時間を延長してもよい。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した通訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の通訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・通訳装置
101・・・音声入力部
102・・・音声認識部
103・・・機械翻訳部
104・・・単語数算出部
105・・・省略文生成部
106・・・出力部
107・・・制御部

Claims (10)

  1. 入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する音声認識部と、
    前記音声認識結果を第1の言語から第2の言語に機械翻訳することによって機械翻訳結果を生成する翻訳部と、
    前記機械翻訳結果が生成された第1の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第2の時刻とに基づいて、0個以上の単語数を算出する算出部と、
    少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する生成部と
    を具備する、通訳装置。
  2. 前記算出部は、前記機械翻訳結果が生成されてから前記他の機械翻訳結果に関する出力が終了するまでの遅延時間に基づいて、前記単語数を算出する、請求項1に記載の通訳装置。
  3. 前記算出部は、前記機械翻訳結果に含まれる総単語数に応じた時間長と、前記発話音声の入力が終了した第3の時刻と、当該発話音声の入力が終了してから前記省略文の出力が終了するまでの許容遅延時間とにさらに基づいて、前記単語数を算出する、請求項1に記載の通訳装置。
  4. 前記生成部は、情報の新旧および予め用意された単語リストの少なくとも1つに基づく単語の重要度を用いて、前記機械翻訳結果から省略される単語を決定する、請求項1に記載の通訳装置。
  5. 入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する音声認識部と、
    前記音声認識結果を第1の言語から第2の言語に機械翻訳することによって機械翻訳結果を生成する翻訳部と、
    前記発話音声の入力が継続した時間長と、前記機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、0個以上の単語数を算出する算出部と、
    少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する生成部と
    を具備する、通訳装置。
  6. 前記生成部は、情報の新旧および予め用意された単語リストの少なくとも1つに基づく単語の重要度を用いて、前記機械翻訳結果から省略される単語を決定する、請求項5に記載の通訳装置。
  7. 入力された発話音声に音声認識処理を行うことによって音声認識結果を生成することと、
    前記音声認識結果を第1の言語から第2の言語に機械翻訳することによって機械翻訳結果を生成することと、
    前記機械翻訳結果が生成された第1の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第2の時刻とに基づいて、0個以上の単語数を算出することと、
    少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成することと
    を具備する、通訳方法。
  8. コンピュータを、
    入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する手段と、
    前記音声認識結果を第1の言語から第2の言語に機械翻訳することによって機械翻訳結果を生成する手段と、
    前記機械翻訳結果が生成された第1の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第2の時刻とに基づいて、0個以上の単語数を算出する手段と、
    少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する手段
    として機能させる、通訳プログラム。
  9. 入力された発話音声に音声認識処理を行うことによって音声認識結果を生成することと、
    前記音声認識結果を第1の言語から第2の言語に機械翻訳することによって機械翻訳結果を生成することと、
    前記発話音声の入力が継続した時間長と、前記機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、0個以上の単語数を算出することと、
    少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成することと
    を具備する、通訳方法。
  10. コンピュータを、
    入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する手段と、
    前記音声認識結果を第1の言語から第2の言語に機械翻訳することによって機械翻訳結果を生成する手段と、
    前記発話音声の入力が継続した時間長と、前記機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、0個以上の単語数を算出する手段と、
    少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する手段
    として機能させる、通訳プログラム。
JP2015087637A 2015-04-22 2015-04-22 通訳装置、方法およびプログラム Active JP6470097B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015087637A JP6470097B2 (ja) 2015-04-22 2015-04-22 通訳装置、方法およびプログラム
US15/064,965 US9588967B2 (en) 2015-04-22 2016-03-09 Interpretation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015087637A JP6470097B2 (ja) 2015-04-22 2015-04-22 通訳装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016206929A JP2016206929A (ja) 2016-12-08
JP6470097B2 true JP6470097B2 (ja) 2019-02-13

Family

ID=57146852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015087637A Active JP6470097B2 (ja) 2015-04-22 2015-04-22 通訳装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US9588967B2 (ja)
JP (1) JP6470097B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9946712B2 (en) * 2013-06-13 2018-04-17 Google Llc Techniques for user identification of and translation of media
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
KR102449875B1 (ko) 2017-10-18 2022-09-30 삼성전자주식회사 음성 신호 번역 방법 및 그에 따른 전자 장치
US11361168B2 (en) 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language
CN110085252A (zh) * 2019-03-28 2019-08-02 体奥动力(北京)体育传播有限公司 赛事制作中心集中控制系统的声画延时调整方法
US20220284196A1 (en) * 2019-08-23 2022-09-08 Sony Group Corporation Electronic device, method and computer program
KR20210032809A (ko) * 2019-09-17 2021-03-25 삼성전자주식회사 동시 통역 방법 및 장치
US11295081B1 (en) * 2019-09-27 2022-04-05 Amazon Technologies, Inc. Systems, methods, and apparatuses for controlling output length in neural machine translation
KR102390187B1 (ko) * 2020-05-27 2022-04-25 네이버 주식회사 회의보조용 번역 도구를 위한 방법 및 시스템
CN111753558B (zh) * 2020-06-23 2022-03-04 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
KR20230067321A (ko) * 2021-11-09 2023-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785242B2 (ja) * 1993-02-09 1995-09-13 日本電気株式会社 機械翻訳方式
JPH08212228A (ja) 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JP2758851B2 (ja) 1995-03-28 1998-05-28 株式会社エイ・ティ・アール音声翻訳通信研究所 自動翻訳装置及び自動通訳装置
JP3059398B2 (ja) 1997-03-04 2000-07-04 株式会社エイ・ティ・アール音声翻訳通信研究所 自動通訳装置
US6279018B1 (en) 1998-12-21 2001-08-21 Kudrollis Software Inventions Pvt. Ltd. Abbreviating and compacting text to cope with display space constraint in computer software
JP3946916B2 (ja) * 1999-10-12 2007-07-18 東芝ソリューション株式会社 翻訳システムおよび記録媒体
JP2001175280A (ja) 1999-12-17 2001-06-29 Nippon Hoso Kyokai <Nhk> 字幕表示装置および字幕制御用記憶媒体
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
CN1894740B (zh) * 2003-12-12 2012-07-04 日本电气株式会社 信息处理系统、信息处理方法以及信息处理用程序
JP4852918B2 (ja) 2005-07-22 2012-01-11 富士ゼロックス株式会社 翻訳装置、翻訳方法およびプログラム
US7860719B2 (en) * 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
JP4271224B2 (ja) * 2006-09-27 2009-06-03 株式会社東芝 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US8090570B2 (en) * 2006-10-26 2012-01-03 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US20080300852A1 (en) * 2007-05-30 2008-12-04 David Johnson Multi-Lingual Conference Call
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
US9547642B2 (en) * 2009-06-17 2017-01-17 Empire Technology Development Llc Voice to text to voice processing
JP5014449B2 (ja) 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
US9798722B2 (en) * 2013-02-27 2017-10-24 Avaya Inc. System and method for transmitting multiple text streams of a communication in different languages
KR20140121516A (ko) * 2013-04-05 2014-10-16 이현철 실시간 통역 자막 제공 시스템 및 방법
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP6235280B2 (ja) 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
JP2015153408A (ja) * 2014-02-19 2015-08-24 株式会社リコー 翻訳システム、翻訳処理装置、及び翻訳処理プログラム
JP2016057986A (ja) 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP6334354B2 (ja) * 2014-09-30 2018-05-30 株式会社東芝 機械翻訳装置、方法およびプログラム

Also Published As

Publication number Publication date
US9588967B2 (en) 2017-03-07
US20160314116A1 (en) 2016-10-27
JP2016206929A (ja) 2016-12-08

Similar Documents

Publication Publication Date Title
JP6470097B2 (ja) 通訳装置、方法およびプログラム
EP3387646B1 (en) Text-to-speech processing system and method
JP6471074B2 (ja) 機械翻訳装置、方法及びプログラム
US9202466B2 (en) Spoken dialog system using prominence
US8626510B2 (en) Speech synthesizing device, computer program product, and method
KR20220038514A (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
JP2016061970A (ja) 音声対話装置、方法およびプログラム
JPWO2009081895A1 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JP2013152365A (ja) 書き起こし支援システムおよび書き起こし支援方法
CN110599998A (zh) 一种语音数据生成方法及装置
JP2020154076A (ja) 推論器、学習方法および学習プログラム
JP2013025763A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JPWO2020036195A1 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
JP5293478B2 (ja) 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
KR20150027465A (ko) 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치
Bansal et al. Study of speech recognition system based on transformer and connectionist temporal classification models for low resource language
WO2021059968A1 (ja) 音声認識装置、音声認識方法、およびプログラム
WO2016151692A1 (ja) タグ付与支援装置、方法およびプログラム
JP5871781B2 (ja) 言語モデル作成装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190117

R151 Written notification of patent or utility model registration

Ref document number: 6470097

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151