JP2015127894A - Support apparatus, information processing method, and program - Google Patents
Support apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2015127894A JP2015127894A JP2013273221A JP2013273221A JP2015127894A JP 2015127894 A JP2015127894 A JP 2015127894A JP 2013273221 A JP2013273221 A JP 2013273221A JP 2013273221 A JP2013273221 A JP 2013273221A JP 2015127894 A JP2015127894 A JP 2015127894A
- Authority
- JP
- Japan
- Prior art keywords
- expression information
- expression
- unit
- information
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、支援装置、情報処理方法、及び、プログラムに関する。 The present invention relates to a support device, an information processing method, and a program.
音声から字幕を生成する手法が知られている(例えば、特許文献1及び2)。また、作業者に字幕を作成させ、別の作業者に作成済みの字幕を修正させることで、複数の作業者を協力させて字幕を生成する方法が知られている(例えば、特許文献3)。また、複数の作業者により字幕の修正をさせる方法が知られている(例えば、特許文献4)。また、自動音声認識により作成した字幕を作業者により修正する方法が知られている(例えば、非特許文献1)。また、複数の作業者が生成したテキストを合成する方法が知られている(例えば、非特許文献2)。
[特許文献1]特開2005−228178号公報
[特許文献2]特開2008−32789号公報
[特許文献3]特開2010−157961号公報
[特許文献4]特開2004−226910号公報
[非特許文献1]長妻,福田,柳沼,広瀬,"クラウドソーシングを活用した効率良い字幕作成方法",電子情報通信学会 信学技報,Vol.112,No.336(2012)
[非特許文献2]I.Naim,D.Gildea,W.Lasecki,J.P.Bigham,"Text Alignment for Real−Time Crowd Captioning" The Association for Computational Linguistics, HLT−NAACL, page 201−210 (2013)
Methods for generating subtitles from audio are known (for example, Patent Documents 1 and 2). Also, a method is known in which a subtitle is generated in cooperation with a plurality of workers by causing a worker to create a subtitle and causing another worker to correct the generated subtitle (for example, Patent Document 3). . Also, a method for correcting subtitles by a plurality of workers is known (for example, Patent Document 4). In addition, a method for correcting a subtitle created by automatic speech recognition by an operator is known (for example, Non-Patent Document 1). A method of synthesizing text generated by a plurality of workers is known (for example, Non-Patent Document 2).
[Patent Document 1] JP 2005-228178 [Patent Document 2] JP 2008-32789 [Patent Document 3] JP 2010-157961 [Patent Document 4] JP 2004-226910 [Non-Patent Document 3] [Patent Document 1] Nagatsuma, Fukuda, Yanaginuma, Hirose, “Efficient subtitle creation method using crowdsourcing”, IEICE Technical Report, Vol. 112, no. 336 (2012)
[Non Patent Literature 2] Naim, D.M. Gildea, W.M. Lasecki, J. et al. P. Bigham, “Text Alignment for Real-Time Crown Capturing” The Association for Computational Linguistics, HLT-NAACL, page 201-210 (2013)
しかし、字幕の修正のみを連続して繰り返すと字幕が局所最適化されて、字幕の品質を十分に向上させることができなかった。また、従来の方法により複数の作業者により字幕の修正を繰り返す場合、字幕の修正をどのタイミングで終了するか適切に判断することができなかった。 However, if only subtitle correction is repeated continuously, the subtitles are locally optimized and the subtitle quality cannot be sufficiently improved. Further, when subtitle correction is repeatedly performed by a plurality of workers according to the conventional method, it has not been possible to appropriately determine when the subtitle correction is to be finished.
本発明の第1の態様においては、複数のユーザによる表現情報の作成を支援する支援装置であって、表現対象を表現した第1表現情報を複数のユーザのうちいずれか一のユーザに編集させて、第2表現情報として取得する編集部と、表現対象を表現する新たな第3表現情報を複数のユーザのうちいずれか一のユーザから入力する入力部と、第2表現情報及び第3表現情報を統合して統合表現情報を生成する第1統合部とを備える支援装置、当該支援装置を用いた情報処理方法、及び、当該支援装置を動作させるプログラムを提供する。 In the first aspect of the present invention, the support device supports the creation of expression information by a plurality of users, and allows any one of the plurality of users to edit the first expression information that represents the expression target. An editing unit that is acquired as second expression information, an input unit that inputs new third expression information that expresses the expression target from any one of a plurality of users, second expression information, and third expression A support device including a first integration unit that integrates information to generate integrated expression information, an information processing method using the support device, and a program for operating the support device are provided.
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。 It should be noted that the above summary of the invention does not enumerate all the necessary features of the present invention. In addition, a sub-combination of these feature groups can also be an invention.
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described through embodiments of the invention, but the following embodiments do not limit the invention according to the claims. In addition, not all the combinations of features described in the embodiments are essential for the solving means of the invention.
図1は、本実施形態の支援装置10の構成を示す。支援装置10は、複数のユーザにより表現対象から表現情報を作成する作業を支援する。例えば、支援装置10は、オーディオ又はビデオ等の音声を含む表現対象のコンテンツから音声の内容を表す字幕等のテキストである表現情報を作成する作業を支援する。一例として、支援装置10は、音声の内容を表すテキストとして、人物の話した内容をそのまま表す字幕のテキスト、又は、人物の話した内容を翻訳したテキストを生成する作業を支援してよい。支援装置10は、分割部102、自動認識部104、編集部106、判断部108、入力部110、第1統合部112、制御部114、及び、第2統合部120を備える。
FIG. 1 shows a configuration of a support apparatus 10 according to the present embodiment. The support device 10 supports the work of creating expression information from expression objects by a plurality of users. For example, the support device 10 supports the work of creating expression information that is text such as subtitles representing the contents of audio from content to be expressed including audio such as audio or video. As an example, the support apparatus 10 may support a work of generating a subtitle text that directly represents the content spoken by the person or a text obtained by translating the content spoken by the person as the text representing the content of the voice. The support apparatus 10 includes a dividing
分割部102は、表現対象のコンテンツを分割して、作業の対象となる複数の表現対象を生成する。例えば、分割部102は、ビデオ等の音声を含む表現対象のコンテンツを入力し、コンテンツを文単位、パラグラフ単位、又はコンテキスト単位等のまとまりごとに分割して、複数の表現対象を生成する。分割部102は、音声の切れ目及び/又は発声者の変化等を検出することにより、表現対象のコンテンツを分割してよい。分割部102は、生成した表現対象を自動認識部104に供給する。
The dividing
自動認識部104は、分割部102から受け取った表現対象から、当該表現対象を表現した第1表現情報を自動的に生成する。例えば、自動認識部104は、従来技術である自動音声認識(ASR)により、表現対象の音声から音声の内容を表すテキストを生成する。自動認識部104は、生成したテキストを第1表現情報として編集部106に供給する。
The
編集部106は、第1表現情報を複数のユーザのうちいずれか一のユーザに編集させて、編集した結果を第2表現情報として取得する。ここで、第1表現情報を編集する一のユーザを第1ユーザとする。編集部106は、編集前の第1表現情報及び編集後の第2表現情報を判断部108に供給し、第2表現情報を第1統合部112及び第2統合部120に供給する。
The
判断部108は、編集部106の編集において、第1表現情報と当該第1表現情報を編集した第2表現情報とが相違するか否か判断する。判断部108は、第1表現情報と第2表現情報とが相違しないと判断したことに応じて、編集部106に再度当該第1表現情報を第1ユーザに提示させて編集させる。
The determination unit 108 determines whether or not the first expression information is different from the second expression information obtained by editing the first expression information in editing by the
この再編集において、判断部108は、予め定められた基準回数連続した回数の編集において、第1表現情報と第2表現情報とが一致したか否か判断する。判断部108は、予め定められた基準回数連続した回数の編集において第1表現情報と第2表現情報とが一致したと判断したことに応じて、編集部106による編集を中止させ、第2統合部120にその旨を通知する。
In this re-editing, the determination unit 108 determines whether or not the first expression information and the second expression information coincide with each other in a predetermined number of consecutive edits. In response to determining that the first expression information and the second expression information coincide with each other after a predetermined reference number of consecutive edits, the determination unit 108 stops editing by the
入力部110は、判断部108が第1表現情報と第2表現情報とが相違すると判断したことに応じて、表現対象を表現する新たな第3表現情報を複数のユーザのうちいずれか一のユーザから入力する。ここで、第3表現情報を入力する一のユーザを第2ユーザとする。入力部110は、入力した第3表現情報を第1統合部112及び第2統合部120に供給する。
In response to the determination unit 108 determining that the first expression information and the second expression information are different from each other, the
第1統合部112は、第3表現情報を受け取ったことに応じて、第2表現情報及び第3表現情報を統合して統合表現情報を生成する。第1統合部112は、統合表現情報を制御部114に供給する。 In response to receiving the third expression information, the first integration unit 112 integrates the second expression information and the third expression information to generate integrated expression information. The first integration unit 112 supplies the integrated expression information to the control unit 114.
制御部114は、統合表現情報を新たな第1表現情報として編集部106に供給し、編集部106に新たな第1表現情報を第1ユーザに提示して編集させて、第1ユーザから別の第2表現情報を取得させる。これにより、制御部114は、編集部106による表現情報の編集処理を繰り返させる。
The control unit 114 supplies the integrated expression information to the
第2統合部120は、判断部108の判断により、編集処理の繰り返しが終了したことに応じて、入力済の1以上の第1表現情報、1以上の第2表現情報、及び、1以上の第3表現情報を統合して、統合された表現情報を生成する。例えば、第2統合部120は、判断部108が編集部106の編集を中止させたことに応じて、統合した表現情報を作成済の表現情報として出力する。
The
このように、支援装置10は、編集部106による編集された第2表現情報の取得、入力部110による新たな第3表現情報の入力、及び、第1統合部による第2表現情報と第3表現情報との統合の処理を繰り返す。そして、支援装置10は、予め定められた基準回数連続した回数の編集で修正がないと判断した場合に繰り返しの処理を終了し、それまでに生成された第1表現情報、第2表現情報、及び、第3表現情報を統合して出力する。
As described above, the support device 10 acquires the edited second expression information by the
これにより、支援装置10は、表現情報の品質が向上して修正が生じなくなったタイミングを字幕等の修正を終了する基準のタイミングとして判断することができる。また、支援装置10によれば、表現情報が修正された場合、すなわち表現情報に修正の余地があると判断された場合にユーザに表現情報を新規に入力させるので、局所最適化を防ぐことができる。 Thereby, the support apparatus 10 can determine the timing when the quality of the expression information is improved and the correction no longer occurs as the reference timing for ending the correction of the subtitles and the like. Further, according to the support device 10, when the expression information is corrected, that is, when it is determined that there is room for correction in the expression information, the user is newly input the expression information, thereby preventing local optimization. it can.
図2は、本実施形態の支援装置10の処理フローを示す。本実施形態において、支援装置10は、S100〜S170の処理を実行することにより、複数のユーザによる表現情報の作成を支援する。支援装置10は、分割部102がコンテンツを分割して生成した複数の表現情報のそれぞれについて処理フローを実行してよい。
FIG. 2 shows a processing flow of the support apparatus 10 of the present embodiment. In the present embodiment, the support device 10 supports the creation of expression information by a plurality of users by executing the processes of S100 to S170. The support apparatus 10 may execute a processing flow for each of a plurality of expression information generated by dividing the content by the dividing
まず、S110において、自動認識部104は、ASRにより、表現対象から第1表現情報となるテキストを自動的に生成する(ASR)。自動認識部104は、生成した第1表現情報を編集部106に供給する。
First, in S110, the automatic recognizing
次に、支援装置10は、図2において点線で示すS120〜S160に係る繰り返し処理を1回以上実行する。 Next, the support device 10 executes the iterative process related to S120 to S160 indicated by a dotted line in FIG. 2 once or more.
S120において、第1表現情報となるテキストを第1ユーザに編集させて、第2表現情報として取得する(FIX)。例えば、編集部106は、第1ユーザに表現対象の音声を提供し、第1ユーザに第1表現情報のテキストを編集可能な状態で提示して、第1ユーザに第1表現情報を直接修正させて、第2表現情報となるテキストを取得する。一例として、編集部106は、ネットワーク経由で、第1ユーザの情報端末に表現対象及び第1表現情報のテキストのデータを供給し、第1ユーザの情報端末から第2表現情報のテキストを取得してよい。
In S120, the first user edits the text as the first expression information and acquires it as the second expression information (FIX). For example, the
1回目の繰り返し処理において、編集部106は、自動認識部104が生成した第1表現情報を第1ユーザに提示して第2表現情報を取得する。2回目以降の繰り返し処理において、編集部106は、第1統合部112が生成した統合表現情報を第1表現情報として第1ユーザに提示し、前回入力された第2表現情報と異なってよい別の第2表現情報を取得する。編集部106は、編集前の第1表現情報及び編集後の第2表現情報を判断部108に供給し、第2表現情報を第1統合部112及び第2統合部120に供給する。
In the first iteration, the
次に、S130において、判断部108は、直前のS120の編集において、第1表現情報と当該第1表現情報を編集した第2表現情報とが相違するか否か判断する。即ち、判断部108は、直前のS120において第1表現情報が編集により修正されたか否か判断する。判断部108は、判断部108が第1表現情報と第2表現情報とが相違すると判断した場合は処理をS140に進め、第1表現情報と第2表現情報とが相違しないと判断した場合は処理をS160に進める。 Next, in S130, the determination unit 108 determines whether or not the first expression information is different from the second expression information obtained by editing the first expression information in the previous editing in S120. That is, the determination unit 108 determines whether or not the first expression information has been corrected by editing in the previous S120. If the determination unit 108 determines that the first expression information and the second expression information are different, the determination unit 108 proceeds to S140, and if the determination unit 108 determines that the first expression information and the second expression information are not different The process proceeds to S160.
S140において、表現対象を表現する新たな第3表現情報を第2ユーザから入力する(TYPE)。例えば、入力部110は、第2ユーザに表現対象の音声を提供して、第2ユーザに表現対象に対応する第3表現情報となるテキストを入力させる。一例として、入力部110は、ネットワーク経由で、第2ユーザの情報端末に表現対象のデータを供給し、第2ユーザの情報端末から第3表現情報のテキストを取得してよい。
In S140, new third expression information expressing the expression target is input from the second user (TYPE). For example, the
複数回の繰り返し処理において、入力部110は、前回入力された第3表現情報と異なってよい別の第3表現情報を第2ユーザから入力する。入力部110は、入力した第3表現情報を第1統合部112及び第2統合部120に供給する。
In the repeated processing of a plurality of times, the
S150において、第1統合部112は、第2表現情報及び第3表現情報を統合して統合表現情報を生成する(MERGE)。例えば、まず、第1統合部112は、第2表現情報のテキスト及び第3表現情報のテキストを複数の単語の要素に分割する。 In S150, the first integration unit 112 integrates the second expression information and the third expression information to generate integrated expression information (MERGE). For example, first, the first integration unit 112 divides the text of the second expression information and the text of the third expression information into a plurality of word elements.
第1統合部112は、要素のうち第2表現情報のテキスト及び第3表現情報の対応する位置に共通して含まれる同一の単語、及び、類似する単語(例えば、既存の単語のミススペル、及び/又は、異形同音異義語等)を対応付ける。例えば、第1統合部112は、Levenshtein Distanceが予め定められた閾値以内の単語を類似する単語として検出し、単語同士を対応付けてよい。第1統合部112は、対応付けられた単語を基準として対応付けられていない単語を含む全ての単語を配置する。 The first integration unit 112 includes the same word included in the corresponding positions of the text of the second expression information and the third expression information among the elements, and similar words (for example, misspelled existing words, and / Or variant homonyms). For example, the first integration unit 112 may detect words having a left distance within a predetermined threshold as similar words, and associate the words with each other. The 1st integration part 112 arrange | positions all the words containing the word which is not matched on the basis of the matched word.
第1統合部112は、第2表現情報のテキスト及び第3表現情報のテキストにおいて互いに対応する2つの要素が存在した場合はより正しいと推定されるものを選択し、対応する要素が存在しない場合は当該要素を含めるように新しく統合されたテキストを統合表現情報として生成してよい。 When there are two corresponding elements in the text of the second expression information and the text of the third expression information, the first integration unit 112 selects the one that is estimated to be more correct, and the corresponding element does not exist May generate newly integrated text as integrated expression information so as to include the element.
第1統合部112は、繰り返し処理ごとに統合表現情報を生成する。例えば、複数の繰り返し処理のそれぞれにおいて、第1統合部112は、前回取得したものと異なってよい別の第2表現情報と、前回取得したものと異なってよい別の第3表現情報を統合して新しい統合表現情報を生成する。 The first integration unit 112 generates integrated expression information for each repetition process. For example, in each of the plurality of iterative processes, the first integration unit 112 integrates another second expression information that may be different from the previously acquired information and another third expression information that may be different from the previously acquired information. New integrated expression information.
第1統合部112は、生成した統合表現情報を制御部114に供給する。制御部114は、統合表現情報を新たな第1表現情報として編集部106に供給し、処理をS120に戻す。これにより、2回目以降のS120の処理において、制御部114は、編集部106に新たな第1表現情報を第1ユーザに提示させ、別の第2表現情報を取得させる。
The first integration unit 112 supplies the generated integrated expression information to the control unit 114. The control unit 114 supplies the integrated expression information to the
S160において、判断部108は、予め定められた基準回数連続した回数の編集において、第1表現情報と第2表現情報とが一致したか否か判断する。例えば、判断部108は、予め定められた基準回数(n回:例えば2回)連続してS120→S130→S160となる処理が基準回数連続して繰り返されたか否か判断する。 In S160, the determination unit 108 determines whether or not the first expression information and the second expression information match in the editing of a predetermined reference number of consecutive times. For example, the determination unit 108 determines whether or not the process of S120 → S130 → S160 has been repeated continuously for a predetermined reference number (n times: for example, twice).
判断部108は、予め定められた基準回数連続した回数の編集において、第1表現情報と第2表現情報とが一致したと判断する場合は処理をS170に進め、そうでない場合は処理をS120に戻す。 If the determination unit 108 determines that the first expression information and the second expression information match in the editing of the predetermined number of consecutive reference times, the determination unit 108 proceeds to S170, and if not, the process proceeds to S120. return.
S170において、第2統合部120は、編集部106及び入力部110に入力済みの1以上の第1表現情報、1以上の第2表現情報、及び、1以上の第3表現情報を統合して、統合された表現情報を生成する。例えば、第2統合部120は、入力済みの全ての第1表現情報、第2表現情報、及び、第3表現情報を統合してよい。
In S170, the
まず、第2統合部120は、統合の対象となる複数の表現情報のそれぞれを複数の文節、単語、及び/又は、文字等の要素に分割し、複数の表現情報の対応する位置に共通して含まれる同一の要素、及び、類似する要素を対応付けてよい。ここで、第2統合部120は、Levenshtein Distanceが予め定められた閾値以内の要素を類似する要素として検出し、要素同士を対応付けてよい。更に、第2統合部120は、Multiple Sequence Alignment(MSA)を利用して、対応付けられた要素のアライメントを実行してよい。更に、第2統合部120は、A*アルゴリズムを利用してアライメント処理の計算量を低減してもよい。
First, the
次に、第2統合部120は、Majority Vote等により、最終的な表現情報に採用すべき要素を決定してよい。ここで、第2統合部120は、第2表現情報を第1表現情報及び第3表現情報よりも大きく重みづけを付与してよい。これにより、支援装置10は、修正の結果をより重く反映することができる。支援装置10は、第2統合部120により統合された表現情報を作成済の表現情報として出力する。
Next, the
このように、支援装置10は、繰り返しの初回において、編集部106に自動認識部104が生成した第1表現情報を第1ユーザに編集させ、編集において修正があれば入力部110に新しく第3表現情報を入力させ、修正がなければ編集部106に再度編集処理をさせる。支援装置10は、編集において修正がないことが基準回数連続して発生するまで、編集部106による編集と入力部110による入力を繰り返す。
As described above, the support apparatus 10 causes the
ここで、支援装置10は、複数の繰り返し処理において、第1ユーザ及び第2ユーザを、それぞれ同一のユーザ及び/又は異なるユーザとしてよい。異なる第1ユーザ及び/又は異なる第2ユーザから第2表現情報及び/又は第3表現情報を入力する場合、支援装置10は、多様性のある表現情報を取得することが期待できる。また、同一の第1ユーザ及び/又は同一の第2ユーザから第2表現情報及び/又は第3表現情報を入力する場合、支援装置10は、繰り返しが進むごとに改善された表現情報を取得することが期待できる。また、第1ユーザとなるユーザは、第2ユーザとなるユーザと共通してもよく、異なっていてもよい。 Here, the support apparatus 10 may set the first user and the second user as the same user and / or different users in a plurality of repetitive processes. When the second expression information and / or the third expression information is input from different first users and / or different second users, the support apparatus 10 can be expected to acquire diverse expression information. Further, when the second expression information and / or the third expression information is input from the same first user and / or the same second user, the support apparatus 10 acquires improved expression information each time the repetition proceeds. I can expect that. Moreover, the user who becomes the first user may be the same as or different from the user who becomes the second user.
また、支援装置10は、S170の処理を省略してもよい。この場合、支援装置10は、最後のS120の処理で編集された第2表現情報を作成済の表現情報として出力してよい。 Further, the support device 10 may omit the process of S170. In this case, the support apparatus 10 may output the second expression information edited in the last process of S120 as the created expression information.
また、支援装置10は、S120→S130→S140→S150→S120の繰り返し処理が、合計又は連続で、予め定められた基準回数(例えば、2回)以上行われたことに応じて、処理をS170に進めてよい。これにより、支援装置10は、編集の繰り返し処理が必要以上に行われて表現情報の生成が長引くことを防ぐことができる。 In addition, the support apparatus 10 performs the process in S170 in response to the repetition of S120 → S130 → S140 → S150 → S120 being performed in total or continuously for a predetermined reference number (for example, twice) or more. You can proceed to. As a result, the support apparatus 10 can prevent the generation of expression information from being prolonged due to unnecessary editing repetition processing.
図3は、本実施形態のS140における第3表現情報の入力画面の一例を示す。図示するように、第2ユーザは、情報端末等で表現対象の音声を動画等と共に再生し、表現対象に対応する第3表現情報となるテキストを入力して、入力部110に取得させる。
FIG. 3 shows an example of an input screen for third expression information in S140 of the present embodiment. As shown in the figure, the second user reproduces the voice to be expressed together with a moving image or the like on an information terminal or the like, inputs text serving as third expression information corresponding to the expression target, and causes the
図4は、本実施形態のS120における第1表現情報の編集画面の一例を示す。図示するように、第1ユーザは、情報端末等で表現対象の音声を動画等と共に再生し、予め表示された第1表現情報を編集して第2表現情報を作成し、編集部106に取得させる。
FIG. 4 shows an example of the editing screen for the first expression information in S120 of the present embodiment. As shown in the figure, the first user reproduces the voice to be expressed together with a moving image or the like on an information terminal or the like, edits the first expression information displayed in advance, creates second expression information, and obtains it in the
図5は、本実施形態のS150における表現情報の統合方法の一例を示す。FIXの行は、第1統合部112が編集部106から受け取った第2表現情報に対応するテキストを示す。TYPEの行は、第1統合部112が入力部110から受け取った第3表現情報に対応するテキストを示す。MERGEの行は、第1統合部112が第2表現情報及び第3表現情報を統合して生成した統合表現情報に対応するテキストを示す。
FIG. 5 shows an example of the expression information integration method in S150 of the present embodiment. The FIX line indicates text corresponding to the second expression information received by the first integration unit 112 from the
図示するように、第1統合部112は、第2表現情報及び第3表現情報のテキストを複数の要素に分割して、これらの要素をアライメントした後に統合する。例えば、第1統合部112は、第2表現情報及び第3表現情報に共通して含まれる単語「It」、「must」、及び、「supplying」を対応付けて同じ位置(1番目、2番目、及び6番目)に配置する。 As illustrated, the first integration unit 112 divides the text of the second expression information and the third expression information into a plurality of elements, and integrates these elements after alignment. For example, the first integration unit 112 associates the words “It”, “must”, and “suppliing” that are included in common in the second expression information and the third expression information in the same position (first, second, , And 6th).
第1統合部112は、Levenshtein Distanceにより単語等の要素を対応付けることに加えて/代えて、異形同音異義語及び/又はスペルミスに対応する複数の単語を対応付けてよい。例えば、第1統合部112は、第2表現情報及び第3表現情報に含まれる異形同音異義語でないスペルミスの関係にある単語「consider」と「consder」及び異形同音異義語の単語「disc」と「disk」を対応付けて同じ位置(5番目及び7番目)に配置してよい。第1統合部112は、対応付けられた単語を基準として対応付けられない単語「now」及び「not」を異なる位置(3番目及び4番目)に配置する。 The first integration unit 112 may associate a plurality of words corresponding to a variant homophone and / or a spelling error in addition to / instead of associating an element such as a word with the left distance. For example, the first integration unit 112 includes the words “consider” and “consder” and the word “disc” of the variant homophones having the spelling error that is not the variant homophones included in the second representation information and the third representation information. “Disk” may be associated and arranged at the same position (fifth and seventh). The first integration unit 112 arranges the words “now” and “not” that are not associated with the associated word as a reference at different positions (third and fourth).
ここで、第1統合部112は、配置した単語から統合表現情報を生成する。例えば、第1統合部112は、対応する複数の単語が存在しない単語(例えば「not」及び「now」)は、そのまま統合表現情報に採用する。また、第1統合部112は、対応する複数の単語が存在する場合は、1個の単語を選択して統合表現情報に採用する。 Here, the first integration unit 112 generates integrated expression information from the arranged words. For example, the first integration unit 112 directly adopts words (for example, “not” and “now”) that do not have a plurality of corresponding words as integrated expression information. In addition, when there are a plurality of corresponding words, the first integration unit 112 selects one word and adopts it in the integrated expression information.
例えば、対応する複数の単語が異形同音異義語である場合、第1統合部112は、第3表現情報(TYPE)に係る単語を選択する。これは、第2表現情報(FIX)に係る単語は、自動音声認識(ASR)に由来する単語が含まれている可能性があり、異形同音異義語について文脈的に正しくない可能性が高いためである。一例として、第1統合部112は、7番目に異形同音異義語として配置された「disc」及び「disk」から第3表現情報(TYPE)に係る「disk」を採用する。 For example, when a plurality of corresponding words are heteromorphic homonyms, the first integration unit 112 selects a word related to the third expression information (TYPE). This is because the word related to the second expression information (FIX) may include a word derived from automatic speech recognition (ASR), and it is highly likely that the anomalous homonyms are not contextually correct. It is. As an example, the first integration unit 112 employs “disk” related to the third expression information (TYPE) from “disc” and “disk” that are arranged as the seventh variant homonym.
また、対応する複数の単語が異形同音異義語でない場合、第1統合部112は、第2表現情報(FIX)に係る単語を選択する。このような場合、第3表現情報(TYPE)に係る単語は、単なる誤入力である可能性が高いためである。一例として、第1統合部112は、5番目に配置された異形同音異義語でない「consider」及び「consder」から第2表現情報(FIX)に係る「consider」を採用する。 In addition, when the plurality of corresponding words are not heteromorphic homonyms, the first integration unit 112 selects a word related to the second expression information (FIX). In such a case, the word related to the third expression information (TYPE) is likely to be a simple input error. As an example, the first integration unit 112 employs “consider” related to the second expression information (FIX) from “consider” and “consder” that is not the fifth homomorphic homonym.
この結果、第1統合部112は、第2表現情報(FIX)及び第3表現情報(TYPE)から統合表現情報として「It must not now consider supplying disk」を生成する。この統合表現情報においては「not」及び「now」が重複して含まれるが、支援装置10は、この後の繰り返しの処理及び第2統合部120による統合処理により当該重複を解消することができる。このように、支援装置10は、異形同音異義語の場合に自動音声認識(ASR)に基づかない第3表現情報(TYPE)に係る単語を採用し、そうでない場合は第2表現情報(FIX)に係る単語を採用することにより、支援装置10はより高い精度で統合表現情報を生成することができる。
As a result, the first integration unit 112 generates “It must not know capacitor supplying disk” as integrated expression information from the second expression information (FIX) and the third expression information (TYPE). In this integrated expression information, “not” and “now” are included in duplicate, but the support apparatus 10 can eliminate the overlap by the subsequent repeated processing and the integration processing by the
図6は、本実施形態における支援装置10の効果の一例を示す箱ひげ図である。図6は、4種類の異なる方法で字幕を生成した場合の単語誤り率(Word Error Rate:WER)を示す。 FIG. 6 is a box-and-whisker diagram illustrating an example of the effect of the support device 10 in the present embodiment. FIG. 6 shows a word error rate (WER) when subtitles are generated by four different methods.
図中の最も左の列(ASR)は、自動音声認識(ASR)のみを用いて音声から字幕を生成した場合の単語誤り率を示す。左から2番目の列(CapCap)は、本実施形態の支援装置10を用いて音声から字幕を生成した場合の単語誤り率を示す。左から3番目の列(Type)は、ユーザに字幕を新規に入力させて字幕を生成した場合(すなわち入力部110が生成した第3表現情報単独)の単語誤り率を示す。左から4番目の列(FIX)は、ASRから生成した字幕を1回ユーザが修正した場合(すなわち、自動認識部104が生成した第1表現情報が編集部106により1回編集された第2表現情報)の単語誤り率を示す。
The leftmost column (ASR) in the figure shows the word error rate when subtitles are generated from speech using only automatic speech recognition (ASR). The second column from the left (CapCap) indicates the word error rate when captions are generated from speech using the support device 10 of the present embodiment. The third column (Type) from the left indicates a word error rate when a subtitle is generated by causing a user to newly input a subtitle (that is, the third expression information generated by the
単語誤り率は、WER=(I+D+S)/Nにより計算される。ここで、Iは正しい字幕に至るまでに必要な挿入文字数を示し、Dは正しい字幕に至るまでに必要な削除文字数を示し、Sは正しい字幕に至るまでに必要な置換文字数を示し、Nは正しい字幕の文字数を示す。 The word error rate is calculated by WER = (I + D + S) / N. Here, I indicates the number of inserted characters necessary for reaching the correct subtitle, D indicates the number of deleted characters necessary for reaching the correct subtitle, S indicates the number of replacement characters required until the correct subtitle is reached, and N indicates Indicates the correct number of subtitle characters.
図中の大きさの異なる箱は、各方法のWERのうち第1四分位点から第3四分位点までの範囲に含まれるサンプルのWERの分布を示す。矩形内の中央線は、矩形に含まれるサンプルのWERの中央値を示す。−(ひげ)及び+のプロットは、第1四分位点から第3四分位点までの範囲の1.5倍の範囲に含まれるサンプル、及び、当該1.5倍の範囲に含まれずデータ範囲全体に含まれるサンプルのWERを示す。 The boxes of different sizes in the figure show the WER distribution of the samples included in the range from the first quartile to the third quartile among the WERs of each method. The center line in the rectangle indicates the median WER of the samples included in the rectangle. The-(beard) and + plots are included in the range of 1.5 times the range from the first quartile to the third quartile, and not in the 1.5 times range. The WER of the samples included in the entire data range is shown.
図示するように、本実施形態の支援装置10による結果(CapCap)は、矩形が約0%のWERと一致し、最もWERが低い結果となった。これにより、本実施形態の支援装置10によると、他の方法よりも優れた字幕の生成を支援できることは明らかである。 As shown in the figure, the result (CapCap) by the support device 10 of the present embodiment is the result that the rectangle matches the WER of about 0%, and the WER is the lowest. As a result, according to the support device 10 of the present embodiment, it is apparent that subtitle generation superior to other methods can be supported.
図7は、本実施形態における支援装置10の効果の一例を示す箱ひげ図である。図7は、本実施形態の支援装置10を用いた場合に、S110のASR段階のみにより生成された字幕(左側の列)、及び、S110のASR段階→S120のFIX→S130のTYPE→S150のMERGEを経て生成された字幕(右側の列)を示す。図示するように、ASRにより生成された字幕より、FIX、TYPE、及びMERGEを経て生成された字幕の方が低いWERを有する。 FIG. 7 is a box-and-whisker diagram showing an example of the effect of the support device 10 in the present embodiment. FIG. 7 shows subtitles (left column) generated only by the ASR stage of S110 and the ASR stage of S110 → FIX of S120 → TYPE of S130 → TYPE S150 when the support apparatus 10 of the present embodiment is used. The subtitles (right column) generated through MERGE are shown. As illustrated, subtitles generated through FIX, TYPE, and MERGE have lower WER than subtitles generated by ASR.
図8は、本実施形態における支援装置10の効果の別の一例を示す箱ひげ図である。図8は、本実施形態の支援装置10を用いた場合に、S110のASR段階→S120のFIX→S130のTYPE→S150のMERGEを経て生成された字幕(左側の列)、及び、S110のASR段階→S120のFIX→S130のTYPE→S150のMERGE→S120のFIX→S130のTYPE→S150のMERGEを経て生成された字幕(右側の列)を示す。 FIG. 8 is a box-and-whisker diagram showing another example of the effect of the support device 10 in the present embodiment. FIG. 8 shows subtitles (left column) generated through the ASR stage of S110, the FIX of S120, the TYPE of S130, the MERGE of S150, and the ASR of S110 when the support apparatus 10 of the present embodiment is used. The subtitles (right column) generated through the steps FIX of S120, TYPE of S130, MERGE of S150, FIX of S120, TYPE of S130, and MERGE of S150 are shown.
図8に示すように、FIX、TYPE、及びMERGEの繰り返しを1回のみ経て生成された字幕より、繰り返しを2回経て生成された字幕の方が低いWERを有する。従って、本実施形態の支援装置10により、FIX、TYPE、及びMERGEの繰り返しを少なくとも2回実行することにより、十分に正確性の高い字幕の生成を支援できることが明らかである。例えば、支援装置10は、S120→S130→S140→S150の繰り返し処理を予め定められた回数(例えば、2回)経た場合には、繰り返し処理を終了してS170に処理を進めてもよい。 As shown in FIG. 8, subtitles generated after two repetitions have lower WER than subtitles generated after only one FIX, TYPE, and MERGE repetition. Therefore, it is apparent that the support apparatus 10 of the present embodiment can support generation of sufficiently accurate subtitles by executing FIX, TYPE, and MERGE at least twice. For example, when the repetitive process of S120 → S130 → S140 → S150 has passed a predetermined number of times (for example, twice), the support apparatus 10 may end the repetitive process and proceed to S170.
図9は、本実施形態の変形例における支援装置10の処理フローを示す。本変形例において、編集部106は、入力された第1表現情報を順次第1ユーザにより編集させていき、基準回数の編集後の第2表現情報を取得し、予め定められた基準回数の編集において第1表現情報と第2表現情報とが相違すると判断部108が判断した場合に、入力部110は第3表現情報を入力する。
FIG. 9 shows a processing flow of the support device 10 in a modification of the present embodiment. In this modification, the
以下、本変形例において、図2において説明した実施形態と同様の部分については説明を省略することがある。例えば、本変形例の支援装置10は、S210、S220、S240、及び、S270の処理を、それぞれ図2のS110、S120、S140、及び、S170の処理と同様に実行してよい。 Hereinafter, in this modification, the description of the same part as the embodiment described in FIG. 2 may be omitted. For example, the support device 10 according to the present modification may execute the processes of S210, S220, S240, and S270 in the same manner as the processes of S110, S120, S140, and S170 in FIG.
本変形例のS230において、判断部108は、直前のS220の編集において、第1表現情報と当該第1表現情報を編集した第2表現情報とが相違するか否か判断する。判断部108は、判断部108が第1表現情報と第2表現情報とが相違すると判断した場合は処理をS232に進め、第1表現情報と第2表現情報とが相違しないと判断した場合は処理をS260に進める。 In S230 of this modification, the determination unit 108 determines whether or not the first expression information is different from the second expression information obtained by editing the first expression information in the previous editing in S220. If the determination unit 108 determines that the first expression information and the second expression information are different, the determination unit 108 advances the process to S232, and determines that the first expression information and the second expression information are not different. The process proceeds to S260.
S232において、判断部108は、S120において、予め定められた基準回数(m回)の連続した編集において第1表現情報と第2表現情報とが相違するか否か判断する。例えば、判断部108は、予め定められた基準回数連続してS220→S230→S232と進む処理が基準回数連続して繰り返されたか否か判断する。判断の結果が肯定的である場合、判断部108は、処理をS240に進め、そうでない場合には処理をS220に戻す。 In S232, the determination unit 108 determines whether or not the first expression information and the second expression information are different in the continuous editing of a predetermined reference number (m times) in S120. For example, the determination unit 108 determines whether or not the process of proceeding from S220 → S230 → S232 continuously for a predetermined reference number is repeated for the reference number of times. If the result of the determination is affirmative, the determination unit 108 proceeds with the process to S240, and otherwise returns the process to S220.
S260において、判断部108は、S220の複数回の編集において、予め定められた基準回数(n回)の連続した編集において、第1表現情報と第2表現情報とが一致したか否か判断する。例えば、判断部108は、予め定められた基準回数連続してS220→S230→S260と進む処理が基準回数連続して繰り返されたか否か判断する。なお、n及びmは、同一又は異なる自然数であってよい。例えば、n=2、m=2であってよい。 In S260, the determination unit 108 determines whether or not the first expression information and the second expression information match in the continuous editing of a predetermined reference number (n times) in the plurality of edits in S220. . For example, the determination unit 108 determines whether or not the process of advancing from S220 → S230 → S260 for a predetermined reference number of times is repeated for the reference number of times. Note that n and m may be the same or different natural numbers. For example, n = 2 and m = 2 may be set.
判断部108は、予め定められた基準回数連続した回数の編集において、第1表現情報と第2表現情報とが一致したと判断する場合は処理をS270に進め、そうでない場合は処理をS220に戻す。 If the determination unit 108 determines that the first expression information and the second expression information coincide with each other in the predetermined number of consecutive edits, the process proceeds to S270. If not, the process proceeds to S220. return.
このように、本変形例の支援装置10は、編集において修正がないことが基準回数連続して発生するまで、編集部106による編集と入力部110による入力を繰り返すことに加え、編集における修正が基準回数連続して発生するまで編集部106による編集を繰り返す。これにより、本変形例の支援装置10によれば、複数回の連続する編集を経て品質がより向上した第2表現情報と第3表現情報とを統合するので、最終的に生成する表現情報の品質を更に向上することができる。
As described above, the support device 10 according to the present modified example repeats editing by the
ここまで説明した本実施形態及び変形例の支援装置10は、表現対象として音声を含む情報を用い、第1表現情報、第2表現情報、及び、第3表現情報として音声の内容を表す字幕等のテキストを生成することを支援したが、これに限られない。例えば、支援装置10は、表現対象として音声に代えて/加えて、写真、イラスト、テキスト及び/又は符号等を含む静止画、及び/又は、動画等を用いてよく、表現情報は表現対象に対応する字幕、翻訳、及び/又は、音符等でもよい。 The support device 10 according to the present embodiment and the modification described so far uses information including sound as an expression target, and includes first expression information, second expression information, subtitles representing the contents of sound as third expression information, and the like. Assisted in generating the text of, but is not limited to this. For example, the support apparatus 10 may use a still image including a photograph, an illustration, a text, and / or a code, and / or a moving image instead of / in addition to the voice as the expression target, and the expression information is the expression target. Corresponding subtitles, translations, and / or musical notes may be used.
図10は、支援装置10として機能するコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部を備える。
FIG. 10 shows an example of a hardware configuration of a
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
The
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、有線又は無線によりネットワークを介して他の装置と通信する。また、通信インターフェイスは、通信を行うハードウェアとして機能する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
The input /
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、及び/又は、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続するとともに、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
The input /
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
A program provided to the
コンピュータ1900にインストールされ、コンピュータ1900を支援装置10として機能させるプログラムは、分割モジュールと、自動認識モジュールと、編集モジュールと、判断モジュールと、入力モジュールと、第1統合モジュールと、制御モジュールと、第2統合モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、分割部102と、自動認識部104と、編集部106と、判断部108と、入力部110と、第1統合部112と、制御部114と、第2統合部120としてそれぞれ機能させてよい。
A program that is installed in the
これらのプログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である分割部102と、自動認識部104と、編集部106と、判断部108と、入力部110と、第1統合部112と、制御部114と、第2統合部120として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の支援装置10が構築される。
The information processing described in these programs is read into the
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、又はCD−ROM2095等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置又は通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
As an example, when communication is performed between the
また、CPU2000は、ハードディスクドライブ2040、CD−ROMドライブ2060(CD−ROM2095)、フレキシブルディスク・ドライブ2050(フレキシブルディスク2090)等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020及び外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。
The
本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、及び/又は記憶装置に含まれるものとする。
Various types of information such as various programs, data, tables, and databases in the present embodiment are stored on such a storage device and are subjected to information processing. Note that the
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすか否かを判断し、条件が成立した場合(又は不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
In addition, the
また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
Further, the
以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク2090、CD−ROM2095の他に、DVD又はCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
The program or module shown above may be stored in an external recording medium. As the recording medium, in addition to the
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. It will be apparent to those skilled in the art that various modifications or improvements can be added to the above-described embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。 The order of execution of each process such as operations, procedures, steps, and stages in the apparatus, system, program, and method shown in the claims, the description, and the drawings is particularly “before” or “prior to”. It should be noted that the output can be realized in any order unless the output of the previous process is used in the subsequent process. Regarding the operation flow in the claims, the description, and the drawings, even if it is described using “first”, “next”, etc. for convenience, it means that it is essential to carry out in this order. It is not a thing.
10 支援装置、102 分割部、104 自動認識部、106 編集部、108 判断部、110 入力部、112 第1統合部、114 制御部、120 第2統合部、1900 コンピュータ、2000 CPU、2010 ROM、2020 RAM、2030 通信インターフェイス、2040 ハードディスクドライブ、2050 フレキシブルディスク・ドライブ、2060 CD−ROMドライブ、2070 入出力チップ、2075 グラフィック・コントローラ、2080 表示装置、2082 ホスト・コントローラ、2084 入出力コントローラ、2090 フレキシブルディスク、2095 CD−ROM
DESCRIPTION OF SYMBOLS 10 Support apparatus, 102 division | segmentation part, 104 automatic recognition part, 106 edit part, 108 judgment part, 110 input part, 112 1st integration part, 114 control part, 120 2nd integration part, 1900 computer, 2000 CPU, 2010 ROM, 2020 RAM, 2030 communication interface, 2040 hard disk drive, 2050 flexible disk drive, 2060 CD-ROM drive, 2070 input / output chip, 2075 graphic controller, 2080 display device, 2082 host controller, 2084 input / output controller, 2090
Claims (13)
表現対象を表現した第1表現情報を複数のユーザのうちいずれか一のユーザに編集させて、第2表現情報として取得する編集部と、
前記表現対象を表現する新たな第3表現情報を複数のユーザのうちいずれか一のユーザから入力する入力部と、
前記第2表現情報及び前記第3表現情報を統合して統合表現情報を生成する第1統合部と、
を備える支援装置。 A support device that supports creation of expression information by a plurality of users,
An editing unit that causes any one of a plurality of users to edit the first expression information expressing the expression target, and obtains the second expression information;
An input unit for inputting new third expression information expressing the expression object from any one of a plurality of users;
A first integration unit that integrates the second expression information and the third expression information to generate integrated expression information;
A support device comprising:
前記編集部は、前記新たな第1表現情報を受け取り、複数のユーザのうちいずれか一のユーザに提示して編集させて、当該ユーザから別の第2表現情報を取得する、
請求項1に記載の支援装置。 A controller that supplies the integrated expression information as new first expression information to the editing unit and repeats the processing by the editing unit;
The editing unit receives the new first expression information, presents it to any one of a plurality of users and edits it, and acquires another second expression information from the user.
The support device according to claim 1.
前記第1統合部は、前記別の第2表現情報と、前記別の第3表現情報を統合して統合表現情報を生成する、
請求項2に記載の支援装置。 The input unit inputs another third expression information from any one of a plurality of users,
The first integration unit generates the integrated expression information by integrating the other second expression information and the other third expression information.
The support device according to claim 2.
前記判断部が前記第1表現情報と前記第2表現情報とが相違すると判断したことに応じて、前記入力部は前記複数のユーザのうちいずれか一のユーザから前記第3表現情報を取得する、
請求項1から3のいずれか1項に記載の支援装置。 A determination unit for determining whether the first expression information is different from the second expression information obtained by editing the first expression information;
In response to determining that the first expression information and the second expression information are different from each other, the input unit acquires the third expression information from any one of the plurality of users. ,
The support device according to any one of claims 1 to 3.
前記判断部は、予め定められた基準回数の前記編集部による編集において、前記第1表現情報と前記第2表現情報とが相違すると判断された場合に、前記入力部は第3表現情報を入力する、
請求項4に記載の支援装置。 The editing unit sequentially edits the input first expression information by any one of a plurality of users, acquires the second expression information after editing the reference number of times,
When the determination unit determines that the first expression information and the second expression information are different in editing by the editing unit with a predetermined reference number of times, the input unit inputs the third expression information. To
The support device according to claim 4.
請求項4又は5に記載の支援装置。 In response to the determination unit determining that the first expression information is not different from the second expression information, the editing unit again determines the first expression information as one of the plurality of users. Present and edit to the user
The support device according to claim 4 or 5.
請求項4から6のいずれか1項に記載の支援装置。 The determination unit cancels editing by the editing unit when it is determined that the first expression information and the second expression information coincide with each other in a predetermined number of consecutive second reference number edits. Let
The support device according to any one of claims 4 to 6.
前記編集部は、繰り返しの初回において、前記自動認識部が生成した第1表現情報を複数のユーザのうちいずれか一のユーザに編集させる、
請求項2又は3に記載の支援装置。 An automatic recognition unit that automatically generates first expression information from the expression object;
The editing unit causes a user to edit the first expression information generated by the automatic recognition unit in the first iteration.
The support apparatus according to claim 2 or 3.
前記第2統合部により統合された表現情報を作成済の表現情報として出力する、
請求項1から8のいずれか1項に記載の支援装置。 A second integration unit that integrates one or more input first expression information, one or more second expression information, and one or more third expression information;
Outputting the expression information integrated by the second integration unit as created expression information;
The support device according to claim 1.
請求項1から9のいずれか1項に記載の支援装置。 A division unit that divides the content to be expressed and generates a plurality of the expression objects;
The support apparatus of any one of Claim 1 to 9.
前記第1表現情報、前記第2表現情報、及び、前記第3表現情報は、前記音声の内容を表すテキストである、
請求項1から10のいずれか1項に記載の支援装置。 The expression object includes sound,
The first expression information, the second expression information, and the third expression information are texts representing the contents of the speech.
The support device according to any one of claims 1 to 10.
表現対象を表現した第1表現情報を複数のユーザのうちいずれか一のユーザに編集させて、第2表現情報として取得する編集段階と、
前記表現対象を表現する新たな第3表現情報を複数のユーザのうちいずれか一のユーザから入力する入力段階と、
前記第2表現情報及び前記第3表現情報を統合して統合表現情報を生成する第1統合段階と、
を備える情報処理方法。 An information processing method executed by a computer to support creation of expression information by a plurality of users,
An editing stage in which the first expression information expressing the expression object is edited by any one of a plurality of users and acquired as second expression information;
An input step of inputting new third expression information expressing the expression object from any one of a plurality of users;
A first integration step of generating integrated expression information by integrating the second expression information and the third expression information;
An information processing method comprising:
コンピュータに実行されると、当該コンピュータを、
表現対象を表現した第1表現情報を複数のユーザのうちいずれか一のユーザに編集させて、第2表現情報として取得する編集部と、
前記表現対象を表現する新たな第3表現情報を複数のユーザのうちいずれか一のユーザから入力する入力部と、
前記第2表現情報及び前記第3表現情報を統合して統合表現情報を生成する第1統合部と、
して機能させるプログラム。 A program for supporting creation of expression information by a plurality of users,
When executed on a computer, the computer is
An editing unit that causes any one of a plurality of users to edit the first expression information expressing the expression target, and obtains the second expression information;
An input unit for inputting new third expression information expressing the expression object from any one of a plurality of users;
A first integration unit that integrates the second expression information and the third expression information to generate integrated expression information;
Program to make it work.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013273221A JP6323828B2 (en) | 2013-12-27 | 2013-12-27 | Support device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013273221A JP6323828B2 (en) | 2013-12-27 | 2013-12-27 | Support device, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015127894A true JP2015127894A (en) | 2015-07-09 |
JP6323828B2 JP6323828B2 (en) | 2018-05-16 |
Family
ID=53837870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013273221A Active JP6323828B2 (en) | 2013-12-27 | 2013-12-27 | Support device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6323828B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020053715A (en) * | 2018-09-21 | 2020-04-02 | 西都速記株式会社 | Information processing system, information processing method, and information processing program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004501429A (en) * | 2000-05-11 | 2004-01-15 | ユニバーシティ・オブ・サザン・カリフォルニア | Machine translation techniques |
US20050137867A1 (en) * | 2003-12-17 | 2005-06-23 | Miller Mark R. | Method for electronically generating a synchronized textual transcript of an audio recording |
JP2007133033A (en) * | 2005-11-08 | 2007-05-31 | Nec Corp | System, method and program for converting speech into text |
JP2013029684A (en) * | 2011-07-28 | 2013-02-07 | National Institute Of Advanced Industrial & Technology | Web site system for voice data transcription |
-
2013
- 2013-12-27 JP JP2013273221A patent/JP6323828B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004501429A (en) * | 2000-05-11 | 2004-01-15 | ユニバーシティ・オブ・サザン・カリフォルニア | Machine translation techniques |
US20050137867A1 (en) * | 2003-12-17 | 2005-06-23 | Miller Mark R. | Method for electronically generating a synchronized textual transcript of an audio recording |
JP2007133033A (en) * | 2005-11-08 | 2007-05-31 | Nec Corp | System, method and program for converting speech into text |
JP2013029684A (en) * | 2011-07-28 | 2013-02-07 | National Institute Of Advanced Industrial & Technology | Web site system for voice data transcription |
Non-Patent Citations (2)
Title |
---|
上田展久: "書き起こし文と音声認識を組み合わせた講義字幕の効率的作成", 情報処理学会 研究報告 音楽情報科学(MUS), JPN6017039086, 4 May 2013 (2013-05-04), JP, pages 1 - 4, ISSN: 0003661229 * |
秋田 祐哉 外1名: "オープンコースウェアの講演を対象とした音声認識に基づく字幕付与", 日本音響学会 2013年 春季研究発表会講演論文集CD−ROM [CD−ROM], JPN6017039087, 5 March 2013 (2013-03-05), JP, pages 59 - 60, ISSN: 0003661230 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020053715A (en) * | 2018-09-21 | 2020-04-02 | 西都速記株式会社 | Information processing system, information processing method, and information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP6323828B2 (en) | 2018-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
JP5207642B2 (en) | System, method and computer program for acquiring a character string to be newly recognized as a phrase | |
JP2007004633A (en) | Language model generation device and language processing device using language model generated by the same | |
US10410632B2 (en) | Input support apparatus and computer program product | |
US10304457B2 (en) | Transcription support system and transcription support method | |
KR101709693B1 (en) | Method for Web toon Language Automatic Translating Using Crowd Sourcing | |
JP2018185561A (en) | Dialogue support system, dialogue support method, and dialogue support program | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
US9798804B2 (en) | Information processing apparatus, information processing method and computer program product | |
JP5189413B2 (en) | Voice data retrieval system | |
JP6323828B2 (en) | Support device, information processing method, and program | |
JP6664466B2 (en) | Process execution device, control method of process execution device, and control program | |
KR20120045906A (en) | Apparatus and method for correcting error of corpus | |
JP2013134753A (en) | Wrong sentence correction device, wrong sentence correction method and program | |
JP2020166501A (en) | Segmentation model generation system, text segmentation device and segmentation model generation method | |
JP4941495B2 (en) | User dictionary creation system, method, and program | |
JP4304146B2 (en) | Dictionary registration device, dictionary registration method, and dictionary registration program | |
JP2018156593A (en) | Information processing apparatus, information processing method, and program | |
CN112951204B (en) | Speech synthesis method and device | |
JP3958908B2 (en) | Transcription text automatic generation device, speech recognition device, and recording medium | |
JP2003006190A (en) | Device, method and program for preparing dictionary, device, method and program for automatic translation, computer-readable recording medium with dictionary preparation program recorded thereon, computer readable recording medium with automatic translation program recorded thereon and preparation of translation sentence | |
JP2010211004A (en) | Dictionary preparing device, dictionary preparing system, dictionary preparing method, and dictionary preparing program | |
US20130080144A1 (en) | Machine translation apparatus, a method and a non-transitory computer readable medium thereof | |
JP6590617B2 (en) | Information processing method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180313 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20180315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6323828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |