[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6511189B1 - Information processing system and transcription method - Google Patents

Information processing system and transcription method Download PDF

Info

Publication number
JP6511189B1
JP6511189B1 JP2018204832A JP2018204832A JP6511189B1 JP 6511189 B1 JP6511189 B1 JP 6511189B1 JP 2018204832 A JP2018204832 A JP 2018204832A JP 2018204832 A JP2018204832 A JP 2018204832A JP 6511189 B1 JP6511189 B1 JP 6511189B1
Authority
JP
Japan
Prior art keywords
data
section
voice data
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018204832A
Other languages
Japanese (ja)
Other versions
JP2020072367A (en
Inventor
永瀬 哲也
哲也 永瀬
Original Assignee
株式会社ジェイ・エックス・ウィンド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジェイ・エックス・ウィンド filed Critical 株式会社ジェイ・エックス・ウィンド
Priority to JP2018204832A priority Critical patent/JP6511189B1/en
Application granted granted Critical
Publication of JP6511189B1 publication Critical patent/JP6511189B1/en
Publication of JP2020072367A publication Critical patent/JP2020072367A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】文字起こし対象の音声の内容の秘匿性を高める。【解決手段】管理装置12は、文字起こしの対象の音声が録音された対象音声データを複数の区間に係る複数の区間音声データに分割する。管理装置12は、複数の区間音声データの少なくとも1つとダミー音声データの組を作業者装置16へ提供する。管理装置12は、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータとを受け付ける。管理装置12は、受け付けたテキストデータのうち、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、上記対象の音声を文字起こししたテキストデータを生成する。【選択図】図1An object of the present invention is to increase the secrecy of the content of a voice to be transcribed. A management device (12) divides target voice data in which a target voice of transcription is recorded into a plurality of section voice data relating to a plurality of sections. The management device 12 provides the worker device 16 with at least one of a plurality of section voice data and a set of dummy voice data. The management device 12 receives text data transcribed based on at least one of the plurality of section voice data and text data transcribed according to dummy voice data. The management device 12 generates text data in which the target speech is transcribed, using text data transcribed from at least one of the plurality of section voice data among the received text data. [Selected figure] Figure 1

Description

この発明は、データ処理技術に関し、特に情報処理システムおよび文字起こし方法に関する。   The present invention relates to data processing technology, and more particularly to an information processing system and transcription method.

音声として記録された会話から文字を起こす文字起こしシステムが提案されている(例えば特許文献1参照)。特許文献1の文字起こしシステムでは、サーバは、会話が録音された音声データを複数の音声区間に係る音声データに分割して、各音声区間の音声データを複数の情報端末に送信する。各情報端末は、音声データから文字起こしした文字列をサーバに出力し、サーバは、個々の文字列を結合して元の音声データの会話全体を文章化した文章データを構築する。   There has been proposed a transcription system for generating characters from a conversation recorded as speech (see, for example, Patent Document 1). In the transcription system of Patent Document 1, the server divides voice data in which a conversation has been recorded into voice data relating to a plurality of voice segments, and transmits voice data of each voice segment to a plurality of information terminals. Each information terminal outputs a character string generated by transcribing voice data to the server, and the server combines individual character strings to construct sentence data in which the entire conversation of the original voice data is sentenced.

特開2008−107624号公報JP, 2008-107624, A

文字起こしの対象となる音声は、機密事項が含まれる場合等、音声の内容が文字起こしを行う作業者にそのまま伝わることは望ましくないことがある。本発明者は、文字起こし対象の音声の内容の秘匿性を高めるための改善の余地があると考えた。   It may not be desirable for the sound to be transcribed to be transmitted as it is to the operator performing the transcription, such as when confidential matters are included. The inventor considered that there is room for improvement to enhance the secrecy of the content of the speech to be transcribed.

本発明は本発明者の上記課題認識に基づきなされたものであり、1つの目的は、文字起こし対象の音声の内容の秘匿性を高めることにある。   The present invention has been made on the basis of the above-mentioned problem recognition of the inventor, and one object is to enhance the secrecy of the content of speech to be transcribed.

上記課題を解決するために、本発明のある態様の情報処理システムは、文字起こしの対象の音声が録音された対象音声データを記憶する第1記憶部と、ダミーの音声が録音されたダミー音声データを記憶する第2記憶部と、対象音声データを複数の区間に係る複数の区間音声データに分割する分割部と、複数の区間音声データの少なくとも1つとダミー音声データの組を外部装置へ提供する提供部と、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータとを受け付ける受付部と、受付部が受け付けたテキストデータのうち、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、対象の音声を文字起こししたテキストデータを生成する生成部と、を備える。   In order to solve the above problems, an information processing system according to an aspect of the present invention includes a first storage unit storing target voice data in which a target voice of transcription is recorded, and a dummy voice in which a dummy voice is recorded A second storage unit for storing data, a division unit for dividing target voice data into a plurality of section voice data relating to a plurality of sections, and a set of at least one of a plurality of section voice data and dummy voice data to an external device A receiving unit for receiving, text data obtained by transcribing based on at least one of a plurality of section voice data, and text receiving unit for receiving text data obtained by transcribing based on dummy voice data; Of the data, text obtained by transcribing the target speech using text data transcribed based on at least one of the plurality of section speech data Comprising a generation unit for generating data.

本発明の別の態様は、文字起こし方法である。この方法は、文字起こしの対象の音声が録音された対象音声データと、ダミーの音声が録音されたダミー音声データとを記憶する情報処理システムが、対象音声データを複数の区間に係る複数の区間音声データに分割するステップと、複数の区間音声データの少なくとも1つとダミー音声データの組を外部装置へ提供するステップと、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータの両方を受け付けるステップと、受け付けたテキストデータのうち、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、対象の音声を文字起こししたテキストデータを生成するステップと、を実行する。   Another aspect of the present invention is a transcription method. According to this method, an information processing system for storing target voice data in which a target voice of transcription is recorded and dummy voice data in which a dummy voice is recorded includes a plurality of sections related to a plurality of sections of target voice data. The step of dividing into voice data, the step of providing at least one of a plurality of section voice data and a dummy voice data to an external device, text data transcribed from at least one of the plurality of section voice data A step of receiving both text data transcribed based on dummy speech data, and text data transcribed based on at least one of a plurality of section speech data among the accepted text data; Generating text data that transcribes the speech of

なお、以上の構成要素の任意の組合せ、本発明の表現を、装置、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。   Note that any combination of the above-described components, and one obtained by converting the expression of the present invention between a device, a computer program, a recording medium storing a computer program, and the like are also effective as an aspect of the present invention.

本発明によれば、文字起こし対象の音声の内容の秘匿性を高めることができる。   According to the present invention, the secrecy of the content of the speech to be transcribed can be enhanced.

実施例の文字起こしシステムの構成を示す図である。It is a figure showing composition of a transcription system of an example. 図1の管理装置の機能ブロックを示すブロック図である。It is a block diagram which shows the functional block of the management apparatus of FIG. 音声データの分割例を示す図である。It is a figure which shows the example of division | segmentation of audio | voice data. 音声データの例を示す図である。It is a figure which shows the example of audio | speech data. 区間音声データの割当例を示す図である。It is a figure which shows the example of allocation of area audio | speech data. 作業者による作業結果の例を示す図である。It is a figure which shows the example of the work result by a worker. 音声データの分割例を示す図である。It is a figure which shows the example of division | segmentation of audio | voice data.

実施例の文字起こしシステムは、文字起こしの対象となる音声(ユーザに関する音声であり、秘密情報が含まれうる音声)の少なくとも一部と、ダミーの音声の組を、文字起こしを行う作業者に提供して、それらの音声の両方を作業者に文字起こしさせる。これにより、文字起こしの対象となる音声全体の内容が漏洩するリスクを低減し、文字起こしの対象となる音声の内容の秘匿性を高めることができる。   The transcription system according to the embodiment is a system for transcribing a combination of at least a part of speech to be transcribed (a speech relating to the user and containing secret information) and a dummy speech. Provide and cause the operator to transcribe both of those sounds. As a result, it is possible to reduce the risk of leakage of the entire content of the speech to be transcribed, and to improve the secrecy of the content of the speech to be transcribed.

図1は、実施例の文字起こしシステム10の構成を示す。文字起こしシステム10は、文字起こしを支援する情報処理システムであり、管理装置12と、複数のユーザ端末14と、複数の作業者装置16を備える。文字起こしシステム10の各装置は、LAN・WAN・インターネット等を含む通信網18を介して接続される。文字起こしは、音声の内容をテキストに変換することであり、テープ起こしとも言える。   FIG. 1 shows the configuration of a transcription system 10 of the embodiment. The transcription system 10 is an information processing system that supports transcription, and includes a management device 12, a plurality of user terminals 14, and a plurality of worker devices 16. Each device of the transcription system 10 is connected via a communication network 18 including LAN, WAN, Internet, and the like. Transcription is the conversion of audio content into text, and may be called a transcription.

管理装置12は、文字起こしのウェブサービスを複数のユーザ端末14に提供する情報処理装置である。管理装置12の詳細な機能は後述する。   The management device 12 is an information processing device that provides a web service of transcription to a plurality of user terminals 14. Detailed functions of the management device 12 will be described later.

複数のユーザ端末14は、文字起こしサービスを利用するユーザにより操作される情報処理装置である。複数のユーザ端末14は、A社に所属するユーザaにより操作されるユーザ端末14aと、B社に所属するユーザbにより操作されるユーザ端末14bと、C社に所属するユーザcにより操作されるユーザ端末14cを含む。ユーザ端末14は、PC、タブレット端末、スマートフォンであってもよい。   The plurality of user terminals 14 are information processing devices operated by a user who uses the transcription service. The plurality of user terminals 14 are operated by a user terminal 14a operated by a user a belonging to company A, a user terminal 14b operated by a user b belonging to company B, and a user c belonging to company C It includes a user terminal 14c. The user terminal 14 may be a PC, a tablet terminal, or a smartphone.

複数の作業者装置16は、文字起こしを行う主体の情報処理装置である。実施例では、人間が音声を聞いてその音声をテキスト化する。複数の作業者装置16は、作業者xにより操作される作業者装置16xと、作業者yにより操作される作業者装置16yと、作業者zにより操作される作業者装置16zを含む。作業者装置16は、PC、タブレット端末、スマートフォンであってもよい。   The plurality of worker devices 16 are information processing devices that mainly perform transcription. In an embodiment, a human listens to speech and converts the speech into text. The plurality of worker devices 16 include a worker device 16x operated by the worker x, a worker device 16y operated by the worker y, and a worker device 16z operated by the worker z. The worker device 16 may be a PC, a tablet terminal, or a smartphone.

図2は、図1の管理装置12の機能ブロックを示すブロック図である。本明細書のブロック図で示す各ブロックは、ハードウェア的には、コンピュータのプロセッサ、CPU、メモリをはじめとする素子や電子回路、機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。   FIG. 2 is a block diagram showing functional blocks of the management device 12 of FIG. Each block shown in the block diagram of the present specification can be realized by hardware as a processor of a computer, a CPU, an element or electronic circuit such as a memory or an electronic circuit, or a mechanical device, and software can be realized by a computer program etc. However, here we describe the functional blocks that are realized by their coordination. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by a combination of hardware and software.

管理装置12は、制御部20、記憶部22、通信部24を備える。制御部20は、文字起こしサービスを提供するための各種データ処理を実行する。記憶部22は、制御部20により参照または更新されるデータを記憶する。通信部24は、所定の通信プロトコルにしたがって外部装置と通信する。制御部20は、通信部24を介して、ユーザ端末14および作業者装置16とデータを送受信する。   The management device 12 includes a control unit 20, a storage unit 22, and a communication unit 24. The control unit 20 executes various data processing for providing a transcription service. The storage unit 22 stores data referred to or updated by the control unit 20. The communication unit 24 communicates with an external device according to a predetermined communication protocol. The control unit 20 transmits and receives data to and from the user terminal 14 and the worker device 16 via the communication unit 24.

記憶部22は、対象音声記憶部30、ダミー音声記憶部32、割当規則記憶部34、配信データ記憶部36、作業結果記憶部38、文章記憶部40、正解記憶部42、評価記憶部44を含む。なお、記憶部22に記憶されるデータの少なくとも一部は、管理装置12とは別の記憶装置(不図示)に記憶されてもよく、管理装置12は、外部の記憶装置に記憶されたデータを参照・更新してもよいことはもちろんである。   The storage unit 22 includes a target voice storage unit 30, a dummy voice storage unit 32, an assignment rule storage unit 34, a distribution data storage unit 36, a work result storage unit 38, a sentence storage unit 40, a correct answer storage unit 42, and an evaluation storage unit 44. Including. Note that at least a portion of the data stored in storage unit 22 may be stored in a storage device (not shown) different from management device 12, and management device 12 stores data stored in an external storage device. Of course, you may refer to and update.

対象音声記憶部30は、ユーザ端末14から受け付けた音声データであって、文字起こしの対象となる音声(以下「対象音声」とも呼ぶ。)が録音された対象音声データを記憶する。ダミー音声記憶部32は、ユーザ端末14から受け付けた音声データではなく、ダミーの音声(以下「ダミー音声」とも呼ぶ。)が録音されたダミー音声データを記憶する。ダミー音声は、管理装置12の管理者(例えば文字起こしサービスを提供する企業の担当者)により予め定められた内容の音声である。   The target voice storage unit 30 stores target voice data which is voice data received from the user terminal 14 and on which a voice to be transcribed (hereinafter also referred to as “target voice”) is recorded. The dummy voice storage unit 32 stores not dummy voice data received from the user terminal 14 but dummy voice data in which dummy voice (hereinafter also referred to as “dummy voice”) is recorded. The dummy sound is a sound of content predetermined by the manager of the management apparatus 12 (for example, a person in charge of a company providing a transcription service).

正解記憶部42は、ダミー音声の内容を示すテキストデータを記憶する。なお、実施例では、ダミー音声データは、複数の区間に係る区間毎の音声データ(以下「区間音声データ」とも呼ぶ。)に予め分割され、ダミー音声記憶部32は、ダミー音声データに基づく複数の区間音声データを記憶することとする。また、正解記憶部42は、ダミー音声データに基づく複数の区間音声データそれぞれの内容を示すテキストデータ(以下「正解データ」とも呼ぶ。)を記憶することとする。   The correct answer storage unit 42 stores text data indicating the content of the dummy speech. In the embodiment, the dummy sound data is divided in advance into sound data for each section related to a plurality of sections (hereinafter also referred to as “section sound data”), and the dummy sound storage unit 32 is plurally based on the dummy sound data. Section voice data is stored. In addition, the correct answer storage unit 42 stores text data (hereinafter, also referred to as “correct answer data”) indicating the contents of each of a plurality of section voice data based on dummy voice data.

割当規則記憶部34は、対象音声データが分割された区間音声データと、ダミー音声データが分割された区間音声データを作業者に割り当てるための規則(以下「割当規則」とも呼ぶ。)を記憶する。割当規則は、割当部56の構成に関連して後述する。   The assignment rule storage unit 34 stores section voice data into which target voice data is divided, and a rule for assigning section voice data into which dummy voice data is divided to a worker (hereinafter also referred to as “assignment rule”). . The assignment rule will be described later in relation to the configuration of the assignment unit 56.

配信データ記憶部36は、複数の作業者のそれぞれに配信するデータであり、1つ以上の区間音声データを含む配信データを記憶する。例えば、配信データ記憶部36は、作業者x(作業者装置16x)への配信データ、作業者y(作業者装置16y)への配信データおよび作業者z(作業者装置16z)への配信データを記憶する。   The delivery data storage unit 36 is data to be delivered to each of a plurality of workers, and stores delivery data including one or more section voice data. For example, the delivery data storage unit 36 includes delivery data to the worker x (worker device 16x), delivery data to the worker y (worker device 16y), and delivery data to the worker z (worker device 16z). Remember.

作業結果記憶部38は、作業者x(作業者装置16x)による文字起こしの結果であるテキストデータ、作業者y(作業者装置16y)による文字起こしの結果であるテキストデータおよび作業者z(作業者装置16z)による文字起こしの結果であるテキストデータを記憶する。   The work result storage unit 38 includes text data that is the result of transcription by worker x (worker device 16 x), text data that is the result of transcription by worker y (worker device 16 y), and worker z (work The text data which is the result of the transcription by the user device 16z) is stored.

文章記憶部40は、後述の文章生成部62により生成された、対象音声全体の内容を示すテキストデータ(以下「文章データ」とも呼ぶ。)を記憶する。評価記憶部44は、後述の評価部66により生成された、複数の作業者に関する評価結果を記憶する。   The sentence storage unit 40 stores text data (hereinafter also referred to as “sentence data”) indicating the content of the entire target voice generated by a sentence generation unit 62 described later. The evaluation storage unit 44 stores evaluation results regarding a plurality of workers, which are generated by an evaluation unit 66 described later.

制御部20は、要求受付部50、変換部52、分割部54、割当部56、配信部58、作業結果受付部60、文章生成部62、文章提供部64、評価部66を含む。これら複数の機能ブロックの機能を実装したコンピュータプログラムが記憶部22に格納されてもよい。管理装置12のプロセッサは、そのコンピュータプログラムをメインメモリに読み出して実行することにより、制御部20の複数の機能ブロックの機能を発揮してもよい。   The control unit 20 includes a request reception unit 50, a conversion unit 52, a division unit 54, an allocation unit 56, a distribution unit 58, a work result reception unit 60, a sentence generation unit 62, a sentence provision unit 64, and an evaluation unit 66. A computer program in which the functions of the plurality of functional blocks are implemented may be stored in the storage unit 22. The processor of the management device 12 may exert the functions of a plurality of functional blocks of the control unit 20 by reading the computer program to the main memory and executing it.

要求受付部50は、音声の文字起こしを要求する複数の要求データを複数のユーザ端末14から受け付ける。要求受付部50は、受け付けた要求データを要求元のユーザまたはユーザ端末14に対応付けて対象音声記憶部30に保存する。ユーザ端末14aから受け付ける要求データは、A社に関する音声(社長の発言や会議の音声等)が録音された対象音声データを含む。また、ユーザ端末14bから受け付ける要求データは、B社に関する音声が録音された対象音声データを含む。また、ユーザ端末14cから受け付ける要求データは、C社に関する音声が録音された対象音声データを含む。   The request receiving unit 50 receives, from a plurality of user terminals 14, a plurality of request data for requesting transcription of voice. The request receiving unit 50 stores the received request data in the target voice storage unit 30 in association with the user or the user terminal 14 of the request source. The request data received from the user terminal 14a includes target voice data in which a voice related to company A (such as a statement from the president or a voice of a meeting) is recorded. In addition, the request data received from the user terminal 14b includes target voice data in which voice related to company B is recorded. In addition, the request data received from the user terminal 14c includes target voice data in which voice related to company C is recorded.

変換部52は、要求受付部50により受け付けられた複数の対象音声データのうち少なくとも1つの対象音声データを公知の音声変換機能により変換することで、複数の対象音声データの声質(音高、音圧、音色等)を均質化させる。これにより、複数の区間音声データを聞いた作業者が、それら区間音声データの元の対象音声が同一か否かを見分けることを困難にし、対象音声の内容の秘匿性を高めることができる。   The conversion unit 52 converts voice quality (pitch and sound of a plurality of target voice data by converting at least one target voice data of the plurality of target voice data received by the request receiving unit 50 using a known voice conversion function). Pressure, timbre etc.) This makes it difficult for a worker who has heard a plurality of section voice data to distinguish whether or not the original target voices of the section voice data are the same, thereby enhancing the secrecy of the content of the target voice.

実施例では、変換部52は、要求受付部50により受け付けられた複数の対象音声データの声質を、ダミー音声データの声質と同一または類似するものとなるよう変換する。これにより、複数の区間音声データを聞いた作業者が、それら区間音声データの元の対象音声が同一か否かを見分けることを困難にでき、また、ダミー音声か否かを見分けることを困難にでき、対象音声の内容の秘匿性を一層高めることができる。   In the embodiment, the converting unit 52 converts the voice quality of the plurality of target voice data received by the request receiving unit 50 so as to be the same as or similar to the voice quality of the dummy voice data. This makes it difficult for a worker who has heard a plurality of section voice data to distinguish whether or not the original target voice of the section voice data is the same, and makes it difficult to identify whether it is a dummy voice or not. It is possible to further enhance the secrecy of the content of the target voice.

分割部54は、対象音声記憶部30に記憶された対象音声データを複数の区間に係る複数の区間音声データに分割する。図3は、音声データの分割例を示す。分割部54は、A社の対象音声データAaを、区間音声データAa−1、区間音声データAa−2、区間音声データAa−3の3つに分割する。また、分割部54は、A社の対象音声データAbを、区間音声データAb−1、区間音声データAb−2、区間音声データAb−3の3つに分割する。同様に、分割部54は、B社の対象音声データBaおよび対象音声データBbを分割する。   The dividing unit 54 divides the target voice data stored in the target voice storage unit 30 into a plurality of section voice data relating to a plurality of sections. FIG. 3 shows an example of division of audio data. The dividing unit 54 divides the target voice data Aa of company A into three of section voice data Aa-1, section voice data Aa-2, and section voice data Aa-3. Further, the dividing unit 54 divides the target voice data Ab of company A into three of section voice data Ab-1, section voice data Ab-2, and section voice data Ab-3. Similarly, the dividing unit 54 divides the target voice data Ba and the target voice data Bb of company B.

既述したように、実施例では、ダミー音声データは、複数の区間音声データに予め分割されている。例えば図3では、ダミー音声データCaは、区間音声データCa−1と区間音声データCa−2の2つに分割されている。変形例として、分割部54は、対象音声データの分割時に、ダミー音声データを複数の区間音声データに分割してもよい。   As described above, in the embodiment, the dummy sound data is divided in advance into a plurality of section sound data. For example, in FIG. 3, the dummy sound data Ca is divided into two, that is, section sound data Ca-1 and section sound data Ca-2. As a modification, the dividing unit 54 may divide the dummy sound data into a plurality of section sound data at the time of dividing the target sound data.

分割部54は、複数の区間音声データのそれぞれについて、分割前の対象音声データまたはダミー音声データにおける位置情報(例えば先頭からの順番や時間位置等)を記憶部22に保存する。例えば、分割部54は、区間音声データAa−1について、対象音声データAaの1番目の区間であることを示す情報を保存し、また、区間音声データAa−2について、対象音声データAaの2番目の区間であることを示す情報を保存してもよい。   The dividing unit 54 stores, in the storage unit 22, position information (for example, the order from the beginning, the time position, and the like) in the target sound data before division or in the dummy sound data for each of the plurality of section sound data. For example, the division unit 54 stores, for the section sound data Aa-1, information indicating that it is the first section of the target sound data Aa, and for the section sound data Aa-2, 2 of the target sound data Aa. Information indicating that it is the second section may be stored.

図4は、音声データの例を示す。同図は音声の波形を示し、具体的には、同図の横軸は音声開始からの経過時間を示し、縦軸は音量を示している。分割部54は、音声を区切る区間がとりうる予め定められた最小時間と最大時間(言い換えれば最大長)を保持する。実施例における区間の最小時間は10秒(図4の終了範囲始点70)であり、最大時間は20秒(図4の終了範囲終点72)である。区間が短いほど音声内容の秘匿性は高くなるが、文字起こしの正確度は低下する。区間の最小時間と最大時間は、音声内容の秘匿性と文字起こしの正確度とを比較衡量して、適切な値に決定されてよい。   FIG. 4 shows an example of audio data. The figure shows the waveform of the voice. Specifically, the horizontal axis of the figure shows the elapsed time from the start of the voice, and the vertical axis shows the volume. The dividing unit 54 holds predetermined minimum time and maximum time (in other words, maximum length) which can be taken by the section dividing the voice. The minimum time of the section in the embodiment is 10 seconds (end range start point 70 in FIG. 4), and the maximum time is 20 seconds (end range end point 72 in FIG. 4). The shorter the section, the higher the secrecy of the speech content, but the less accurate the transcription. The minimum time and the maximum time of the section may be determined to be appropriate values by comparing the secrecy of the speech content and the transcription accuracy.

分割部54は、対象音声データにおける1つの区間の終了位置を決定する場合、予め定められた最小時間以上かつ最大時間以下の範囲内で、かつ、音量が所定の閾値未満の時点を区間の終了位置として決定する。例えば、図4の例では、音声開始から15.5秒の時点を区間の終了位置(分割点74)に決定する。次の区間については、分割部54は、図4の分割点74を開始位置とし、分割点74から10秒〜20秒の範囲内で、かつ、音量が所定の閾値未満の時点を次の区間の終了位置として決定する。なお、音量の閾値は、無音と見なされる音量の値でもよく、また、静かな室内の場合に想定される音量の値でもよい。例えば、音量の閾値は、0.002パスカル(40デシベル)であってもよい。   When the dividing unit 54 determines the end position of one section in the target audio data, the section ends when the volume falls within a range from the predetermined minimum time to the maximum time and the volume is less than the predetermined threshold. Determined as a position. For example, in the example of FIG. 4, a point of time 15.5 seconds after the start of speech is determined as the end position (division point 74) of the section. For the next section, the division unit 54 sets the division point 74 in FIG. 4 as the start position, and within the range of 10 seconds to 20 seconds from the division point 74, the time point at which the volume is less than the predetermined threshold is the next section. Determined as the end position of. Note that the threshold value of the volume may be a volume value considered to be silent, or may be a volume value assumed for a quiet room. For example, the volume threshold may be 0.002 Pascal (40 decibels).

対象音声において、単語の切れ目や意味の切れ目は、音量が小さくなりやすい。実施例では音量が閾値未満の位置を区間の終了位置とすることで、単語の切れ目や意味の切れ目を区間の終了位置とすることができ、文字起こしの正確性を高めることができる。   In the target voice, word breaks and word breaks are likely to decrease in volume. In the embodiment, by setting the position at which the volume is less than the threshold as the end position of the section, it is possible to set a word break or a meaning break as the end position of the section, and to improve the accuracy of transcription.

図2に戻り、割当部56は、割当規則記憶部34に記憶された割当規則にしたがって、対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を、複数の作業者のそれぞれに割り当てる。割当部56は、各作業者に割り当てた対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を配信データ記憶部36に格納する。   Returning to FIG. 2, the assignment unit 56 sets a plurality of sections of section voice data based on the target voice data and section voice data based on the dummy voice data according to the assignment rule stored in the assignment rule storage unit 34. Assign to each of. The assignment unit 56 stores in the delivery data storage unit 36 a set of section voice data based on the target voice data assigned to each worker and section voice data based on the dummy voice data.

実施例の割当規則は、1人の作業者に対して割り当てる複数の区間音声データが、互いに時間的・空間的に離れたものになるよう定められる。具体的には、(1)割当規則は、作業者装置16が複数存在する場合に、1つの作業者装置16に対して、1つの対象音声データを起原とする複数の区間音声データのうち一部の区間音声データを割り当てるよう定める。すなわち、割当規則は、1つの作業者装置16に対して、1つの対象音声データに基づく全ての区間音声データを割り当てることを禁止する。これにより、対象音声の内容の秘匿性を高めることができる。   The assignment rules of the embodiment are defined such that a plurality of section voice data to be assigned to one worker are temporally and spatially separated from one another. Specifically, (1) in the case where a plurality of worker devices 16 exist, the assignment rule applies to one worker device 16 among a plurality of section voice data originating from one target voice data. Decide to allocate some interval voice data. That is, the assignment rule prohibits assignment of all section voice data based on one target voice data to one worker device 16. Thereby, the secrecy of the content of the target voice can be enhanced.

また、(2)割当規則は、1つの作業者装置16に対して、1つの対象音声データにおいて時間的に連続する複数の区間音声データを割り当てることを禁止する。言い換えれば、割当規則は、1つの対象音声データにおいて時間的に連続する複数の区間音声データを異なる作業者に割り当てるよう規定する。例えば、図3の区間音声データAa−1と区間音声データAa−2を同じ作業者に割り当てることを禁止し、異なる作業者に割り当てるよう規定する。これにより、対象音声の内容の秘匿性をさらに高めることができる。   In addition, (2) the assignment rule prohibits assignment of a plurality of section voice data continuous in time in one target voice data to one worker device 16. In other words, the assignment rule prescribes that a plurality of section voice data continuous in time in one target voice data be assigned to different workers. For example, it is defined that the section voice data Aa-1 and the section voice data Aa-2 in FIG. 3 are prohibited from being assigned to the same worker, and are assigned to different workers. This can further enhance the secrecy of the content of the target voice.

また、(3)割当規則は、1つの作業者装置16に対して複数の区間音声データを提供する場合に、1つの対象音声データを起原とする複数の区間音声データを提供することより、異なる対象音声データを起原とする複数の区間音声データを提供することを優先するよう定める。異なる対象音声データを起原とする複数の区間音声データは、内容が関連しない可能性が高いため、各対象音声の内容の秘匿性をさらに一層高めることができる。   In addition, (3) in the case of providing a plurality of section voice data to one worker device 16, the allocation rule provides a plurality of section voice data originating from one target voice data, It is determined to give priority to providing a plurality of section voice data originating from different target voice data. Since there is a high possibility that the content is not related to the plurality of section voice data originating from different target voice data, the confidentiality of the content of each target voice can be further enhanced.

また、(4)割当規則は、1つの作業者装置16に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先するよう定める。異なる組織に関する異なる対象音声データを起原とする複数の区間音声データは、内容が関連しない可能性が一層高いため、各対象音声の内容の秘匿性をさらに一層高めることができる。   Further, (4) in the case where a plurality of section voice data originating from different target voice data is provided to one worker device 16, a plurality of assignment rules originate from different target voice data relating to the same organization. By providing section voice data, it is determined to give priority to providing a plurality of section voice data originating from different target voice data relating to different tissues. Since a plurality of section voice data originating from different target voice data relating to different organizations is more likely to be unrelated to the content, the confidentiality of the content of each target voice can be further enhanced.

図5は、区間音声データの割当例を示す。同図に示す区間音声データは、図3に示した区間音声データに対応する。同図の例では、割当部56は、作業者xに対して、対象音声データAaを起原とする区間音声データAa−1と、ダミー音声データCaを起原とする区間音声データCa−1と、対象音声データBbを起原とする区間音声データBb−2を割り当てている。また、割当部56は、作業者yと作業者zにもそれぞれ、異なる組織の異なる対象音声データを起原とする複数の区間音声データを割り当てている。   FIG. 5 shows an example of assignment of section voice data. The section voice data shown in the figure corresponds to the section voice data shown in FIG. In the example of the figure, the assignment unit 56 gives the worker x the section voice data Aa-1 originating from the target voice data Aa and the section voice data Ca-1 originating from the dummy voice data Ca. And section voice data Bb-2 originating from the target voice data Bb. In addition, the assignment unit 56 assigns a plurality of section voice data originating from different target voice data of different organizations to the worker y and the worker z, respectively.

図2に戻り、配信部58は、割当部56による割当結果にしたがって、各作業者へ区間音声データを提供する。具体的には、配信部58は、配信データ記憶部36に記憶された対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を各作業者の作業者装置16へ提供する。   Returning to FIG. 2, the distribution unit 58 provides the section voice data to each worker according to the allocation result by the allocation unit 56. Specifically, distribution unit 58 provides a set of section voice data based on the target voice data stored in delivery data storage section 36 and section voice data based on dummy voice data to worker device 16 of each worker. Do.

実施例では、配信部58は、文字起こし作業を行うためのウェブページ(以下「作業ページ」とも呼ぶ。)を複数の作業者装置16に送信し、表示させる。配信部58は、作業者x用の作業ページを作業者装置16xに提供し、作業者y用の作業ページを作業者装置16yに提供し、作業者z用の作業ページを作業者装置16zに提供する。なお、配信部58は、各作業者用の作業ページのURLを電子メール等により各作業者の作業者装置16へ通知してもよい。   In the embodiment, the distribution unit 58 transmits a web page (hereinafter also referred to as “work page”) for performing the transcription work to the plurality of worker devices 16 and causes the plurality of worker devices 16 to display the web page. The distribution unit 58 provides a work page for the worker x to the worker device 16x, provides a work page for the worker y to the worker device 16y, and a work page for the worker z to the worker device 16z. provide. The distribution unit 58 may notify the worker device 16 of each worker of the URL of the work page for each worker by e-mail or the like.

配信部58は、作業者x用の作業ページのデータに、割当部56により作業者xに割り当てられた区間音声データ(図5の例では区間音声データAa−1、区間音声データCa−1、区間音声データBb−2)を含める。同様に、配信部58は、作業者y(作業者z)用の作業ページのデータに、割当部56により作業者y(作業者z)に割り当てられた区間音声データを含める。なお、配信部58は、各作業者用の作業ページに、各区間音声データを再生するためのボタン、各区間音声データの音声を文字起こしした結果のテキストを入力するエリア、送信ボタンを配置する。   The distribution unit 58 assigns section voice data assigned to the worker x by the assignment unit 56 to data of a work page for the worker x (section voice data Aa-1, section voice data Ca-1, and so on in the example of FIG. 5). Section voice data Bb-2) is included. Similarly, the distribution unit 58 includes the section voice data assigned to the worker y (worker z) by the assigning unit 56 in the data of the work page for the worker y (worker z). In addition, the distribution unit 58 arranges a button for reproducing each section voice data, an area for inputting a text as a result of transcribing the sound of each section voice data, and a transmission button on the work page for each worker. .

作業結果受付部60は、各作業者の作業者装置16から送信された、各作業者による作業結果を受け付ける。実施例では、作業結果受付部60は、作業者x用の作業ページに入力された作業者xによる文字起こし結果を受け付け、作業者y用の作業ページに入力された作業者yによる文字起こし結果を受け付け、作業者z用の作業ページに入力された作業者zによる文字起こし結果を受け付ける。作業結果受付部60は、各作業者の作業結果を作業結果記憶部38に格納する。   The work result receiving unit 60 receives the work result by each worker transmitted from the worker device 16 of each worker. In the embodiment, the work result receiving unit 60 receives the transcription result by the worker x input to the work page for the worker x, and the transcription result by the worker y input to the work page for the worker y Is accepted, and the transcription result by the worker z input to the work page for the worker z is received. The work result receiving unit 60 stores the work result of each worker in the work result storage unit 38.

図6は、作業者による作業結果の例を示す。同図は、図5の割当に基づく作業結果を示している。例えば、作業者xによる作業結果は、テキストデータAa−1、テキストデータCa−1、テキストデータBb−2を含む。テキストデータAa−1は、対象音声データAaを起原とする区間音声データAa−1の音声を文字起こししたものである。また、テキストデータCa−1は、ダミー音声データCaを起原とする区間音声データCa−1の音声を文字起こししたものである。また、テキストデータBb−2は、対象音声データBbを起原とする区間音声データBb−2の音声を文字起こししたものである。   FIG. 6 shows an example of the work result by the worker. The figure shows the work result based on the assignment of FIG. For example, the work result by the worker x includes text data Aa-1, text data Ca-1, and text data Bb-2. The text data Aa-1 is obtained by transcribing the voice of the section voice data Aa-1 originating from the target voice data Aa. The text data Ca-1 is obtained by transcribing the voice of the section voice data Ca-1 originating from the dummy voice data Ca. The text data Bb-2 is obtained by transcribing the voice of the section voice data Bb-2 originating from the target voice data Bb.

図2に戻り、文章生成部62は、作業結果受付部60により受け付けられ、作業結果記憶部38に記憶されたテキストデータのうち、対象音声データを起原とする区間音声データをもとに文字起こししたテキストデータを用いて、対象音声の全体を文字起こしした文章データを生成する。文章生成部62は、文章データを生成する際、ダミー音声データを起原とする区間音声データをもとに文字起こししたテキストデータは使用しない。   Returning to FIG. 2, the text generation unit 62 generates text based on the section voice data originating from the target voice data among the text data received by the work result reception unit 60 and stored in the work result storage unit 38. Using the translated text data, text data is generated by transcribing the entire target voice. When generating sentence data, the sentence generation unit 62 does not use text data generated by transcribing based on interval speech data originating from dummy speech data.

文章生成部62は、分割部54により記憶部22に格納された各区間音声データの位置情報(すなわち対象音声データ内での位置情報)にしたがって、複数の区間音声データに基づくテキストデータを組み合わせることにより文章データを生成する。文章生成部62は、或る対象音声に対する文章データを、その対象音声の文字起こしを要求したユーザ(またはユーザ端末14)に対応付けて文章記憶部40に格納する。   The sentence generation unit 62 combines text data based on a plurality of section voice data in accordance with position information of each section voice data stored in the storage unit 22 by the division unit 54 (that is, position information in target voice data). Generate sentence data by. The sentence generation unit 62 stores sentence data for a certain target speech in the sentence storage unit 40 in association with the user (or the user terminal 14) that has requested transcription of the target speech.

図6の作業者xの作業結果に含まれるテキストデータAa−1は、対象音声データAaの1番目の区間に対応する区間音声データAa−1のテキストである。また、図6の作業者yの作業結果に含まれるテキストデータAa−2は、対象音声データAaの2番目の区間に対応する区間音声データAa−2のテキストである。また、図6の作業者zの作業結果に含まれるテキストデータAa−3は、対象音声データAaの3番目の区間に対応する区間音声データAa−3のテキストである。文章生成部62は、テキストデータAa−1、テキストデータAa−2、テキストデータAa−3をこの順に合成することにより、対象音声データAaの全体をテキスト化した文章データAaを生成する。   The text data Aa-1 included in the work result of the worker x in FIG. 6 is the text of the section voice data Aa-1 corresponding to the first section of the target voice data Aa. The text data Aa-2 included in the work result of the worker y in FIG. 6 is the text of the section voice data Aa-2 corresponding to the second section of the target voice data Aa. The text data Aa-3 included in the work result of the worker z in FIG. 6 is the text of the section voice data Aa-3 corresponding to the third section of the target voice data Aa. The sentence generation unit 62 synthesizes the text data Aa-1, the text data Aa-2, and the text data Aa-3 in this order to generate the sentence data Aa in which the entire target speech data Aa is converted into text.

図2に戻り、文章提供部64は、文章記憶部40に記憶された文章データを、文字起こしの要求元のユーザ(ユーザ端末14)へ送信する。例えば、文章提供部64は、図6に示した対象音声データAaが文字起こしされた文章データAaを、その文字起こしを要求したユーザa(ユーザ端末14a)へ送信する。なお、文章提供部64は、ユーザ端末14aから文章データの提供要求を受け付けたことを契機に、文章記憶部40に記憶された複数の文章データのうち、ユーザaに対応付けられた文章データをユーザ端末14aへ送信してもよい。   Returning to FIG. 2, the sentence providing unit 64 transmits the sentence data stored in the sentence storage unit 40 to the user (user terminal 14) that has requested transcription. For example, the sentence providing unit 64 transmits the sentence data Aa in which the target voice data Aa illustrated in FIG. 6 is transcribed to the user a (user terminal 14a) that has requested the transcription. The sentence providing unit 64 receives, from the plurality of sentence data stored in the sentence storage unit 40, the sentence data associated with the user a when the provision request for the sentence data is received from the user terminal 14a. You may transmit to the user terminal 14a.

評価部66は、正解記憶部42に予め記憶された正解データと、各作業者によるダミー音声の文字起こし結果(作業結果受付部60により受け付けられ、作業結果記憶部38に記憶されたテキストデータ)とを比較することにより、各作業者を評価する。例えば、評価部66は、ダミー音声データCaを起原とする区間音声Ca−1の正解データと、作業xによる区間音声Ca−1の文字起こし結果であるテキストデータCa−1とを比較することにより、作業者xを評価する。   The evaluation unit 66 is the correct answer data stored in advance in the correct answer storage unit 42 and the transcription result of the dummy voice by each worker (text data received by the work result accepting unit 60 and stored in the work result storage unit 38) Evaluate each worker by comparing with. For example, the evaluation unit 66 compares the correct answer data of the section speech Ca-1 originating from the dummy speech data Ca with the text data Ca-1 which is a transcription result of the section speech Ca-1 by the task x. The worker x is evaluated by

実施例では、評価部66は、形態素解析により、正解データを構成する形態素と、作業結果のテキストデータを構成する形態素とを抽出し、両者の間で一致する形態素が多いほど、作業者の変換精度が高いと評価し、作業者に高い評価値を付与する。なお、評価部66は、類義語辞書を参照し、正解データを構成する形態素と、作業結果のテキストデータを構成する形態素とが不一致であっても、類義語であれば一致すると見なしてもよい。このように実施例では、ダミー音声の文字起こし結果に基づいて、作業者を客観的に評価することができる。   In the embodiment, the evaluation unit 66 extracts morphemes constituting correct data and morphemes constituting text data of the work result by morpheme analysis, and as the number of morphemes coincident with each other increases, the operator converts It is evaluated that the accuracy is high, and the worker is given a high evaluation value. Note that the evaluation unit 66 may refer to the synonym dictionary, and even if the morpheme forming the correct data and the morpheme forming the text data of the work result do not match, it may be regarded as a match if it is a synonym. Thus, in the embodiment, the worker can be objectively evaluated based on the transcription result of the dummy voice.

評価部66は、複数の作業者それぞれの評価結果(評価値)を評価記憶部44に格納する。管理装置12は、評価記憶部44に記憶された各作業者の評価結果を外部装置に提供する評価結果出力部(不図示)をさらに備えてもよい。この場合の外部装置は、例えば、作業者との料金交渉や契約を行う担当者の端末でもよい。   The evaluation unit 66 stores the evaluation results (evaluation values) of each of the plurality of workers in the evaluation storage unit 44. The management apparatus 12 may further include an evaluation result output unit (not shown) that provides the external device with the evaluation result of each worker stored in the evaluation storage unit 44. The external device in this case may be, for example, a terminal of a person in charge of making a charge negotiation with the worker or making a contract.

以上の構成による文字起こしシステム10の動作を説明する。文字起こしシステム10の複数のユーザはそれぞれ、対象音声データをユーザ端末14から管理装置12へアップロードする。管理装置12の要求受付部50は、複数のユーザ端末14から送信された複数の対象音声データを受け付ける。管理装置12の変換部52は、複数の対象音声データの声質を予め定められた基準の声質(実施例ではダミー音声データと同じ声質であり、合成音声の声質でもよい)に変換する。   The operation of the transcription system 10 having the above configuration will be described. A plurality of users of the transcription system 10 upload target voice data from the user terminal 14 to the management apparatus 12 respectively. The request receiving unit 50 of the management device 12 receives a plurality of target voice data transmitted from a plurality of user terminals 14. The conversion unit 52 of the management device 12 converts the voice quality of a plurality of target voice data into a predetermined reference voice quality (in the embodiment, the voice quality is the same as the dummy voice data, and may be synthetic voice quality).

管理装置12の分割部54は、複数の対象音声データのそれぞれを複数の区間音声データに分割する。管理装置12の割当部56は、対象音声データの区間音声データと、ダミー音声データの区間音声データの組を、各作業者に割り当てる。管理装置12の配信部58は、各作業者用のウェブページにて、対象音声データの区間音声データと、ダミー音声データの区間音声データの組を各作業者に提示する。   The dividing unit 54 of the management device 12 divides each of the plurality of target voice data into a plurality of section voice data. The assignment unit 56 of the management device 12 assigns a set of section voice data of the target voice data and section voice data of the dummy voice data to each worker. The distribution unit 58 of the management device 12 presents, to each worker, a set of section voice data of the target voice data and section voice data of the dummy voice data on the web page for each worker.

作業者は、自身向けのウェブページにて自身に割り当てられた区間音声データを再生し、その音声内容を示すテキストをウェブページの所定エリアに入力する。作業者がウェブページの送信ボタンを押下すると、作業者装置16は、作業者が上記所定エリアに入力したテキストデータを管理装置12へ送信する。   The worker reproduces the section voice data assigned to him / her in the web page directed to himself / herself, and inputs text indicating the voice contents in a predetermined area of the web page. When the worker presses the web page transmission button, the worker device 16 transmits the text data input to the predetermined area by the worker to the management device 12.

管理装置12の作業結果受付部60は、各作業者の作業者装置16から送信された対象音声データの区間音声を文字起こししたテキストデータと、ダミー音声データの区間音声を文字起こししたテキストデータを受け付ける。管理装置12の文章生成部62は、各作業者の作業者装置16から送信された対象音声データの区間音声を文字起こししたテキストデータを合成して、対象音声データ全体の音声をテキスト化した文章データを生成する。   The work result receiving unit 60 of the management device 12 has text data obtained by transcribing the section voice of the target voice data transmitted from the worker device 16 of each worker and text data obtained by transcribing the section voice of the dummy voice data. Accept. The sentence generation unit 62 of the management device 12 synthesizes text data obtained by transcribing the section voice of the target voice data transmitted from the worker device 16 of each worker, and a sentence obtained by converting the voice of the entire target voice data into text Generate data.

管理装置12の文章提供部64は、各対象音声データに対応する文章データを、各対象音声データをアップロードしたユーザ端末14へ送信する。ユーザは、自身がアップロードした対象音声データに対応する文章データを得て業務を進める。管理装置12の評価部66は、予め内容が定められたダミー音声データに対する文字起こし結果をもとに、各作業者の評価値を決定する。   The sentence providing unit 64 of the management device 12 transmits the sentence data corresponding to each target voice data to the user terminal 14 that has uploaded each target voice data. The user obtains the sentence data corresponding to the target voice data uploaded by the user and proceeds with the task. The evaluation unit 66 of the management device 12 determines the evaluation value of each worker based on the transcription result of the dummy voice data whose content is previously determined.

以上、本発明を実施例をもとに説明した。この実施例は例示であり、実施例に記載の各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を示す。   The present invention has been described above based on the embodiments. It is understood by those skilled in the art that this embodiment is an exemplification, and that various modifications can be made to the combination of each component described in the embodiment and each processing process, and such a modification is also within the scope of the present invention. It is about Hereinafter, modified examples are shown.

第1変形例を説明する。管理装置12の分割部54は、対象音声データを分割して、第1区間に係る第1区間音声データと、第1区間の直後の第2区間に係る第2区間音声データを生成する場合に、第1区間の一部と第2区間の一部を重複させてもよい。言い換えれば、分割部54は、第1区間と第2区間にのりしろとなる時間領域を設けてもよい。   A first modification will be described. The dividing unit 54 of the management device 12 divides the target voice data to generate the first section voice data of the first section and the second section voice data of the second section immediately after the first section. , A part of the first section and a part of the second section may be overlapped. In other words, the division unit 54 may provide a time region that is an extension of the first section and the second section.

図7は、音声データの分割例を示す。ここでは、対象音声データ80は、区間音声データ82a、区間音声データ82b、区間音声データ82c、区間音声データ82dの4つに分割される。分割部54は、区間音声データ82aと区間音声データ82bに、重複期間84aと重複期間84bを設ける。また、分割部54は、区間音声データ82bと区間音声データ82cに、重複期間84cと重複期間84dを設ける。また、分割部54は、区間音声データ82cと区間音声データ82dに、重複期間84eと重複期間84fを設ける。ここでは、重複期間84a〜重複期間84fのそれぞれは、2.5秒とする。   FIG. 7 shows an example of division of audio data. Here, the target voice data 80 is divided into four of the section voice data 82a, the section voice data 82b, the section voice data 82c, and the section voice data 82d. The dividing unit 54 provides an overlap period 84 a and an overlap period 84 b in the section voice data 82 a and the section voice data 82 b. Further, the dividing unit 54 provides an overlapping period 84c and an overlapping period 84d in the section audio data 82b and the section audio data 82c. Further, the dividing unit 54 provides an overlapping period 84 e and an overlapping period 84 f in the section audio data 82 c and the section audio data 82 d. Here, each of the overlapping period 84 a to the overlapping period 84 f is 2.5 seconds.

図7の例では、区間音声データ82aは、対象音声データ80の開始点から15秒の区間の音声である。区間の終了位置は、実施例に記載の方法により決定してよい。この区間では終了前5秒が重複期間(重複期間84a+重複期間84b)となる。区間音声データ82bは、対象音声データ80の開始点から10秒以降、25秒までの区間の音声である。この区間では開始後5秒と終了前5秒が重複期間となる。区間音声データ82aと区間音声データ82bは、異なる作業者に割り当てられるが、重複期間84aと重複期間84bの音声は、異なる作業者の両者が文字起こしを行う。   In the example of FIG. 7, the section voice data 82 a is a voice of a section of 15 seconds from the start point of the target voice data 80. The end position of the section may be determined by the method described in the embodiment. In this section, 5 seconds before the end is the overlapping period (overlapping period 84 a + overlapping period 84 b). The section sound data 82 b is sound of a section from 10 seconds to 25 seconds after the start point of the target sound data 80. In this section, 5 seconds after the start and 5 seconds before the end are overlapping periods. Although the section voice data 82a and the section voice data 82b are assigned to different workers, voices of the overlapping period 84a and the overlapping period 84b are transcribed by both different workers.

また、区間音声データ82cは、対象音声データ80の開始点から20秒以降、35秒までの区間の音声である。この区間では開始後5秒と終了前5秒が重複期間となる。区間音声データ82dは、対象音声データ80の開始点から30秒以降、45秒までの区間の音声である。この区間では開始後5秒が重複期間となる。   The section voice data 82c is a voice of a section from 20 seconds to 35 seconds after the start point of the target voice data 80. In this section, 5 seconds after the start and 5 seconds before the end are overlapping periods. The section sound data 82 d is sound of a section from 30 seconds to 45 seconds from the start point of the target sound data 80. In this section, 5 seconds after the start is the overlapping period.

文章生成部62は、時間的に連続する第1区間音声データ(例えば区間音声データ82a)のテキストデータと、第2区間音声データ(例えば区間音声データ82b)のテキストデータについて、重複期間における所定数の文字(所定数の形態素でもよい)が一致するように両者のテキストデータを合成する。   The sentence generation unit 62 generates a predetermined number of overlapping text data of the first interval audio data (for example, interval audio data 82a) and the text data of the second interval audio data (for example, interval audio data 82b) that are continuous in time. The two text data are combined so that the characters of (or a predetermined number of morphemes) may match.

また、文章生成部62は、重複期間におけるテキストデータとして、端部から遠い方の区間音声データのテキストを採用する。言い換えれば、各区間音声データの端部に対応するテキストデータ(例えば所定数の文字や形態素)は、合成語の文章データには反映しない。例えば、文章生成部62は、重複期間84aについて、区間音声データ82aに基づくテキストデータを採用する一方、重複期間84bについては、区間音声データ82bに基づくテキストデータを採用する。同様に、文章生成部62は、重複期間84cについて、区間音声データ82bに基づくテキストデータを採用する一方、重複期間84dについては、区間音声データ82cに基づくテキストデータを採用する。   In addition, the sentence generation unit 62 adopts the text of the section voice data far from the end as the text data in the overlapping period. In other words, the text data (for example, a predetermined number of characters and morphemes) corresponding to the end of each section voice data is not reflected in the text data of the synthetic word. For example, the sentence generation unit 62 adopts text data based on the section audio data 82a for the overlapping period 84a, while adopting text data based on the section audio data 82b for the overlapping period 84b. Similarly, the sentence generation unit 62 adopts text data based on the section audio data 82b for the overlapping period 84c, while adopting text data based on the section audio data 82c for the overlapping period 84d.

本発明者は、文字起こしに関するPoC(Proof of Concept)を実施する中で、区間音声データにおける開始時と終了時はテキスト化の正確度が低下することを認識した。そこで、本変形例では、時間的に連続する第1区間音声データと第2区間音声データに重複期間を設け、第1区間音声データのテキストデータと第2区間音声データのテキストデータにおいてテキスト化の正確度が高いと考えられる部分を文章データに反映することにより、文章データの正確度を高めることができる。   The present inventors have recognized that the accuracy of text conversion decreases at the start and end of interval speech data in carrying out a proof of concept (PoC) for transcription. Therefore, in the present modification, an overlapping period is provided for the first interval audio data and the second interval audio data that are temporally continuous, and the text data of the first interval audio data and the text data of the second interval audio data The accuracy of the text data can be improved by reflecting the portion of the text data that is considered to have a high degree of accuracy.

第2変形例を説明する。上記実施例では、人が対象音声およびダミー音声を聞いて文字起こししたが、変形例として、コンピュータ(少なくとも一部の作業者装置16)が、文字起こし処理を自動で実行してもよい。この場合、配信部58は、作業者装置16がネットワーク上に公開する文字起こし依頼用APIを呼び出すとともに、1つ以上の区間音声データ(例えば図5の配信データ)を作業者装置16へ送信してもよい。作業結果受付部60は、作業者装置16の文字起こし依頼用APIの返値として、文字起こし結果のテキストデータを受け付けてもよい。   A second modification will be described. In the above embodiment, the person hears the target voice and the dummy voice and transcribes them. However, as a modification, the computer (at least some of the worker devices 16) may automatically execute the transcription process. In this case, the distribution unit 58 calls the transcription request API that the worker device 16 discloses on the network, and transmits one or more section voice data (for example, distribution data in FIG. 5) to the worker device 16 May be The work result receiving unit 60 may receive text data of a transcription result as a return value of the transcription request API of the worker device 16.

第2変形例に関連する第3変形例を説明する。文字起こしは、コンピュータによる文字起こしと人による文字起こしの両方が実行されてもよい。具体的には、管理装置12の配信部58は、まず、文字起こし処理を自動実行する第1の作業者装置へ1つ以上の区間音声データ(例えば図5の配信データ)を送信し、作業結果受付部60は、文字起こし処理の結果を第1の作業者装置から取得してもよい。次に、配信部58は、人手により文字起こしを行う第2の作業者装置へ、第1の作業者装置による文字起こし処理の結果を送信し、作業結果受付部60は、人手による文字起こし(ここでは点検・編集)の結果を第2の作業者装置から取得してもよい。この構成によると、人は、コンピュータによる文字起こしの結果を点検・編集する役目となるため、人件費を抑えつつ、文字起こしの正確度を高めることができる。   A third modified example related to the second modified example will be described. The transcription may be performed by both computer transcription and human transcription. Specifically, the distribution unit 58 of the management device 12 first transmits one or more section voice data (for example, the distribution data of FIG. 5) to the first worker device that automatically executes the transcription process, The result receiving unit 60 may obtain the result of the transcription process from the first worker device. Next, the distribution unit 58 transmits the result of the transcription process by the first worker device to the second worker device that manually performs the transcription, and the work result receiving unit 60 Here, the result of the inspection / editing may be acquired from the second worker device. According to this configuration, a person is in charge of checking and editing the result of the transcription by the computer, so that the accuracy of the transcription can be increased while suppressing the labor cost.

第4変形例を説明する。上記実施例では言及していないが、割当部56は、評価記憶部44に記憶された評価値が高い作業者ほど優先して、区間音声データの文字起こしを割り当ててもよい。また、配信部58は、評価記憶部44に記憶された評価値が高い作業者ほど優先して、区間音声データを配信してもよい。言い換えれば、評価記憶部44に記憶された評価値が相対的に高い作業者に対して、評価値が相対的に低い作業者より優先して、区間音声データを割り当て、または配信してもよい。これにより、文字起こしの正確度を高めやすくなる。   A fourth modification will be described. Although not mentioned in the above embodiment, the assigning unit 56 may assign the transcription of the section voice data in preference to the worker with the higher evaluation value stored in the evaluation storage unit 44. In addition, the distribution unit 58 may distribute section voice data with priority given to workers with higher evaluation values stored in the evaluation storage unit 44. In other words, section voice data may be allocated or distributed to a worker with a relatively high evaluation value stored in the evaluation storage unit 44 in preference to a worker with a relatively low evaluation value. . This makes it easy to increase the accuracy of the transcription.

第5変形例を説明する。上記実施例では言及していないが、評価部66による作業者の評価は、文章生成部62による文章データ生成前に実行されてもよい。文章生成部62は、或る作業者の評価値が所定の閾値未満の場合、当該作業者(以下「低評価者」と呼ぶ。)による文字起こし結果(テキストデータ)を用いた文章データの生成を中止してもよい。この場合、割当部56は、低評価者に対して割り当てた区間音声データを、他の作業者(評価値が上記閾値以上の作業者)に割り当て直してもよい。配信部58は、低評価者に対して提供した区間音声データを、上記他の作業者へ提供し、文字起こしを依頼してもよい。これにより、正確度が低い文字起こし結果をユーザに提供してしまうことを回避し、また、文字起こしの正確度を一層高めることができる。   A fifth modification will be described. Although not mentioned in the above embodiment, the evaluation of the worker by the evaluation unit 66 may be performed before the text data generation by the text generation unit 62. When the evaluation value of a certain worker is less than a predetermined threshold value, the sentence generation unit 62 generates sentence data using a transcription result (text data) by the worker (hereinafter referred to as “low evaluator”). You may cancel In this case, the allocating unit 56 may reallocate the section voice data allocated to the low evaluator to another worker (worker whose evaluation value is equal to or higher than the threshold). The distribution unit 58 may provide the section voice data provided to the low rater to the other worker and request the transcription. This makes it possible to avoid providing the transcription result with low accuracy to the user, and to further increase the transcription accuracy.

第6変形例を説明する。上記実施例では言及していないが、割当部56は、同一の作業者に対する配信データでは、少なくとも所定期間、異なるダミー音声データ(少なくとも区間音声データとしては異なるもの)を提供することが望ましい。例えば、割当部56は、作業者毎に、割り当てたダミー音声データ(その区間音声データ)の識別情報を保存し、依頼の都度、ダミー音声データ(区間音声データ)を変化させてもよい。これにより、作業者がダミー音声を判別することを困難にし、対象音声の内容の秘匿性を高めることができる。   A sixth modification will be described. Although not mentioned in the above embodiment, it is desirable that the allocation unit 56 provide different dummy sound data (at least different as section sound data) for at least a predetermined period in the distribution data for the same worker. For example, the assignment unit 56 may save identification information of the assigned dummy sound data (the section sound data thereof) for each worker, and change the dummy sound data (section sound data) each time a request is made. This makes it difficult for the operator to determine the dummy speech, and the confidentiality of the content of the target speech can be enhanced.

第7変形例を説明する。上記実施例の管理装置12は、各作業者用のウェブページを作業者装置16へ提供し、各作業者用のウェブページにて、各作業者に区間音声データを再生させ、また、各作業者に区間音声データの文字起こし結果を入力させた。変形例では、管理装置12の配信部58は、対象音声の区間音声データおよびダミー音声の区間音声暗号データを暗号化した暗号データを作業者装置16へ送信してもよい。管理装置12の作業結果受付部60は、各作業者による文字起こし結果のテキストデータを暗号化した暗号データを作業者装置16から受け付けてもよい。   A seventh modification will be described. The management apparatus 12 of the above embodiment provides a web page for each worker to the worker device 16, and causes each worker to reproduce the section voice data on the web page for each worker, and each work Was asked to input the transcript result of the section voice data. In a modification, the distribution unit 58 of the management device 12 may transmit, to the worker device 16, encrypted data obtained by encrypting the section voice data of the target voice and the section voice encrypted data of the dummy voice. The work result receiving unit 60 of the management device 12 may receive, from the worker device 16, encrypted data obtained by encrypting text data of a transcription result by each worker.

第8変形例を説明する。対象音声の区間音声データの中に、ダミー音声の区間音声データをいくつ挿入するか、または、作業者に割り当てる対象音声の区間音声データとダミー音声の区間音声データとの比率は、ユーザが要求する対象音声の秘匿性強度により決定されてもよい。すなわち、要求される秘匿性強度が強いほど、ダミー音声の区間音声データが配信データに挿入される個数が多くなるよう割当規則が定められてもよい。または、配信データにおける、対象音声の区間音声データに対するダミー音声の区間音声データの比率が高くなるよう割当規則が定められてもよい。なお、上記の挿入数または比率が大きいほど、秘匿性が高まるため、文字起こしサービスの販売価格が高く定められてもよい。   An eighth modification will be described. How many dummy voice interval voice data should be inserted into the target voice interval voice data, or the ratio of the target voice interval voice data to the dummy voice interval voice data to be assigned to the worker is required by the user It may be determined by the confidentiality strength of the target voice. That is, the allocation rule may be set such that the number of section voice data of dummy voice inserted into the distribution data increases as the required level of confidentiality strength increases. Alternatively, the allocation rule may be defined such that the ratio of the section voice data of the dummy voice to the section voice data of the target voice in the distribution data is high. In addition, since the secrecy is enhanced as the above insertion number or ratio is larger, the selling price of the transcription service may be set higher.

第9変形例を説明する。上記実施例に記載の文字起こしシステム10の構成は一例であり、物理的な構成(筐体数等)に制限がないことはもちろんである。例えば、オリジナルの音声データを分割し、区間音声データを作業者装置16へ提供する機能と、作業者による文字起こし結果を収集し、文章データを生成してユーザに提供する機能とは、別の装置により実現されてもよい。   A ninth modification will be described. The configuration of the transcription system 10 described in the above embodiment is merely an example, and it is a matter of course that there is no limitation on the physical configuration (the number of cases, etc.). For example, the function of dividing original voice data and providing section voice data to the worker device 16 and the function of collecting a result of transcription by the worker and generating text data and providing it to the user are different. It may be realized by an apparatus.

上述した実施例および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施例および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施例および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。   Any combination of the above-described embodiments and variations is also useful as an embodiment of the present invention. The new embodiments resulting from the combination combine the effects of each of the combined embodiments and variations. Further, it is understood by those skilled in the art that the functions to be performed by the respective constituent elements described in the claims can be realized by a single member of each constituent shown in the embodiment and the modification or a combination thereof.

10 文字起こしシステム、 12 管理装置、 14 ユーザ端末、 16 作業者装置、 52 変換部、 54 分割部、 58 配信部、 60 作業結果受付部、 62 文章生成部、 64 文章提供部、 66 評価部。   10 transcription system, 12 management devices, 14 user terminals, 16 worker devices, 52 conversion units, 54 division units, 58 distribution units, 60 work result reception units, 62 sentence generation units, 64 sentence provision units, 66 evaluation units.

Claims (6)

文字起こしの対象の音声が録音された対象音声データを記憶する第1記憶部と、
ダミーの音声が録音されたダミー音声データを記憶する第2記憶部と、
前記対象音声データを複数の区間に係る複数の区間音声データに分割する分割部と、
前記複数の区間音声データの少なくとも1つと前記ダミー音声データの組を外部装置へ提供する提供部と、
前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、前記ダミー音声データをもとに文字起こししたテキストデータとを受け付ける受付部と、
前記受付部が受け付けたテキストデータのうち、前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、前記対象の音声を文字起こししたテキストデータを生成する生成部と、
前記ダミー音声データに録音された予め定められた音声の内容を示すテキストデータを記憶する第3記憶部と、
評価部と、
を備え
前記提供部は、1つの外部装置に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先し、
前記評価部は、前記第3記憶部に記憶されたテキストデータと、前記受付部が受け付けた、前記ダミー音声データを文字起こししたテキストデータとを比較することにより、文字起こしを行った主体を評価し、
前記提供部は、前記評価部による或る主体に対する評価値が所定の閾値より低い場合、前記或る主体に対して提供した区間音声データを他の主体へ提供することにより、その区間音声データの文字起こしを前記或る主体に代えて前記他の主体へ依頼することを特徴とする情報処理システム。
A first storage unit for storing target voice data in which a target voice of transcription is recorded;
A second storage unit for storing dummy voice data in which a dummy voice is recorded;
A division unit that divides the target speech data into a plurality of section speech data relating to a plurality of sections;
A providing unit for providing a set of at least one of the plurality of section voice data and the dummy voice data to an external device;
A receiving unit for receiving text data transcribed based on at least one of the plurality of section voice data and text data transcribed based on the dummy voice data;
A generation unit that generates text data in which the target speech is transcribed using text data transcribed from at least one of the plurality of section voice data among the text data accepted by the acceptance unit; ,
A third storage unit storing text data indicating contents of predetermined voice recorded in the dummy voice data;
Evaluation Department,
Equipped with
When providing a plurality of section voice data originating from different target voice data to one external device, the providing unit provides a plurality of section voice data originating from different target voice data relating to the same tissue. Prioritizing giving priority to providing a plurality of interval speech data originating from different target speech data relating to different organizations,
The evaluation unit evaluates an entity that has performed transcription by comparing the text data stored in the third storage unit with the text data that the transcription unit has received the dummy voice data received by the reception unit. And
When the evaluation unit evaluates an evaluation value for a certain subject by the evaluation unit to be lower than a predetermined threshold value, the providing unit provides the section voice data provided for the certain subject to another subject so as to the information processing system characterized that you request to the other entities in place of transcript in the certain entity.
前記分割部は、前記対象音声データにおける1つの区間の終了位置を決定する場合、予め定められた区間の最大長以内で音量が所定の閾値未満の時点を、前記終了位置として決定することを特徴とする請求項1に記載の情報処理システム。   The division unit is characterized in that, when determining the end position of one section in the target audio data, the division section determines a point at which the volume is less than a predetermined threshold within the maximum length of a predetermined section as the end position. The information processing system according to claim 1, wherein 前記提供部は、前記外部装置が複数存在する場合、1つの外部装置に対して、前記複数の区間音声データのうち一部の区間音声データと前記ダミー音声データの組を提供することを特徴とする請求項1または2に記載の情報処理システム。   When a plurality of the external devices exist, the providing unit provides a set of partial speech data and dummy speech data among a plurality of the partial speech data to one external device. The information processing system according to claim 1 or 2. 複数の対象音声データのうち少なくとも1つの対象音声データを変換することにより、前記複数の対象音声データの声質を均質化させる変換部をさらに備えることを特徴とする請求項1からのいずれかに記載の情報処理システム。 4. The apparatus according to any one of claims 1 to 3 , further comprising: a conversion unit that homogenizes voice quality of the plurality of target voice data by converting at least one target voice data among the plurality of target voice data. Information processing system as described. 前記分割部は、前記対象音声データを分割して、第1区間に係る第1区間音声データと、前記第1区間の直後の第2区間に係る第2区間音声データを生成する場合、前記第1区間の一部と、前記第2区間の一部を重複させることを特徴とする請求項1からのいずれかに記載の情報処理システム。 The division unit divides the target sound data to generate a first section sound data relating to a first section and a second section sound data relating to a second section immediately after the first section. The information processing system according to any one of claims 1 to 4 , wherein a part of one section and a part of the second section are overlapped. 文字起こしの対象の音声が録音された対象音声データと、ダミーの音声が録音されたダミー音声データと、前記ダミー音声データに録音された予め定められた音声の内容を示すダミー音声テキストデータとを記憶する情報処理システムが、
前記対象音声データを複数の区間に係る複数の区間音声データに分割するステップと、
前記複数の区間音声データの少なくとも1つと前記ダミー音声データの組を外部装置へ提供するステップと、
前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、前記ダミー音声データをもとに文字起こししたテキストデータの両方を受け付けるステップと、
受け付けたテキストデータのうち、前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、前記対象の音声を文字起こししたテキストデータを生成するステップと、
を実行し、
前記提供するステップは、1つの外部装置に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先し、
前記情報処理システムが、
予め記憶されたダミー音声テキストデータと、前記受け付けるステップで受け付けられた、前記ダミー音声データを文字起こししたテキストデータとを比較することにより、文字起こしを行った主体を評価するステップと、
前記評価するステップにて或る主体に対する評価値が所定の閾値より低い場合、前記或る主体に対して提供した区間音声データを他の主体へ提供することにより、その区間音声データの文字起こしを前記或る主体に代えて前記他の主体へ依頼するステップと、をさらに実行することを特徴とする文字起こし方法。
Target voice data in which voice of a target of transcription is recorded, dummy voice data in which dummy voice is recorded, and dummy voice text data indicating contents of predetermined voice recorded in the dummy voice data The information processing system to store
Dividing the target sound data into a plurality of section sound data relating to a plurality of sections;
Providing a set of at least one of the plurality of section voice data and the dummy voice data to an external device;
Accepting both text data transcribed based on at least one of the plurality of section voice data and text data transcribed based on the dummy speech data;
Generating text data obtained by transcribing the target voice using text data generated by transcribing based on at least one of the plurality of section voice data among the received text data;
The execution,
When the step of providing provides a plurality of section voice data originating from different target voice data to one external device, the plurality of section voice data originating from different target voice data relating to the same tissue is provided Prioritizing providing, giving priority to providing a plurality of interval speech data originating from different target speech data relating to different organizations,
The information processing system
Evaluating a subject that has performed transcription by comparing dummy speech text data stored in advance with text data obtained by transcribing the dummy speech data, received in the receiving step;
If the evaluation value for a certain subject is lower than a predetermined threshold value in the evaluating step, transcribing the voice data of the area by providing the voice data of the section provided to the one subject to another subject. And D. requesting the other subject instead of the certain subject .
JP2018204832A 2018-10-31 2018-10-31 Information processing system and transcription method Active JP6511189B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018204832A JP6511189B1 (en) 2018-10-31 2018-10-31 Information processing system and transcription method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018204832A JP6511189B1 (en) 2018-10-31 2018-10-31 Information processing system and transcription method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019072482A Division JP7106124B2 (en) 2019-04-05 2019-04-05 Information processing system and transcription method

Publications (2)

Publication Number Publication Date
JP6511189B1 true JP6511189B1 (en) 2019-05-15
JP2020072367A JP2020072367A (en) 2020-05-07

Family

ID=66530677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018204832A Active JP6511189B1 (en) 2018-10-31 2018-10-31 Information processing system and transcription method

Country Status (1)

Country Link
JP (1) JP6511189B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021181451A1 (en) * 2020-03-09 2021-09-16 日本電気株式会社 Speech recognition device, control method, and program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107624A (en) * 2006-10-26 2008-05-08 Kddi Corp Transcription system
JP5092720B2 (en) * 2007-12-04 2012-12-05 富士通株式会社 Product description content transcription support program, apparatus, and method.
JP5184071B2 (en) * 2007-12-27 2013-04-17 株式会社エヌ・ティ・ティ・データ Transcription text creation support device, transcription text creation support program, and transcription text creation support method
JP4958120B2 (en) * 2009-02-24 2012-06-20 インターナショナル・ビジネス・マシーンズ・コーポレーション Support device, support program, and support method
JP5646568B2 (en) * 2012-09-24 2014-12-24 ヤフー株式会社 Work evaluation index generation device
JP6430137B2 (en) * 2014-03-25 2018-11-28 株式会社アドバンスト・メディア Voice transcription support system, server, apparatus, method and program
JP2017090716A (en) * 2015-11-11 2017-05-25 株式会社フュートレック Transcription text creation support system, transcription text creation support method, and transcription text creation support program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021181451A1 (en) * 2020-03-09 2021-09-16 日本電気株式会社 Speech recognition device, control method, and program
JPWO2021181451A1 (en) * 2020-03-09 2021-09-16
JP7501610B2 (en) 2020-03-09 2024-06-18 日本電気株式会社 Voice recognition device, control method, and program

Also Published As

Publication number Publication date
JP2020072367A (en) 2020-05-07

Similar Documents

Publication Publication Date Title
US11417343B2 (en) Automatic speaker identification in calls using multiple speaker-identification parameters
CN103455592B (en) Question answering method, device and system
US9047868B1 (en) Language model data collection
US11521642B2 (en) Systems and methods for classification and rating of calls based on voice and text analysis
CN105957515A (en) Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program
CN110289015B (en) Audio processing method, device, server, storage medium and system
US8868419B2 (en) Generalizing text content summary from speech content
JP6511189B1 (en) Information processing system and transcription method
JP4250938B2 (en) Communication support method and communication server
US11488604B2 (en) Transcription of audio
JP7106124B2 (en) Information processing system and transcription method
JP2019220067A (en) Conference system, conference server and program
KR20160056104A (en) Analyzing Device and Method for User's Voice Tone
CN113438374B (en) Intelligent outbound call processing method, device, equipment and storage medium
CN112597374B (en) Internet information resource allocation method and device
CN114188041B (en) Medical system for completing doctor-patient service in remote dialogue mode
López Gambino et al. Testing strategies for bridging time-to-content in spoken dialogue Systems
JP6993034B1 (en) Content playback method and content playback system
JPH07199989A (en) Speech recognition device
WO2023119521A1 (en) Visualization information generation device, visualization information generation method, and program
JP7389070B2 (en) Information processing device, information processing method, and program
CN110489738B (en) Information processing method, electronic equipment and computer storage medium
JP7503939B2 (en) Information processing device, program, and information processing method
JP2002304194A (en) System, method and program for inputting voice and/or mouth shape information
TWI767498B (en) Cross-channel artificial intelligence dialogue platform integrating machine learning and operation method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181101

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181101

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190405

R150 Certificate of patent or registration of utility model

Ref document number: 6511189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350