JP5046589B2 - Telephone system, call assistance method and program - Google Patents
Telephone system, call assistance method and program Download PDFInfo
- Publication number
- JP5046589B2 JP5046589B2 JP2006240473A JP2006240473A JP5046589B2 JP 5046589 B2 JP5046589 B2 JP 5046589B2 JP 2006240473 A JP2006240473 A JP 2006240473A JP 2006240473 A JP2006240473 A JP 2006240473A JP 5046589 B2 JP5046589 B2 JP 5046589B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice recognition
- control unit
- call control
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、通話内容を音声認識して端末に表示する電話システムと通話補助方法とプログラムに関する。 The present invention relates to a telephone system, a call assistance method, and a program for recognizing a call content and displaying it on a terminal.
通話内容を音声認識して端末に表示するこの種の電話システムは、例えば聴覚障害者向けの電話補助システムに利用される。その典型的な基本的な構成は、発呼者の発声内容を音声認識装置で音声認識させ、文字表示装置にて表示するというものであり、従来のシステムは、2つのタイプに大別される。 This type of telephone system that recognizes the content of a call and displays it on a terminal is used, for example, in a telephone assistance system for a hearing impaired person. The typical basic configuration is that the content of a caller's utterance is recognized by a voice recognition device and displayed on a character display device. Conventional systems are roughly classified into two types. .
1つは、専用の端末内に音声認識機能を具備し、回線からの発呼者の音声を音声認識し、専用端末内の表示装置に表示するものである(「端末型」という)。 One is that a dedicated terminal has a voice recognition function, recognizes the voice of the caller from the line, and displays it on a display device in the dedicated terminal (referred to as “terminal type”).
他は、センタ側に、音声認識装置を備え、文字表示機能付き端末に、音声と文字情報(テキスト情報)をあわせて送信し、文字情報機能付き端末で表示するものである(「センタ型」という)。 The other is that a voice recognition device is provided on the center side, and voice and character information (text information) are transmitted to a terminal with a character display function and displayed on the terminal with a character information function (“center type”). Called).
なお、特許文献1には、通話者の音声を通信システムを介して音声信号受信手段で受信し、音声/文字変換スイッチで字幕受信を選択したとき、音声認識装置により受信音声信号を認識し、認識音声を文字データに変換してディスプレイ上に字幕で表示し、逆に通話者が入力した文字列を文章として音声合成し、通話相手に送信する手段を備えたマルチメディア公衆電話システムが開示されている。また、特許文献2には、携帯電話機のマイクから入力された音声はデジタル音声データに変換され、コンピュータの音声認識部に供給されて音声認識され、音声認識結果が、携帯電話機に返送され、携帯電話機の文字編集部にて編集された後、ディスプレイに表示され、認識結果の修正コマンドを携帯電話機のボタン操作部から入力すると、インターネット等の通信回線を介して、コンピュータに送信され、修正結果が返送され携帯電話機のディスプレイに表示され、かな漢字変換を指示すると、コンピュータ(センタ)の文字編集部で変換され、変換結果が返送されディスプレイに表示される構成の文字入力装置が開示されている。また特許文献3には、音声入力された文章を編集する際にカーソルの指定を簡便に行うことのできる音声タイプライタとして、音声認識された日本語テキスト表示領域と入力テキスト表示領域を備えた構成が開示されている。
In
しかしながら、これら従来のシステムは、実際の運用上、以下のような課題がある。 However, these conventional systems have the following problems in actual operation.
電話で不特定多数者によって自由に話される会話は、音声認識においても、認識がかなり難しい部類に属する処理である。また、電話での音声認識においては、回線網を通った音声の品質が、マイクを入力した音声の品質と比べて、著しく劣る。これは、電話回線網での伝送による、符号化の劣化、回線エコー、雑音除去の難しさ等が挙げられる。 A conversation freely spoken by an unspecified majority on the telephone is a process belonging to a class that is quite difficult to recognize even in speech recognition. In voice recognition on a telephone, the quality of voice passing through a network is significantly inferior to the quality of voice inputted through a microphone. This is because of deterioration in encoding, line echo, difficulty in noise removal, and the like due to transmission over a telephone line network.
誤認識された音声認識結果が、さらに、仮名漢字混じりの文章に変換されると、変換誤り等のノイズが加わり、さらに、元の発話内容の推定は困難となる。 If the misrecognized speech recognition result is further converted into a kana-kanji mixed sentence, noise such as a conversion error is added, and it is difficult to estimate the original utterance content.
従来より、電話音声を音声認識し文字表示する機能を備えた聴覚障害者向けの、音声認識装置、及び該装置を備えた電話システムは、各種提案されているものの、本格的な実用化には至っていない。これは、一般に電話の発話内容を、逐次、音声認識することは難しく、誤認識による性能劣化が予想されているためである。 Conventionally, although various voice recognition devices for a hearing impaired person and a telephone system including the device for a hearing-impaired person having a function of recognizing phone speech and displaying characters are proposed, Not reached. This is because, generally speaking, it is difficult to sequentially recognize speech content of a telephone call and performance degradation due to erroneous recognition is expected.
聴覚障害者にとっては、電話の発話内容の聞き取りは、切実な問題であり、早期の解決及び実用化が望まれている。 For hearing-impaired persons, listening to the content of telephone utterances is an urgent problem, and an early solution and practical application is desired.
したがって、本発明の目的は、聴覚障害者等に、通話相手の電話の発話内容の正確な理解を可能たらしめ、これにより、円滑な通話を可能とするシステム、方法、プログラムを提供することにある。 Therefore, an object of the present invention is to provide a system, a method, and a program that enable a hearing impaired person or the like to accurately understand the utterance contents of the other party's telephone, thereby enabling a smooth call. is there.
本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。 In order to solve the above-described problems, the invention disclosed in the present application is generally configured as follows.
本発明の1つの側面(アスペクト)に係るシステムは、第1の端末から入力された音声信号を音声認識する手段と、前記音声認識結果の読み情報を生成する手段と、少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる手段と、を備えている。 A system according to one aspect of the present invention includes a unit that recognizes a voice signal input from a first terminal, a unit that generates reading information of the voice recognition result, and at least the reading information. Means for displaying on a second terminal which is a call partner of the first terminal.
本発明に係るシステムにおいて、音声認識結果の文字情報と、前記読み情報を含む画面データを作成する手段を備え、前記画像データが前記第2の端末に送信される。 The system according to the present invention includes means for creating screen data including character information of a speech recognition result and the reading information, and the image data is transmitted to the second terminal.
本発明に係るシステムにおいて、前記音声認識する手段、前記読み情報を生成する手段と、前記画面データを作成する手段を、呼接続部を介して回線に接続するサービスセンタに備えている。 In the system according to the present invention, the voice recognition unit, the reading information generation unit, and the screen data generation unit are provided in a service center connected to a line via a call connection unit.
本発明に係るシステムにおいて、前記音声認識する手段と前記読み情報を生成する手段とを含む音声認識部を備え、前記音声認識部は、前記第1の端末からの電話音声を受け取って音声認識し、音声認識結果を文字情報(テキスト)に変換し、さらに前記音声認識結果の読み情報を生成し、テキストに変換された認識結果と、前記読み情報を含む画面データを作成する画像データ作成部を備え、前記画面データが前記第2の端末に送信され、テキストに変換された認識結果と前記読み情報を含む画面が、前記第2の端末に表示される。 The system according to the present invention further includes a voice recognition unit including the voice recognition unit and the reading information generation unit, and the voice recognition unit receives the phone voice from the first terminal and recognizes the voice. A speech recognition result is converted into character information (text), reading information of the speech recognition result is further generated, and an image data creation unit for creating the recognition result converted into text and screen data including the reading information is provided. The screen data is transmitted to the second terminal, and a screen including the recognition result converted into text and the reading information is displayed on the second terminal.
本発明に係るシステムにおいて、前記第2の端末が、前記音声認識結果の読み情報を生成する手段を備えている構成としてもよい。 In the system according to the present invention, the second terminal may include a unit that generates reading information of the voice recognition result.
本発明に係るシステムは、回線に接続され、呼の接続制御を行う呼制御部と、呼制御部に接続され、音声認識部と、画面作成部とを備えたサービスセンタと、を備え、発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部は、着呼側の加入者の端末に送信し、前記着呼側の加入者の端末では、通話内容の音声認識結果と読み情報とが画面表示される。 A system according to the present invention includes a call control unit that is connected to a line and performs call connection control, and a service center that is connected to the call control unit and includes a voice recognition unit and a screen creation unit. When a call from a caller is connected to the voice recognition unit of the service center via the call control unit, the voice recognition unit recognizes the content of the call from the caller and performs a voice recognition result. Is converted into character information, and reading information of a speech recognition result is added and passed to the screen creation unit via the call control unit. The screen creation unit is a screen data combining the speech recognition result and the reading information. Is generated and passed to the call control unit, and the call control unit transmits the call to the subscriber's terminal. Is displayed on the screen.
本発明に係るシステムにおいて、前記サービスセンタが、前記音声認識部とは別に読みつけ生成部を備え、呼が接続されたあと、前記サービスセンタの前記音声認識部では、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部に渡し、前記呼制御部は、音声認識結果を、前記サービスセンタの前記読みつけ生成部に送り、前記読みつけ生成部は、前記音声認識結果から読みを推定して読み情報を生成し、前記読み情報を、前記呼制御部に送信し、前記呼制御部は、前記サービスセンタの前記音声認識部から出力される認識結果の文字情報と、前記サービスセンタの前記読みつけ生成部からの読み情報を、前記サービスセンタの前記画面作成部に送り、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成する。 In the system according to the present invention, the service center includes a reading generation unit separately from the voice recognition unit, and after the call is connected, the voice recognition unit of the service center includes a call content from a caller. The speech recognition result is transferred to the call control unit, the call control unit sends the speech recognition result to the reading generation unit of the service center, and the reading generation unit Reading is estimated from the result, reading information is generated, and the reading information is transmitted to the call control unit. The call control unit includes character information of a recognition result output from the voice recognition unit of the service center; , The reading information from the reading generation unit of the service center is sent to the screen creation unit of the service center, and the screen creation unit obtains screen data combining the voice recognition result and the reading information. It is formed.
本発明に係るシステムにおいて、前記音声認識部とは別に読みつけ生成部を前記着呼側の端末に備え、前記サービスセンタの前記音声認識部では、読み情報を生成せず、前記画面作成部は、音声認識結果の画面データを作成し、前記着呼側の端末の読みつけ生成部が、前記音声認識結果から読みを推定して読み情報を生成する、ようにしてもよい。 In the system according to the present invention, a reading generation unit is provided in the terminal on the called side separately from the voice recognition unit, the voice recognition unit of the service center does not generate reading information, and the screen generation unit The screen data of the voice recognition result may be generated, and the reading generation unit of the terminal on the called side may generate reading information by estimating the reading from the voice recognition result.
本発明において、前記着呼側の端末からの音声は、発呼側の端末に送信され、発呼側の端末で受信され再生される。 In the present invention, the voice from the called terminal is transmitted to the calling terminal, and is received and reproduced by the calling terminal.
本発明の他のアスペクトに係るサービスセンタは、呼制御部に接続される音声認識部と、画面作成部を備えたサービスセンタであって、発呼者からの呼が、前記呼制御部を経由して前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して、前記呼制御部に渡し、前記呼制御部を介して、着呼側の加入者の端末に送信する。 A service center according to another aspect of the present invention is a service center including a voice recognition unit connected to a call control unit and a screen creation unit, and a call from a caller passes through the call control unit. When connected to the voice recognition unit, the voice recognition unit recognizes the content of the call from the caller, converts the voice recognition result into character information, and adds reading information of the voice recognition result. The screen creation unit passes the call control unit to the screen creation unit, and the screen creation unit creates screen data that combines the speech recognition result and the reading information, and passes it to the call control unit. To the terminal of the called subscriber.
本発明に係るサービスセンタにおいて、読みつけ生成部をさらに備え、呼が接続されたあと、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部を介して前記読みつけ生成部に送り、前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信し、前記呼制御部は、サービスセンタの音声認識部からの出力結果と、読みつけ生成部からの読み情報を、前記サービスセンタの画面作成部に送り、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成する、ようにしてもよい。 The service center according to the present invention further includes a reading generation unit, and after the call is connected, the voice recognition unit recognizes the content of the call from the caller and uses the voice recognition result as the call control unit. The reading generation unit estimates the reading from the speech recognition result, transmits the reading information to the call control unit, and the call control unit receives the voice recognition of the service center. The output result from the section and the reading information from the reading generation section are sent to the screen creation section of the service center, and the screen creation section creates screen data that combines the voice recognition result and the reading information. It may be.
本発明において、前記文字情報は、前記音声認識結果を仮名漢字変換したものであり、前記読み情報は、前記音声認識結果からその読みを推定したものを、平仮名、ローマ字、発音記号のうちの少なくとも1つで表記したものである。 In the present invention, the character information is obtained by converting the voice recognition result to Kana-Kanji, and the reading information is obtained by estimating the reading from the voice recognition result, and includes at least one of Hiragana, Roman characters, and phonetic symbols. It is written in one.
本発明のさらに他のアスペクトの方法によれば、
第1の端末から入力された音声信号を音声認識する工程と、
音声認識結果の読み情報を生成する工程と、
少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる工程と、
を含む。
According to yet another aspect of the present invention,
Recognizing a voice signal input from the first terminal;
Generating reading information of the speech recognition result;
Displaying at least the reading information on a second terminal that is a call partner of the first terminal;
including.
本発明に係る方法において、音声認識結果の文字情報と、前記読み情報を含む画面データを作成する工程を含み、前記画像データが前記第2の端末に送信される。 In the method according to the present invention, the image data is transmitted to the second terminal, including the step of creating screen data including character information of a speech recognition result and the reading information.
本発明に係る方法において、前記第2の端末が、前記音声認識結果の読み情報を生成する、ようにしてもよい。 In the method according to the present invention, the second terminal may generate reading information of the voice recognition result.
本発明に係る方法は、回線に接続され、呼の接続制御を行う呼制御部と、前記呼制御部に接続され、音声認識部と画面作成部を備えたサービスセンタと、を備えた電話システムの通話補助方法であって、発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部は、着呼側の加入者の端末に送信し、
前記着呼側の加入者の端末では、通話内容の音声認識結果と読み情報が画面表示される。
The method according to the present invention includes a call control unit that is connected to a line and performs call connection control, and a service center that is connected to the call control unit and includes a voice recognition unit and a screen creation unit. The call recognition method of
The screen creation unit creates screen data combining the voice recognition result and the reading information and passes it to the call control unit, and the call control unit transmits to the terminal of the called subscriber,
At the called subscriber's terminal, the voice recognition result and the reading information of the call contents are displayed on the screen.
本発明に係る方法おいて、前記サービスセンタが、前記音声認識部とは別に読みつけ生成部を備え、呼が接続されたあと、前記サービスセンタの前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部に渡し、前記呼制御部は、音声認識結果を前記サービスセンタの前記読みつけ生成部に送り、前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信し、前記呼制御部は、サービスセンタの音声認識部から出力される認識結果の文字情報と、前記読みつけ生成部からの読み情報を、前記サービスセンタの画面作成部に送り、前記画面作成部は、認識結果とその読み情報をあわせた画面データを作成する、ようにしてもよい。 In the method according to the present invention, the service center includes a reading generation unit separately from the voice recognition unit, and after a call is connected, the voice recognition unit of the service center receives a call from a caller. Recognizes the content and passes the speech recognition result to the call control unit, the call control unit sends the speech recognition result to the reading generation unit of the service center, and the reading generation unit Reading is estimated, and the reading information is transmitted to the call control unit. The call control unit receives the character information of the recognition result output from the voice recognition unit of the service center and the reading information from the reading generation unit. May be sent to the screen creation unit of the service center, and the screen creation unit may create screen data that combines the recognition result and the reading information.
本発明に係るプログラムは、
第1の端末から入力された音声信号を音声認識する処理と、
音声認識結果の読み情報を生成する処理と、
少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる処理と、をコンピュータに実行させるプログラムよりなる。
The program according to the present invention is:
Processing for recognizing a voice signal input from the first terminal;
Processing to generate reading information of speech recognition results;
It comprises a program for causing a computer to execute at least the process of displaying the reading information on a second terminal that is a call partner of the first terminal.
本発明に係るプログラムにおいて、音声認識結果の文字情報と、前記読み情報を含む画面データを作成する処理を前記コンピュータに実行させるプログラムよりなる。 The program according to the present invention includes a program for causing the computer to execute processing for creating character data of a speech recognition result and screen data including the reading information.
本発明に係るプログラムは、呼制御部に接続される音声認識部と、画面作成部を備え、発呼者からの呼が、前記呼制御部を経由して前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して、前記呼制御部に渡し、前記呼制御部を介して、着呼側の加入者の端末に送信する、サービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部の処理を実行させるプログラムよりなる。
A program according to the present invention includes a voice recognition unit connected to a call control unit and a screen creation unit, and when a call from a caller is connected to the voice recognition unit via the call control unit. The voice recognition unit recognizes the content of the call from the caller, converts the voice recognition result into character information, and adds reading information of the voice recognition result to the screen creation unit via the call control unit. To
The screen creation unit creates screen data that combines the voice recognition result and its reading information, passes it to the call control unit, and transmits it to the terminal of the called subscriber via the call control unit. The program comprises a program that causes a computer constituting a service center to execute the processing of the voice recognition unit and the screen creation unit.
本発明に係るプログラムおいて、前記サービスセンタが前記音声認識部とは別に読みつけ生成部を備え、呼が接続されたあと、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換し、前記呼制御部を介して前記読みつけ生成部に送り、前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信する前記サービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部と前記読みつけ生成部の処理を実行させるプログラムよりなる。 In the program according to the present invention, the service center includes a reading generation unit separately from the voice recognition unit, and after the call is connected, the voice recognition unit recognizes the content of the call from the caller. The voice recognition result is converted into character information and sent to the reading generation unit via the call control unit. The reading generation unit estimates a reading from the voice recognition result, and reads the reading information into the call control unit. To the computer that constitutes the service center to be transmitted to the computer, and includes a program for executing the processing of the voice recognition unit, the screen creation unit, and the reading generation unit.
本発明によれば、聴覚障害者(発呼者)が健常者(着呼者)と、電話で円滑に会話することを可能としている。その理由は、本発明においては、音声認識装置で音声認識が誤った認識結果を出したとしても、聴覚障害者(着呼者)側で、その読みから、その誤り傾向を推察し、正しく発声内容を理解できるからである。 According to the present invention, a hearing-impaired person (caller) can smoothly talk with a healthy person (caller) by telephone. The reason for this is that in the present invention, even if the speech recognition apparatus gives a wrong recognition result, the hearing impaired person (calling party) infers the error tendency from the reading and correctly utters. This is because the contents can be understood.
本発明を実施するための最良の形態について以下に説明する。近年、L−モードや、IP網を使ったIP電話等、文字情報(テキスト情報)だけでなく、www(world wide web)の閲覧を可能としている画面表示機能付き電話端末が利用されている。このような端末を利用すれば、メールなどで、聴覚障害者が、いわゆる電話回線を使うことも可能であるが、発呼者の発声内容が画面に表示されれば、言語発声能力がある聴覚障害者であれば、本来の意味で、電話を使うことができるものと思料される。しかし、前述したように、電話音声認識による会話音声認識は難しく、かなりの誤認識、誤変換が生じる得ることが予想される。 The best mode for carrying out the present invention will be described below. In recent years, telephone terminals with a screen display function that allow browsing of not only character information (text information) but also www (world wide web), such as an L-mode and an IP phone using an IP network, have been used. If such a terminal is used, a hearing-impaired person can use a so-called telephone line by e-mail or the like. However, if the content of the caller's utterance is displayed on the screen, the hearing person who has the ability to speak A person with a disability is thought to be able to use the phone in the original sense. However, as described above, it is difficult to recognize conversational speech by telephone speech recognition, and it is expected that considerable misrecognition and erroneous conversion may occur.
そこで、本発明は、発呼側の端末(5)からの発話内容を、音声認識して、文字情報とその読み情報に変換する音声認識部(2)と、画面表示付き端末用の画面を作成する画面作成部(3)と、通話を管理し、音声認識部(2)と画面作成部(3)を制御する呼制御部(1)を備え、画面作成部(3)で作成された画面データには、発話者の発話内容(音声認識結果)だけでなく、読み情報が含まれ、これが、着呼側の端末(6)に送信されて表示される。読み情報は、平仮名、かたかな、ローマ字、発音記号など、発話内容の音声認識結果の文字情報の読みを表すものであれば、任意である。 Therefore, the present invention provides a speech recognition unit (2) that recognizes speech content from a calling terminal (5) and converts it into character information and reading information, and a screen for a terminal with a screen display. A screen creation unit (3) to be created and a call control unit (1) for managing a call and controlling the voice recognition unit (2) and the screen creation unit (3) are created by the screen creation unit (3). The screen data includes not only the utterance content (voice recognition result) of the speaker but also reading information, which is transmitted to the called terminal (6) and displayed. The reading information is arbitrary as long as it represents the reading of the character information of the speech recognition result of the utterance content, such as hiragana, kana, romaji, and phonetic symbols.
本発明を聴覚障害者向け電話補助システムに適用した場合、電話端末と公衆網と音声認識部と、文字、画像が表示できる電話端末とを備えた聴覚障害者向け電話補助システムにおいて、発話音声を音声認識し、音声認識結果と音声の読み情報を付加した文字情報に変換して、聴覚障害者の表示機能付き電話端末に表示し、聴覚障害者の電話による会話を可能にしている。 When the present invention is applied to a telephone assistance system for a hearing impaired person, in a telephone assistance system for a hearing impaired person comprising a telephone terminal, a public network, a voice recognition unit, and a telephone terminal capable of displaying characters and images, speech speech is transmitted. Voice recognition is performed and converted into character information to which a voice recognition result and voice reading information are added and displayed on a telephone terminal with a display function for a hearing impaired person, thereby enabling conversation by the telephone of the hearing impaired person.
本発明の動作の概要を説明すると、発呼側の端末(5)からの呼が、呼制御部(1)を経由し、サービスセンタ(4)の音声認識部(2)に接続されると、音声認識部(2)は、加入者の通話内容を音声認識し、文字情報に変換し、その際、誤認識の可能性があるため、認識結果とともに、その読み情報を付加して、画面作成部(3)に渡す。画面作成部(3)は、音声認識結果とその読み情報をあわせた画面を加工、作成し、着呼側の加入者の端末に送信する。着呼側のサービス加入者の端末(6)では、受信した画面(通話内容の音声認識結果と読み情報)が表示される。このため、もし、音声認識における認識、変換が誤っていたとしても、読み情報と対応付けて、本来の通話内容の解読を容易化し解読に有効な手助けとなる。なお、音声認識部(2)とは別に読み情報を生成する読みつけ生成部を備えた構成としてもよい。あるいは、着呼側の加入者の端末(6)で、音声認識結果から読みを推定して読み情報を生成するようにしてもよい。以下実施例について説明する。 The outline of the operation of the present invention will be explained. When a call from the terminal (5) on the calling side is connected to the voice recognition unit (2) of the service center (4) via the call control unit (1). The voice recognition unit (2) recognizes the content of the subscriber's call and converts it into character information. At this time, since there is a possibility of erroneous recognition, the reading information is added to the screen together with the recognition result. Delivered to the creation unit (3). The screen creation unit (3) processes and creates a screen combining the voice recognition result and the reading information, and transmits it to the called subscriber terminal. On the terminal (6) of the service subscriber on the called side, the received screen (voice recognition result and reading information of the call content) is displayed. For this reason, even if the recognition and conversion in voice recognition are incorrect, it is associated with the reading information, so that it is possible to facilitate the decoding of the original call contents and to help the decoding effectively. In addition, it is good also as a structure provided with the reading production | generation part which produces | generates reading information separately from a speech recognition part (2). Alternatively, reading information may be generated by estimating the reading from the voice recognition result at the terminal (6) of the called subscriber. Examples will be described below.
図1は、本発明の一実施例の構成を示す図である。図1を参照すると、本実施例の電話補助システムは、呼制御部1と、音声認識部2及び画面作成部3とを含むサービスセンタ4を備えている。音声認識部2及び画面作成部3の処理は、コンピュータ上で実行されるプログラムによって実現してもよい。
FIG. 1 is a diagram showing the configuration of an embodiment of the present invention. Referring to FIG. 1, the telephone assistance system of the present embodiment includes a service center 4 including a
図2は、呼制御部1の構成の一例を示す図である。図2を参照すると、呼制御部1は、制御部10と、音声蓄積部11と、メディア変換部12とを備え、通話を管理し、受信した音声を音声認識部2に送信する。
FIG. 2 is a diagram illustrating an example of the configuration of the
制御部10は、呼制御部1の全体制御を行い、着呼した呼の管理と、音声の送受信を行う。
The
音声蓄積部11は、発呼側、着呼側の音声の蓄積機能を備え、発呼者側に対してのガイダンスメッセージ音声も格納されている。
The
メディア変換部12は、プロトコル変換の機能を備え、着呼側と発呼側双方の音声データ変換を行う。
The
制御部10は、通話を管理し、受信した音声を、一旦、音声蓄積部11に蓄積し、音声認識部2に送信する。
The
再び図1を参照すると、音声認識部2は、受信した音声を音声認識し、その出力結果(音声認識結果と読み情報)を、呼制御部1の制御部10(図2参照)を経由して、画面作成部3に送る。本実施例において、音声認識部2は、例えば不特定話者の音声を認識するための任意の公知の手法で音声認識を行い、単語辞書を用いて単語が決定された認識結果に対して例えば仮名漢字変換を行って、発話内容に対応する文(テキスト文)を生成し、さらに、認識結果の文字情報に対して、読み情報を付加する処理を実行する。
Referring to FIG. 1 again, the
画面作成部3では、受信した音声認識部2の出力結果(音声認識結果と読み情報)を、画面表示機能付き電話端末で表示できる形(主に、HTML(HyperText Markup Language)言語などのページ記述言語)に加工する。
In the
呼制御部1の制御部10(図2参照)は、画面作成部3から出力されたデータ(画面表示データ)を受信すると、該画面表示データを着呼側回線に送信する。
When the control unit 10 (see FIG. 2) of the
着呼側の電話端末6では、画面表示データを受信すると、画面に、発話側で発声された音声認識結果と、その読み情報が表示される。このため、音声認識結果に、多少の誤りがあっても、容易に理解することが出来る。
When the
着呼者の音声は、呼制御部1で受信され、呼制御部1に音声蓄積部11(図2参照)に一旦蓄積された後、発呼者側プロトコルに合わせた形で、発呼者側に送信される。
The caller's voice is received by the
このようにして、健常者の発呼側と、聾者の着呼側で、会話をすることができる。 In this way, a conversation can be made between the calling side of the healthy person and the calling side of the deaf person.
次に、図3は、本実施例の動作を説明するためのフローチャートである。図1、図2、図3(A)を参照して、本実施例の動作を説明する。ただし、呼は既に繋がっているものとする。 FIG. 3 is a flowchart for explaining the operation of this embodiment. The operation of this embodiment will be described with reference to FIG. 1, FIG. 2, and FIG. However, the call is already connected.
発呼側端末5からの音声信号を呼制御部1が受信する(ステップS1)。
The
入力された音声信号を、呼制御部1の制御部10で登録、管理し、呼制御部1の音声蓄積部11に音声を蓄積する(ステップS2)。
The input voice signal is registered and managed by the
呼制御部1の制御部10は、蓄積した音声を、サービスセンタ4の音声認識部2に音声認識処理を依頼して送信する(ステップS3)。
The
サービスセンタ4の音声認識部2では、呼制御部1の制御部10から受信した音声信号を音響分析等して音声認識し、出力結果を、認識結果と読み情報からなる出力データとして、呼制御部1の制御部10に出力する。
In the
呼制御部1の制御部10は、サービスセンタ4の音声認識部2から受信した出力結果をサービスセンタ4の画面作成部3に送信する(ステップS4)。
The
サービスセンタ4の画面作成部3では、受信した出力データを基に、音声認識結果(主に仮名漢字交じり文章)と、その読み情報からなる画面情報データを作成し、呼制御部1の制御部10に出力する(ステップS5)。
The
呼制御部1の制御部10は、作成された画面情報を受信すると、それを着呼側の回線に送信する(ステップS6)。
Upon receiving the created screen information, the
画面表示データを着呼側の端末(画面表示機能付き電話端末)6で受信し、認識結果、読み情報を、着呼側の端末6の画面に表示する(ステップS7)。 The screen display data is received by the called terminal (phone terminal with screen display function) 6, and the recognition result and the reading information are displayed on the screen of the called terminal 6 (step S7).
こうして、着呼側の画面表示機能付き電話端末6で、画面情報を受け取って表示すると、音声認識結果(例えば仮名漢字文)と読み情報(例えば平仮名表記)とが表示される。音声認識結果が正しい場合は、全く問題はないが、仮名漢字文等の認識結果に誤りを含んでいる場合にも、読み情報から、本来の正しい発話内容を類察し、正しい発話内容の見当をつけることができる。
In this way, when the incoming call
図3(B)を参照すると、次に、受信者の音声は回線を通り、呼制御部1に到達する(ステップS11)。 Referring to FIG. 3B, the recipient's voice passes through the line and reaches the call control unit 1 (step S11).
受信された音声は、呼制御部1の制御部10によって、呼制御部1の音声蓄積部11に蓄積される(ステップS12)。
The received voice is stored in the
呼制御部1のメディア変換部12は、図3(A)のステップS2で登録した情報に基づき、適切な発呼者に対し、発呼側の端末5にあわせた適切な手順で送信する(ステップS13)。
Based on the information registered in step S2 in FIG. 3A, the
発呼側の端末5で着呼側発声音声が受信され再生される(ステップS14)。 The calling side terminal 5 receives and reproduces the called side uttered voice (step S14).
図4は、本発明の一実施例の着呼側の端末(画面表示機能付き電話端末)6の画面の一例を示す図である。例えば発呼元から、
「i−mode(登録商標)は使えないのですか?」
と、呼制御部1に入力があったとする(図3(A)のステップS1)。
FIG. 4 is a diagram showing an example of the screen of the called terminal (telephone terminal with a screen display function) 6 of one embodiment of the present invention. For example, from the caller
“Can i-mode (registered trademark) be used?”
Then, it is assumed that there is an input to the call control unit 1 (step S1 in FIG. 3A).
呼制御部1では、その音声信号と呼情報を、呼制御部1の制御部10で登録し、音声信号を、呼制御部1の音声蓄積部11に蓄積する(ステップS2)。
In the
呼制御部1の制御部10は、蓄積した音声信号を、サービスセンタ4の音声認識部2に認識処理を依頼し送信する(ステップS3)。
The
サービスセンタ4の音声認識部2では、音声蓄積部11から音声信号を受け取ると、その音声信号を分析し、
認識結果:「愛も独活は使えないのですか」、及び、
読み情報:「あいもうどはつかえないのですか」
からなる出力データを、呼制御部1の制御部10に出力する。特に制限されないが、この例の場合、認識結果は、仮名漢字変換した文であり、読み情報は平仮名表記である。
When the
Recognition result: “Is it not possible to use love alone?” And
Reading information: "Is it impossible to use Aiyodo"
Is output to the
呼制御部1の制御部10は、出力データを、サービスセンタ4の画面作成部3に画面情報作成処理を依頼し、送信する(ステップS4)。
The
サービスセンタ4の画面作成部3では、受信したデータを基に、音声認識結果が入った文字情報と読み情報からなる画面情報を作成し、呼制御部1の制御部10に送信する(ステップS5)。
Based on the received data, the
呼制御部1の制御部10では、作成された画面情報を受信すると、それを着呼側の回線に送信する(ステップS6)。
Upon receipt of the created screen information, the
画面情報を着呼側の画面表示機能付き電話端末6で受信し、発話内容認識結果と発話内容読み情報が表示される(ステップS7)。
The screen information is received by the
図4において、発話内容認識結果は、「愛も独活」と表示され、もし「独活(うど)」の読み方を知らなければ、着呼側では、「あいもどっかつ」とは何の意味かと判断に悩むことになる。 In FIG. 4, the utterance content recognition result is displayed as “love and self-existence”, and if the caller does not know how to read “self-existence (udo)”, the callee determines what “aimadokatsu” means You will be troubled.
しかし、下段の読み情報をみると、読み情報で、「あうもうど」と、表示されているので、音声認識で誤りを含んでいたとしても(例えば音声認識における単語の決定処理や仮名漢字変換処理に誤りがある場合にも)、読み情報から、正しい発話内容を類察することで、正しい発話内容である「i−mode」の見当をつけることができる。 However, if you look at the reading information at the bottom, the reading information displays “Audou”, so even if it contains errors in speech recognition (for example, word determination processing or kana-kanji conversion in speech recognition) Even when there is an error in the processing, the correct utterance content “i-mode” can be determined by observing the correct utterance content from the reading information.
次に、着呼側(例えば聾者)で発声する(図4(B)のステップS11)。 Next, the incoming call side (for example, a deaf person) speaks (step S11 in FIG. 4B).
呼制御部1の制御部10は、受信した音声を音声蓄積部11に蓄積する(ステップS12)。
The
呼制御部1のメディア変換部12は、登録情報に基づき蓄積された音声を発呼者に送信する(ステップS13)。このとき、たとえば、着呼側が、HTTP(Hyper Text Transport Protocol)、発呼側がVoIPであれば、RTP(Real-time Transport Protocol)に変換し、発呼側がPSTN(Public Switched Telephone Networks)であれば、デジタル・ハードウエア回線に出力する。
The
発呼者側の端末5で着呼者の音声が再生される(ステップS14)。このようにして、発呼者(健常者)と聾者(着呼側)で会話をすることが出来る。 The caller's voice is reproduced at the caller side terminal 5 (step S14). In this way, it is possible to have a conversation between the calling party (healthy person) and the deaf person (calling side).
次に、本発明の第2の実施例について説明する。図5は、本発明の第2の実施例の構成を示す図である。本実施例では、読み情報を、サービスセンタ4’側の画面作成部31で付加する。
Next, a second embodiment of the present invention will be described. FIG. 5 is a diagram showing the configuration of the second exemplary embodiment of the present invention. In this embodiment, the reading information is added by the
この場合、音声認識部2で読みを出力する必要がなくなるので、音声認識部2は、既存のものをそのまま使用することができる。
In this case, it is not necessary for the
図5を参照すると、本実施例は、呼制御部1と、音声認識部2と画面作成部31と読みつけ生成部32とを有するサービスセンタ4’を備えている。
Referring to FIG. 5, this embodiment includes a service center 4 ′ having a
呼制御部1は、図2に示した構成と同様に、制御部10と、音声蓄積部11と、メディア変換部12を備えている。ただし、呼制御部1の制御部10は、音声認識部2と画面作成部31と読みつけ生成部32とに接続する。
The
呼が接続されたあと、音声認識部2は、受信した音声を音声認識し、その出力結果(音声認識結果のみ)を、呼制御部1の制御部10に送信する。
After the call is connected, the
呼制御部1の制御部10は、その出力結果を音声蓄積部11に保持し、サービスセンタ4’の読みつけ生成部32に送る。
The
サービスセンタ4’の読みつけ生成部32では、音声認識結果から読みを推定し、読み情報を、呼制御部1の制御部10に送信する。
The
呼制御部1の制御部10は、サービスセンタ4’の音声認識部2からの出力結果と、読みつけ生成部32からの読み表記を、サービスセンタ4’の画面作成部31に送る。
The
サービスセンタ4’の画面作成部31は、音声認識結果と読み情報を、画面表示機能付き電話端末6で表示できる形(主にHTML言語などのページ記述言語)に加工し、制御部10に送信する。
The
呼制御部1の制御部10は、サービスセンタ4’の画面作成部31から出力されたデータを受信すると、それを着呼側回線に送信する。
When the
なお、着呼者の音声は、前記実施例と同様にそのまま音声として発呼者に送信される。 Note that the caller's voice is transmitted to the caller as it is as in the above embodiment.
図6は、本発明の第2の実施例の動作を説明するフローチャートである。図5、図2、及び図6を参照して、本発明の第2の実施例の動作を説明する。 FIG. 6 is a flowchart for explaining the operation of the second embodiment of the present invention. The operation of the second embodiment of the present invention will be described with reference to FIG. 5, FIG. 2, and FIG.
発呼者からの音声信号を呼制御部1が受信する(ステップS21)。
The
入力された音声信号を呼制御部1の制御部10で登録、管理し、呼制御部1の音声蓄積部11に音声を蓄積する(ステップS22)。
The input voice signal is registered and managed by the
呼制御部1の制御部10は、蓄積した音声を、サービスセンタ4’の音声認識部2に送信する(ステップS23)。
The
サービスセンタ4’の音声認識部2では、呼制御部1の制御部10から受信した音声信号を分析認識し、出力結果を認識結果を出力データとして、呼制御部1の制御部10に出力する。
The
呼制御部1の制御部10は受信した出力結果を、サービスセンタ4’の読みつけ生成部32に送信する(ステップS24)。
The
サービスセンタ4’の読みつけ生成部32では、受信したデータから読み情報を推定し、呼制御部1の制御部10に結果を送信する(ステップS25)。
The
呼制御部1の制御部10は、サービスセンタ4’の音声認識部2の出力結果と、読みつけ生成部32の出力結果を、サービスセンタ4’の画面作成部31に送信する(ステップS26)。
The
サービスセンタ4’の画面作成部31では、受信したデータを基に、音声認識結果が入った文字情報と読み情報からなる画面情報データを作成し、呼制御部1の制御部10に送信する(ステップS27)。
The
呼制御部1の制御部10では、作成された画面情報を受信すると、それを着呼側の回線に送信する(ステップS28)。
Upon receiving the created screen information, the
画面表示データを端末6(着呼側の画面表示機能付き電話端末)で受信し、発話内容認識結果、発話内容読み情報を着呼側の画面表示機能付き電話端末6で表示する(ステップS29)。
The screen display data is received by the terminal 6 (the telephone terminal with the screen display function on the called side), and the utterance content recognition result and the utterance content reading information are displayed on the
着呼側の画面表示機能付き電話端末6で画面情報を受け取り、表示すると、音声認識結果と、その読み情報とが同一画面に表示されるため、音声認識結果が正しかった場合はもちろん、誤りを含んでいたとしても、読み情報から正解発音を類察し正しい発話内容の見当をつけることができる。
When the incoming call
次に、着呼者の電話音声は回線を通り、呼制御部1に到達する(図3(B)のステップS11)。 Next, the telephone voice of the called party passes through the line and reaches the call control unit 1 (step S11 in FIG. 3B).
受信された音声は、呼制御部1の制御部10によって音声蓄積部11に蓄積される(図3(B)のステップS12)。
The received voice is stored in the
呼制御部1のメディア変換部12はステップS1で登録した情報に基づき、適切な発呼者に対し、発呼者にあわせた適切な手順で送信する(図3(B)のステップS13)。
Based on the information registered in step S1, the
発呼側の端末5で、着呼側の発声した音声が受信され再生される(図3(B)のステップS14)。 The calling side terminal 5 receives and reproduces the voice uttered by the called side (step S14 in FIG. 3B).
なお、本発明の第3の実施例として、読み情報を、着呼側の端末6側で生成するようにしてもよい。この場合、図1、図5のサービスセンタ4、4’の音声認識部2あるいは読みつけ生成部32において読み情報を生成する必要がなくなり、また画面作成部3において読み情報を付加する必要がなくなるため、サービスセンタ側の処理負荷、負担が軽減される。本発明の第3の実施例の処理手順については、サービスセンタ側では、読み情報を扱わず、認識結果の表示された画面情報を受信した端末6側で、読みつけ生成部が起動し、読み情報を生成する。他の処理は、前記実施例の手順に従う。
As a third embodiment of the present invention, the reading information may be generated on the
本発明は、福祉、社会サービス等の電話サービスに提供して好適とされる。 The present invention is suitable for providing telephone services such as welfare and social services.
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。 Although the present invention has been described with reference to the above-described embodiments, the present invention is not limited to the configurations of the above-described embodiments, and various modifications that can be made by those skilled in the art within the scope of the present invention. Of course, including modifications.
1 呼制御部
2 音声認識部
3、31 画面作成部
32 読みつけ生成部
4、4’ サービスセンタ
5 発呼側の端末
6 着呼側の端末
10 制御部
11 音声蓄積部
12 メディア変換部
DESCRIPTION OF
Claims (14)
前記呼制御部に接続され、音声認識部と、画面作成部とを備えたサービスセンタと、
を備え、
発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、前記発呼者からの発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、さらに前記音声認識部は、前記文字情報に対して読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、前記発話内容に対応する文字情報とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、
前記呼制御部は、着呼側の端末に送信し、
前記着呼側の端末は、前記発話内容に対応する文字情報と読み情報とを画面表示する、ことを特徴とする電話システム。 A call control unit that is connected to the line and controls call connection;
A service center connected to the call control unit, comprising a voice recognition unit and a screen creation unit;
With
Call from caller, via the call control unit, when connected to the speech recognition unit of the service center, the voice recognition unit, the utterance content from the calling party recognizes speech, The recognition result in which the word is determined by the voice recognition is converted into character information corresponding to the utterance content, and the voice recognition unit adds reading information to the character information, and the call control unit To the screen creation unit via
The screen creation unit creates screen data that combines the character information corresponding to the utterance content and its reading information and passes it to the call control unit,
The call control unit transmits to the called terminal,
Telephone system the called terminals, wherein you screen and reading the character information data corresponding to the utterance contents, characterized in that.
前記発呼者からの呼が接続されたあと、前記サービスセンタの前記音声認識部では、前記発呼者からの発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、前記音声認識部では前記発話内容に対応する文字情報に対して読み情報を生成せず、前記発話内容に対応する文字情報を前記呼制御部に渡し、
前記呼制御部は、前記発話内容に対応する文字情報を、前記サービスセンタの前記読みつけ生成部に送り、
前記読みつけ生成部は、前記発話内容に対応する文字情報から読みを推定して読み情報を生成し、前記読み情報を、前記呼制御部に送信し、
前記呼制御部は、前記サービスセンタの前記音声認識部から出力される前記発話内容に対応する文字情報と、前記サービスセンタの前記読みつけ生成部からの読み情報を、前記サービスセンタの前記画面作成部に送り、
前記画面作成部は、前記発話内容に対応する文字情報とその読み情報をあわせた画面データを作成する、ことを特徴とする請求項1記載の電話システム。 The service center includes a reading generation unit separately from the voice recognition unit,
After the call from the caller is connected, in the voice recognition unit of the service center, the utterance content from the caller's voice recognition, the recognition result of the word has been determined by the voice recognition to the The voice recognition unit does not generate reading information for the character information corresponding to the utterance content, and the character information corresponding to the utterance content is sent to the call control unit. Hand over,
The call control unit sends character information corresponding to the utterance content to the reading generation unit of the service center,
The reading generation unit generates reading information by estimating reading from character information corresponding to the utterance content, and transmits the reading information to the call control unit,
The call control unit generates character information corresponding to the utterance content output from the voice recognition unit of the service center and reading information from the reading generation unit of the service center, and creates the screen of the service center. To the department,
The screen creating section, the telephone system of claim 1, wherein the creating the character information corresponding to the speech content and a screen data combined thus read information, it is characterized.
前記サービスセンタの前記音声認識部では、読み情報を生成せず、前記画面作成部は、前記音声認識部からの前記発話内容に対応する文字情報の画面データを作成し、
前記着呼側の端末の読みつけ生成部が、前記発話内容に対応する文字情報から読みを推定して読み情報を生成する、ことを特徴とする請求項1記載の電話システム。 Separately from the voice recognition unit, a reading generation unit is provided in the terminal on the called side,
In the voice recognition portion of the service center, it does not generate read information, the screen creation unit creates the screen data of the character information corresponding to the speech content from the speech recognition unit,
Telephone system according to claim 1, wherein the generating unit attached reading of the called terminal generates the reading by estimating information read from the character information corresponding to the uttered contents, it is characterized.
発呼者からの呼が前記呼制御部を経由して前記音声認識部に接続されると、前記音声認識部は、前記発呼者からの発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、さらに前記音声認識部は、前記文字情報に対して読み情報を付加し、前記呼制御部を介して、前記画面作成部に渡し、
前記画面作成部では、前記発話内容に対応する文字情報とその読み情報をあわせた画面データを作成し、前記呼制御部を介して前記画面データを、着呼側の端末に送信する、ことを特徴とするサービスセンタ。 A service center including a voice recognition unit connected to the call control unit and a screen creation unit,
Words a call from the caller is connected to the speech recognition unit via the call control unit, the voice recognition unit, the utterance content from the calling party voice recognition by the voice recognition Is converted into character information corresponding to the utterance content , and the voice recognition unit adds reading information to the character information, and the screen is transmitted via the call control unit. To the creation department,
The screen creation unit creates screen data that combines the character information corresponding to the utterance content and its reading information, and transmits the screen data to the called terminal via the call control unit. A featured service center.
前記発呼者からの呼が接続されたあと、前記音声認識部は、前記発呼者の発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、前記音声認識部では前記発話内容に対応する文字情報に対して読み情報を生成せず、前記発話内容に対応する文字情報を前記呼制御部を介して前記読みつけ生成部に送り、
前記読みつけ生成部は、前記発話内容に対応する文字情報から読みを推定して読み情報を生成して、前記呼制御部に送信し、
前記呼制御部は、前記サービスセンタの前記音声認識部から出力される前記発話内容に対応する文字情報と、前記読みつけ生成部からの読み情報を、前記サービスセンタの前記画面作成部に送る、ことを特徴とするサービスセンタ。 6. The service center according to claim 5 , further comprising a reading generation unit separately from the voice recognition unit,
After the call from the caller is connected, the voice recognition unit, the utterance content of the caller's voice recognition, to the speech content with respect to the recognition result word has been determined by the voice recognition The voice recognition unit does not generate reading information for the character information corresponding to the utterance content, and reads the character information corresponding to the utterance content via the call control unit. To the generator,
The reading generation unit generates reading information by estimating reading from character information corresponding to the utterance content, and transmits the reading information to the call control unit,
The call control unit sends the character information corresponding to the utterance content output from the voice recognition unit of the service center and the reading information from the reading generation unit to the screen creation unit of the service center. A service center characterized by this.
前記読み情報は、平仮名、ローマ字、発音記号のうちの少なくとも1つで前記発話内容に対応する文字情報を表記したものである、ことを特徴とする請求項1乃至3のいずれか一記載の電話システム。 The character information is a kana-kanji converted recognition result in which a word is determined by the voice recognition,
The telephone according to any one of claims 1 to 3 , wherein the reading information represents character information corresponding to the utterance content in at least one of hiragana, romaji, and phonetic symbols. system.
前記呼制御部に接続され、音声認識部と画面作成部を備えたサービスセンタと、
を備えた電話システムの通話補助方法であって、
発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、前記発呼者からの発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、さらに前記音声認識部は、前記文字情報に対して読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、前記発話内容に対応する文字情報とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部は、着呼側の端末に送信し、
前記着呼側の端末は、前記発話内容に対応する文字情報と読み情報を画面表示する、ことを特徴とする電話システムの通話補助方法。 A call control unit that is connected to the line and controls call connection;
A service center connected to the call control unit and comprising a voice recognition unit and a screen creation unit;
A call assistance method for a telephone system comprising:
Call from caller, via the call control unit, when connected to the speech recognition unit of the service center, the voice recognition unit, the utterance content from the calling party recognizes speech, The recognition result in which the word is determined by the voice recognition is converted into character information corresponding to the utterance content , and the voice recognition unit adds reading information to the character information, and the call control unit To the screen creation unit via
The screen creation unit creates screen data combining the character information corresponding to the utterance content and its reading information and passes it to the call control unit, and the call control unit transmits to the terminal on the called side,
The called terminal, the you screen displaying information read the character information corresponding to the uttered contents, call the auxiliary method for a telephone system, characterized in that.
前記発呼者からの呼が接続されたあと、前記サービスセンタの前記音声認識部は、前記発呼者からの発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、前記音声認識部では前記発話内容に対応する文字情報に対して読み情報を生成せず、前記発話内容に対応する文字情報を前記呼制御部に渡し、
前記呼制御部は、前記発話内容に対応する文字情報を前記サービスセンタの前記読みつけ生成部に送り、前記読みつけ生成部は、前記発話内容に対応する文字情報から読みを推定し、読み情報を、前記呼制御部に送信し、前記呼制御部は、前記サービスセンタの音声認識部から出力される前記発話内容に対応する文字情報と、前記読みつけ生成部からの読み情報を、前記サービスセンタの画面作成部に送り、前記画面作成部は、前記発話内容に対応する文字情報とその読み情報をあわせた画面データを作成する、ことを特徴とする請求項8記載の電話システムの通話補助方法。 The service center includes a reading generation unit separately from the voice recognition unit,
After the call from the caller is connected, the voice recognition unit of the service center, the utterance content from the caller's voice recognition, the recognition result of the word has been determined by the voice recognition to the The voice recognition unit does not generate reading information for the character information corresponding to the utterance content, and the character information corresponding to the utterance content is sent to the call control unit. Hand over,
The call control unit sends character information corresponding to the utterance content to the reading generation unit of the service center, and the reading generation unit estimates a reading from the character information corresponding to the utterance content, and reads the reading information. and transmitted to the call control unit, the call control unit, and the character information corresponding to the speech content output from the speech recognition unit of the service center, the read information from the read put generating unit, the service 9. The telephone system call assistance according to claim 8 , wherein the screen creation unit creates screen data that combines character information corresponding to the utterance content and its reading information. Method.
前記読み情報は、平仮名、ローマ字、発音記号のうちの少なくとも1つで前記発話内容に対応する文字情報を表記したものである、ことを特徴とする請求項8又は9記載の電話システムの通話補助方法。 The character information is a kana-kanji converted recognition result in which a word is determined by the voice recognition,
10. The telephone system call assistance according to claim 8 or 9 , wherein the reading information represents character information corresponding to the utterance content in at least one of hiragana, romaji, and phonetic symbols. Method.
発呼者からの呼が、前記呼制御部を経由して前記音声認識部に接続されると、
前記音声認識部は、前記発呼者からの発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、さらに前記音声認識部は、前記文字情報に対して読み情報を付加し、前記呼制御部を介して前記画面作成部に渡す処理を実行し、
前記画面作成部は、前記発話内容に対応する文字情報とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部を介して、着呼側の端末に送信する処理を実行するサービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部の前記各処理を実行させるプログラム。 A voice recognition unit connected to the call control unit, and a screen creation unit;
When a call from a caller is connected to the voice recognition unit via the call control unit,
The voice recognition unit, said utterance content from the caller voice recognition, converted into character information corresponding to the uttered contents against recognition result word is determined by the speech recognition, yet the voice recognition parts adds information read to the text information, executes the pass to process the viewing preparation unit through the call control unit,
The screen creation unit creates screen data combining character information corresponding to the utterance content and reading information, passes the screen data to the call control unit, and transmits the call data to the called terminal via the call control unit. the computer constituting the service center to execute the processing program for executing the respective processing of the viewing preparation unit and the voice recognition unit.
前記サービスセンタが前記音声認識部とは別に読みつけ生成部を備え、
前記発呼者からの呼が接続されたあと、前記音声認識部は、前記発呼者からの発話内容を音声認識し、前記音声認識により単語が決定された認識結果に対して前記発話内容に対応する文字情報に変換し、前記音声認識部では前記発話内容に対応する文字情報に対して読み情報を生成せず、前記発話内容に対応する文字情報を前記呼制御部を介して前記読みつけ生成部に送る処理を実行し、
前記読みつけ生成部は、前記発話内容に対応する文字情報から読みを推定し、読み情報を、前記呼制御部に送信する処理を実行する前記サービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部と前記読みつけ生成部の前記各処理を実行させるプログラム。 In claim 1 wherein the program,
The service center includes a reading generation unit separately from the voice recognition unit,
After the call from the caller is connected, the voice recognition unit, the utterance content from the calling party speech recognition, the speech content for the recognition result word has been determined by the voice recognition The speech recognition unit does not generate reading information for the character information corresponding to the utterance content, and the character information corresponding to the utterance content is read via the call control unit. run the feeding that process to put generation unit,
The read put generating unit estimates read from the character information corresponding to the speech content, the read information, the computer constituting the service center to execute the process of transmitting to the call control unit, and the speech recognition unit program for executing the processes of generating portion attached to read the said screen creating unit.
前記読み情報は、前記発話内容に対応する文字情報の読みを推定したものを平仮名、ローマ字、発音記号のうちの少なくとも1つで表記したものである、ことを特徴とする請求項12又は13に記載のプログラム。 The character information is a kana-kanji converted recognition result in which a word is determined by the voice recognition,
The read information is, Hiragana those estimated reading character information corresponding to the uttered contents, Romaji, is obtained by representation of at least one of phonetic symbols, according to claim 1 2 or 13, characterized in that The program described in.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006240473A JP5046589B2 (en) | 2006-09-05 | 2006-09-05 | Telephone system, call assistance method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006240473A JP5046589B2 (en) | 2006-09-05 | 2006-09-05 | Telephone system, call assistance method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008066866A JP2008066866A (en) | 2008-03-21 |
JP5046589B2 true JP5046589B2 (en) | 2012-10-10 |
Family
ID=39289215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006240473A Active JP5046589B2 (en) | 2006-09-05 | 2006-09-05 | Telephone system, call assistance method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5046589B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140062256A (en) * | 2012-11-14 | 2014-05-23 | 엘지전자 주식회사 | Mobile terminal and operationg method thereof |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130057338A (en) * | 2011-11-23 | 2013-05-31 | 김용진 | Method and apparatus for providing voice value added service |
JP6150268B2 (en) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | Word registration apparatus and computer program therefor |
JP5868544B2 (en) * | 2013-03-06 | 2016-02-24 | 三菱電機株式会社 | Speech recognition apparatus and speech recognition method |
JP6852478B2 (en) * | 2017-03-14 | 2021-03-31 | 株式会社リコー | Communication terminal, communication program and communication method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10224520A (en) * | 1997-02-10 | 1998-08-21 | Meidensha Corp | Multi-media public telephone system |
JPH11112550A (en) * | 1997-09-30 | 1999-04-23 | Nec Corp | Electronic mail system terminal and electronic mail system |
JP2002016711A (en) * | 2000-06-30 | 2002-01-18 | Matsushita Electric Works Ltd | Intention delivery transmitter |
JP2003092628A (en) * | 2001-07-13 | 2003-03-28 | Ketsu Aoki | Phone relay service method |
-
2006
- 2006-09-05 JP JP2006240473A patent/JP5046589B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140062256A (en) * | 2012-11-14 | 2014-05-23 | 엘지전자 주식회사 | Mobile terminal and operationg method thereof |
KR102018657B1 (en) * | 2012-11-14 | 2019-09-05 | 엘지전자 주식회사 | Mobile terminal and Operationg method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2008066866A (en) | 2008-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885318B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US8489397B2 (en) | Method and device for providing speech-to-text encoding and telephony service | |
US8725513B2 (en) | Providing expressive user interaction with a multimodal application | |
US7433818B2 (en) | Subscriber terminal for providing speech-text encoding and telephony service | |
US10217466B2 (en) | Voice data compensation with machine learning | |
US8849666B2 (en) | Conference call service with speech processing for heavily accented speakers | |
WO2019111346A1 (en) | Full-duplex speech translation system, full-duplex speech translation method, and program | |
TWI322409B (en) | Method for the tonal transformation of speech and system for modifying a dialect ot tonal speech | |
KR20210114518A (en) | End-to-end voice conversion | |
US20090326939A1 (en) | System and method for transcribing and displaying speech during a telephone call | |
US9154620B2 (en) | Method and system of voice carry over for instant messaging relay services | |
US9728202B2 (en) | Method and apparatus for voice modification during a call | |
JP5046589B2 (en) | Telephone system, call assistance method and program | |
US20150046158A1 (en) | Method and apparatus for voice modification during a call | |
TW200304638A (en) | Network-accessible speaker-dependent voice models of multiple persons | |
JP2018174439A (en) | Conference support system, conference support method, program of conference support apparatus, and program of terminal | |
JP2020113150A (en) | Voice translation interactive system | |
JP2005283972A (en) | Speech recognition method, and information presentation method and information presentation device using the speech recognition method | |
US20240233745A1 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US6501751B1 (en) | Voice communication with simulated speech data | |
JP2009122989A (en) | Translation apparatus | |
KR20090054609A (en) | Voip telephone communication system and method for providing users with telephone communication service comprising emotional contents effect | |
US20220139417A1 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
JP2005123869A (en) | System and method for dictating call content | |
US20240330608A1 (en) | Systems and methods for providing real-time automated language translations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090814 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120717 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5046589 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |