JP4765274B2 - Speech synthesis apparatus and speech synthesis method - Google Patents
Speech synthesis apparatus and speech synthesis method Download PDFInfo
- Publication number
- JP4765274B2 JP4765274B2 JP2004202320A JP2004202320A JP4765274B2 JP 4765274 B2 JP4765274 B2 JP 4765274B2 JP 2004202320 A JP2004202320 A JP 2004202320A JP 2004202320 A JP2004202320 A JP 2004202320A JP 4765274 B2 JP4765274 B2 JP 4765274B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- information
- unit
- image
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は音声合成装置及び音声合成方法に関し、特に画像又は音響データに付随する情報に基づいて文を生成し、音声合成する音声合成装置及び音声合成方法に関する。 The present invention relates to a speech synthesizer and a speech synthesizer, and more particularly to a speech synthesizer and a speech synthesizer that synthesize a speech based on information attached to an image or sound data.
近年、デジタルスチルカメラ、携帯情報端末(PDA)等では、着脱型メモリであるリムーバブルメモリに画像、動画及び音楽ファイル等の画像ファイル及び画像に関連するファイルをデジタルカメラファイルフォーマットに基づいて記録し、上記機器間やプリンタ等の関連機器間で簡便にファイルを交換するようになってきた。 In recent years, digital still cameras, personal digital assistants (PDAs), etc. record image files such as images, moving images and music files and files related to images in a removable memory, which is a removable memory, based on the digital camera file format, Files have been easily exchanged between the above devices and related devices such as printers.
例えば、デジタルスチルカメラで撮影し、リムーバブルメディアに上記デジタルカメラフォーマットに基づいて記録した画像ファイルを関連機器等で呼び出そうとする場合には、画像検索が行われる。また、デジタルスチルカメラで後日、目的の画像ファイルを呼び出そうとするときにも画像検索が行われる。 For example, when an image file shot with a digital still camera and recorded on a removable medium based on the digital camera format is to be called up by a related device or the like, an image search is performed. An image search is also performed when a digital still camera tries to recall a target image file at a later date.
一般的に、画像検索方法、画像検索装置においては、原画像に対応して画像情報検索のデータベースに登録された検索キーを使い、あるいは見出し検索用の縮小画像を配列表示し、フォーカス選択して、縮小画像と原画像とのリンク構造を使用して原画像を表示鑑賞することが以下に記す特許文献などにより様々な形態で行われている。 In general, in an image search method and an image search apparatus, a search key registered in an image information search database corresponding to an original image is used, or reduced images for headline search are arranged and displayed, and focus selection is performed. The display and appreciation of the original image using the link structure between the reduced image and the original image is performed in various forms according to the following patent documents.
特許文献1には、プレゼンテーション装置に使用する、縮小見出し画像と付属データの行列表示技術が開示されている。特許文献2には、電子画像の媒体記録再生装置に使用した場合の見出し画像を記録、再生利用する技術が開示されている。特許文献3には、電子画像表示装置で選択された縮小画像に枠フォーカス表示付けて選択状態表示を知らせる技術が開示されている。特許文献4には、検索した画像データに追加属性情報を登録する技術が開示されている。特許文献5には、配列表示された縮小画像の一つを選択して、それを起点に後続の縮小画像集合を配列表示する技術が開示されている。特許文献6には、配列表示された見出し縮小画像で画像検索する静止画動画の画像検索装置があるシステム例の開示がある。特許文献7には、情報サービス受信装置および情報サービス受信方法が開示されている。特許文献8には、「デジタルカメラ」メモリカードの識別名をつけるという技術が開示されている。また、非特許文献1には、データベースの検索のために必要な複数の項目およびデータを日常会話に近い自然語文表現でデータベースを検索できれば操作性が非常に向上することが開示されている。
Patent Document 1 discloses a matrix display technique of reduced headline images and attached data used for a presentation apparatus.
しかしながら、前述の如く、小型化する携帯型画像表示装置において検索画像を閲覧する場合には、装置付属の表示画面サイズがますます小型化され、さらには見出し画像を多数配置するとその微細な情報を認識判別することが非常に困難になってきている。また、登録キーを表示しようにも、表示画面自体が小さいので文字も大きくできず、文字数も多数を同時に表示できず、求める画像を的確に選択するのに困難なものになってきていた。 However, as described above, when browsing a search image on a miniaturized portable image display device, the size of the display screen attached to the device is further miniaturized. It has become very difficult to recognize and discriminate. Further, even when trying to display the registration key, the display screen itself is small, so that the characters cannot be enlarged, and a large number of characters cannot be displayed at the same time, making it difficult to accurately select the desired image.
また、小型携帯型画像表示機器は、その記録内容のパーソナルコンピュータPCとの流通性から、小型携帯型画像表示機器専用のメディアファイルフォーマットを使用している。 In addition, the small portable image display device uses a media file format dedicated to the small portable image display device because of its circulation with the personal computer PC of the recorded contents.
本発明は、上記実情に鑑みてなされたものであり、画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することにより、ユーザフレンドリに音声合成によって画像の検索を可能とする音声合成装置及び音声合成方法の提供を目的とする。 The present invention has been made in view of the above circumstances, and reads out and reads out user registration memos, storage folder names, information at the time of recording, reproduction frequency, or favorable information, which are information accompanying image or sound data. An object is to provide a speech synthesis apparatus and a speech synthesis method that generate a sentence based on the information, and synthesize the voice of the generated sentence and output the voice as a voice so that the user can search for an image by voice synthesis. To do.
本発明に係る音声合成装置は、上記課題を解決するために、画像又は音響データに付随する情報を読み出す情報読み出し手段と、上記情報読み出し手段によって読み出された情報に基づいて文を生成する文生成手段と、上記文生成手段によって生成された文を音声合成して出力する音声合成手段とを有し、上記文生成手段は、出力する文の内容を決定するために上記情報読み出し手段によって読み出された情報に基づく文字列を解析する文字列解析手段と、上記文字列解析手段にて解析された文字列から単語を抽出する単語抽出手段と、文を生成するために用いるテンプレートを記憶しているテンプレート記憶手段とを更に有し、上記文生成手段は、上記単語抽出手段によって抽出された単語を含む文字列を、上記テンプレート記憶手段から選択したテンプレートが要求する文構造決定用のルールに当てはまるように変形し、上記変形した文字列を上記テンプレートに当てはめて文を生成する。 In order to solve the above problem, a speech synthesizer according to the present invention includes an information reading unit that reads information associated with an image or sound data, and a sentence that generates a sentence based on the information read by the information reading unit. a generation unit, a text generated by said sentence generating means possess a voice synthesizing means for outputting the speech synthesis, the sentence generation means reads by said information reading means to determine the content of the sentence to be output Storing a character string analyzing means for analyzing a character string based on the outputted information, a word extracting means for extracting a word from the character string analyzed by the character string analyzing means, and a template used for generating a sentence. A template storage means, wherein the sentence generation means receives a character string including the word extracted by the word extraction means from the template storage means. -Option template is deformed to fit the rules for sentence structure determination requesting, a string the deformation generates a sentence by applying the above template.
画像又は音響データから情報読み出し部が必要な情報を抽出し、その情報を元に文生成部がガイド文を生成し、生成されたガイド文をテキスト音声合成部が音声合成し、音声を出力する。 The information reading unit extracts necessary information from the image or the sound data, the sentence generation unit generates a guide sentence based on the information, the text-to-speech synthesis unit synthesizes the generated guide sentence, and outputs the sound. .
本発明に係る音声合成方法は、上記課題を解決するために、画像又は音響データに付随する情報を読み出す情報読み出し工程と、上記情報読み出し工程によって読み出された情報に基づいて文を生成する文生成工程と、上記文生成工程によって生成された文を音声合成して出力する音声合成工程とを有し、上記文生成工程は、出力する文の内容を決定するために上記情報読み出し工程によって読み出された情報に基づく文字列を解析する文字列解析工程と、上記文字列解析工程にて解析された文字列から単語を抽出する単語抽出工程と、文を生成するために用いるテンプレートを記憶しているテンプレート記憶手段からテンプレートを選択するテンプレート選択工程とを更に有し、上記文生成工程では、上記単語抽出工程によって抽出された単語を含む文字列を、上記テンプレート記憶手段から選択したテンプレートが要求する文構造決定用のルールに当てはまるように変形し、上記変形した文字列を上記テンプレートに当てはめて文を生成する。 In order to solve the above problems, the speech synthesis method according to the present invention includes an information reading step for reading information associated with an image or sound data, and a sentence for generating a sentence based on the information read by the information reading step. a generation step, a text generated by the text generation step possess a speech synthesis step to output the speech synthesis, the sentence generating step reads by the information reading step in order to determine the contents of the sentence to be output A character string analyzing step for analyzing a character string based on the information that has been issued, a word extracting step for extracting a word from the character string analyzed in the character string analyzing step, and a template used for generating a sentence are stored. A template selection step of selecting a template from the template storage means, and in the sentence generation step, the template is extracted by the word extraction step. A string containing the word, deform to fit the rules for sentence structure determination template selected from the template storage means for requesting a character string described above modified to produce a sentence by applying the above template.
本発明の音声合成装置及び音声合成方法は、画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。このため、本発明の音声合成装置を携帯型の画像音声記録再生装置に適用することで、音声によって案内される情報によって、画像音声記録再生装置によって記録/再生された画像を検索することができる。 The speech synthesizer and the speech synthesis method of the present invention read out user registration memos, storage folder names, information at the time of recording, reproduction frequency, or preference information, which are information accompanying image or sound data, A sentence can be generated based on the generated sentence, and the generated sentence can be synthesized as a voice and output as a voice. Therefore, by applying the speech synthesizer of the present invention to a portable video / audio recording / reproducing apparatus, it is possible to search for an image recorded / reproduced by the audio / video recording / reproducing apparatus based on information guided by voice. .
本発明の音声合成装置及び音声合成方法を携帯型の画像音声記録再生装置に適用すると、以下のような効果も得られる。先ず、画像説明または楽曲ファイル対応説明のための説明音声のオーディオデータファイルを別途記録する必要がなくなり、撮影枚数が数桁以上、例えば数千枚以上に増加しても対応する説明音声オーディオファイルを記録することなくテキスト音声合成によるファイル説明のガイド文音声出力が可能になる。 When the speech synthesizer and speech synthesis method of the present invention are applied to a portable video / audio recording / reproducing device, the following effects can be obtained. First, there is no need to separately record audio data files of explanation audio for image explanation or music file correspondence explanation, and even if the number of shots is increased by several digits, for example, thousands or more, a corresponding explanation audio audio file can be created. It is possible to output a guide sentence voice of a file description by text voice synthesis without recording.
また、書き込み媒体が光ディスクのようなメディア上のシークに時間のかかる場合に、対応する説明音声のオーディオファイルをファイルシステムで検索する制御が不要となり、ファイル数が増大していっても説明音声へのアクセス時間が増加しない。 In addition, when it takes time to seek on a medium such as an optical disk as a writing medium, control for searching the audio file of the corresponding explanation voice by the file system is not necessary, and even if the number of files increases, the explanation voice can be obtained. Access time does not increase.
また、選択表示が縮小画像に付加表示処理された状態で、この選択された縮小画像と対応する画像付加情報コードがテキスト音声合成インターフェース手段に出力されるので、携帯型機器の表示画面がさらに縮小されて縮小画像の内容が認識しにくい場合でも個別の縮小画像が選択されることによって、その選択された縮小画像と対応する画像付加情報が説明音声として認識できる。 In addition, in a state where the selected display is additionally displayed on the reduced image, the image additional information code corresponding to the selected reduced image is output to the text-to-speech synthesis interface means, so that the display screen of the portable device is further reduced. Even if it is difficult to recognize the contents of the reduced image, the individual additional reduced image is selected, so that the additional image information corresponding to the selected reduced image can be recognized as the explanation voice.
また、別途音声説明オーディオファイルの記録必要がなくなるので、書き込み回数の減少により、書き込み回数に上限制限のあるメモリや一括して書き込み消去をおこなう必要のある、たとえばフラッシュメモリを使用するメモリカードの場合、メディアがさらに長く使用できることとなる。 In addition, since there is no need to record a separate audio explanation audio file, the number of times of writing is reduced, so there is a limit on the number of times of writing, or writing / erasing all at once, such as a memory card using flash memory The media can be used even longer.
また、音声合成によるので、文字表示することにより小さな画面を隠したり表示妨害することなく、情報を省略する必要なく音声にて聞いて把握することができる。 Also, since it is based on speech synthesis, it is possible to hear and grasp information without needing to omit information without hiding a small screen or obstructing display by displaying characters.
複数言語にも対応できる。複数ユーザ年齢にも対応できる。複数再生場所にも対応できる。複数記録場所にも対応できる。 It can handle multiple languages. It can handle multiple user ages. It can support multiple playback locations. It can also handle multiple recording locations.
以下、本発明を実施するための最良の形態を説明する。本実施の形態は、携帯型撮影画像メディアフォーマットとして広く使用されている、交換可能メディア画像ファイルフォーマット(Exchangeable Image File Formqt:Exif、イグジフ)、特にその中で静止画デジタルカメラに広く採用され普及している、DCF(Design Rule for Camera File)システムを用いて撮影画像や音声をリムーバブルメディアに記録すると共に上記リムーバブルメディアから撮影画像や音声を再生する携帯型の画像音声記録再生装置に適用される音声合成装置である。 Hereinafter, the best mode for carrying out the present invention will be described. This embodiment is widely used as an interchangeable media file format (Exchangeable Image File Formqt: Exif), which is widely used as a portable photographic image media format. Audio applied to a portable video / audio recording / reproducing apparatus that records a photographed image or sound on a removable medium using a DCF (Design Rule for Camera File) system and reproduces the photographed image or sound from the removable medium. It is a synthesizer.
音声合成装置は、携帯型画像音声記録再生装置が上記DCFシステムにしたがってリムーバブルメディアに記録した撮影メディアフォーマットに記載された情報を用いて文を生成し、生成した文を音声合成して出力する。ここでいう、撮影メディアフォーマットに記載された情報とは、画像又は音響データに付随する情報のことで、ユーザ登録メモ、画像データを格納する格納フォルダ名、記録時の情報、再生頻度、又は好感度情報がある。 The voice synthesizer generates a sentence using information described in the photographic media format recorded on the removable medium by the portable video / audio recording / playback apparatus according to the DCF system, and synthesizes and outputs the generated sentence. The information described in the photographic media format here refers to information accompanying the image or sound data, such as a user registration memo, the name of the storage folder for storing the image data, the information at the time of recording, the reproduction frequency, or the preference. There is sensitivity information.
図1は音声合成装置1のブロック図である。この音声合成装置1は、画像又は音響データに付随する情報を読み出す情報読み出し部2と、情報読み出し部2によって読み出された情報に基づいて文を生成する文生成部3と、文生成部3によって生成された文を音声合成して出力するテキスト音声合成部4とによって構成される。
FIG. 1 is a block diagram of the speech synthesizer 1. The speech synthesizer 1 includes an
図2は音声合成装置の全体的な処理手順を示すフローチャートである。画像又は音響データから情報読み出し部2が必要な情報を抽出し(ステップS1)、その情報を元に文生成部がガイド文を生成し(ステップS2)、生成されたガイド文をテキスト音声合成部が音声合成し(ステップS3)、音声を出力する。
FIG. 2 is a flowchart showing an overall processing procedure of the speech synthesizer. The
情報読み出し部2は、上述したように、例えば、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報からなる、画像又は音響データに付随する情報を読み出す。以下に、情報読み出し部2の上記付随する情報の読み出しについて説明する。図3は交換可能メディア画像ファイルフォーマットであるExifファイルの画像ファイル構成例である。図4はExifファイルのオーディオファイル構成例である。
As described above, the
Exifファイルの画像ファイル構成例では、図3に示すように、SOI(Start Of Image)によりJPEGストリームの先頭が示される。SOIの直後にはAPP1(Application marker segment 1)が挿入される。APP1にはExif情報が記載される。このExif情報については詳細を後述する。APP1に続いてJPEGテーブルが記載される。量子化テーブル、ハフマンテーブル、フレームヘッド、スキャンヘッドなどが含まれる。次に、JPEG基本原画像データが続く。そして、EOI(End OF Image)でJPEGデータの終端が示される。 In the image file configuration example of the Exif file, as shown in FIG. 3, the beginning of the JPEG stream is indicated by SOI (Start Of Image). APP1 (Application marker segment 1) is inserted immediately after SOI. APP1 contains Exif information. Details of this Exif information will be described later. A JPEG table is described following APP1. Quantization tables, Huffman tables, frame heads, scan heads and the like are included. Next, JPEG basic original image data follows. The end of JPEG data is indicated by EOI (End OF Image).
APP1に記載されるExif情報は、APP1マーカー、APP1のデータ長、Exifの識別コード(ExifIFD)及び付属情報本体から構成される。これら全てを含むAPP1の大きさは、JPEG規格により64kByteを越えない。付属情報は、最大二つのIFD(0thIFD、1stIFD)を記録できる。0thIFDには、圧縮されている画像(主画像)に関する付属情報を記録する。1stIFDには、サムネイル画像(JPEG圧縮基本サムネイルデータ)を記録する。 The Exif information described in APP1 includes an APP1 marker, an APP1 data length, an Exif identification code (ExifIFD), and an attached information body. The size of APP1, which includes all of these, does not exceed 64kByte according to the JPEG standard. Attached information can record up to two IFDs (0thIFD, 1stIFD). In 0thIFD, auxiliary information regarding the compressed image (main image) is recorded. In 1stIFD, thumbnail images (JPEG compressed basic thumbnail data) are recorded.
ExifIFDは、Exif固有の付属情報を記録するためのタグの集まりである。Exifバージョンタグ、画像データ特性タグ、画像構造タグ、ユーザコメントタグ、関連ファイル情報タグ、日時タグ、撮影条件タグ、IFDポインタ互換性からなる。 ExifIFD is a collection of tags for recording additional information unique to Exif. It consists of Exif version tag, image data characteristic tag, image structure tag, user comment tag, related file information tag, date / time tag, shooting condition tag, and IFD pointer compatibility.
バージョンタグは、本Exif規格での対応バージョンを示す。このフィールドが存在しなければ、本Exif規格に準拠していないと判断される。本Exif規格に準拠する場合には、4ByteのASCII”0210”を記録する。 The version tag indicates the version supported by this Exif standard. If this field does not exist, it is determined that the field does not conform to this Exif standard. When conforming to this Exif standard, 4 bytes of ASCII “0210” is recorded.
画像データ特性タグは、色空間を示す情報である。本規格では、PCモニタによる観察条件から色空間を規定したsRGB(=1)を使用する。 The image data characteristic tag is information indicating a color space. In this standard, sRGB (= 1) that defines the color space from the observation conditions on the PC monitor is used.
画像構造タグは、実効画像幅(PixelXDimension)、実効画像高さ(PixelYDimension)、各コンポーネントの意味(ComponentsConfiguration)、画像圧縮モード(CompressedBitsPerPixel)からなる。実効画像幅は、圧縮データ固有の情報である。圧縮ファイルを記録する場合には、パディングデータの有無、リスタートマーカの有無に関わらず、有意な画像の幅をこの実効画像幅タグに必ず記録する。非圧縮ファイルでは書かない。実効画像高さも圧縮データ固有の情報である。圧縮ファイルを記録する場合には、パディングデータの有無、リスタートマーカの有無に関わらず、有意な画像の高さをこの実効画像高さタグに必ず記録する。非圧縮ファイルでは書かない。各コンポーネントの意味も圧縮データ固有の情報である。各コンポーネントのチャネルを、第1コンポーネントから第4コンポーネントの順に示す。圧縮画像モードも圧縮データ固有の情報である。画像圧縮時に設定された圧縮モードを単位bit/pelで示す。 The image structure tag includes an effective image width (PixelXDimension), an effective image height (PixelYDimension), a meaning of each component (ComponentsConfiguration), and an image compression mode (CompressedBitsPerPixel). The effective image width is information unique to the compressed data. When a compressed file is recorded, a significant image width is always recorded in the effective image width tag regardless of the presence of padding data and the presence of a restart marker. Do not write in uncompressed files. The effective image height is also information unique to the compressed data. When a compressed file is recorded, a significant image height is always recorded in the effective image height tag regardless of the presence of padding data and the presence of a restart marker. Do not write in uncompressed files. The meaning of each component is also information unique to the compressed data. The channel of each component is shown in order from the first component to the fourth component. The compressed image mode is also information unique to the compressed data. The compression mode set at the time of image compression is indicated by unit bit / pel.
ユーザコメントタグは、メーカーノートと共にユーザ情報に関するタグを構成する。メーカーノートは、Exifライターのメーカが個別の情報を記入するためのタグである。内容については各メーカの運用に任せられている。ユーザコメントタグは、イメージディスクリプション以外に画像に対してExifユーザがキーワードやコメントをユーザ登録メモとして書き込むためのタグである。 The user comment tag constitutes a tag related to user information together with the manufacturer note. The manufacturer note is a tag for the Exif writer manufacturer to enter individual information. The contents are left to the operation of each manufacturer. The user comment tag is a tag for an Exif user to write a keyword or comment as a user registration memo for an image in addition to the image description.
ユーザコメントに書かれる文字コードを判別するために、文字コードタイプをタグのデータ領域先頭に8バイト固定で記入し、余った領域にはnullでパディングする。文字コードとしてはASCII、JIS、Unicode、Undefinedがあり、リファレンスとしてITU-TT.50IA5、JISX0208-1990、UnicodeStandard、Undefinedがある。Exifのリーダーは、文字コードを判別する機能を必ず持つ。そして、リーダーの能力に応じて表示する。文字コードタイプに続けて、ユーザコメントデータ欄が設けられる。文字コードタイプで識別された文字コードにより、Exifユーザがキーワードやコメントをユーザ登録メモリとして書き込むところである。 In order to determine the character code written in the user comment, the character code type is entered with a fixed 8 bytes at the beginning of the tag data area, and the remaining area is padded with null. Character codes include ASCII, JIS, Unicode, and Undefined. References include ITU-TT.50IA5, JISX0208-1990, Unicode Standard, and Undefined. Exif readers always have the ability to distinguish character codes. And it displays according to the ability of the leader. Following the character code type, a user comment data field is provided. The Exif user writes a keyword or comment as a user registration memory by the character code identified by the character code type.
関連ファイル情報タグは、画像データに関連する音声ファイル名を記録している。関連情報として、相手先であるExif音声ファイルのファイル名と拡張子を一つだけ記録する。Exif画像ファイルとExif音声ファイルの対応関係には、3通りある。一つのExif画像ファイルに対して一つのExif音声ファイルが対応する関係、複数のExif画像ファイルに対して一つのExif音声ファイルが対応する関係、一つのExif画像ファイルに対して複数のExif音声ファイルが対応する関係である。本タグを用いて画像ファイルと音声ファイルを関連づける場合には、必ず関連付けされた音声ファイル側にも関連情報を記載しなければならない。 The related file information tag records an audio file name related to the image data. As related information, record only the file name and extension of the Exif audio file that is the destination. There are three types of correspondence between Exif image files and Exif audio files. One Exif image file corresponds to one Exif image file, one Exif image file corresponds to one Exif image file, and one Exif image file corresponds to one Exif image file Corresponding relationship. When an image file and an audio file are associated with each other using this tag, the related information must be described on the associated audio file side.
日時に関するタグは、原画像の生成日時DateTimeOriginal、デジタルデータ作成日時DateTimeDigitized、DateTimeのサブセックSubsecTime、DateTimeOriginalのサブセックSubsecTimeOriginal、DateTimeDigitizedのサブセックSubsecTimeDigitizedである。 The tags related to the date and time are the original image generation date and time DateTimeOriginal, digital data creation date and time DateTimeDigitized, DateTime subsec SubsecTime, DateTimeOriginal subsec SubsecTimeOriginal, and DateTimeDigitized subsec SubsecTimeDigitized.
原画像の生成日時DateTimeOriginalは、原画像の生成された日付と時間を示す。デジタルスチルカメラでは、撮影された日付と時間を記載する。フォーマットは”YYYY:MM:DD HH:MM:SS”となる。時間は24時間表示し、日付と時間の間に空白文字[20.H]を一つ埋める。文字列の長さは、NULLを含めて20バイトとする。記載が無いときは不明として扱う。 The original image generation date and time DateTimeOriginal indicates the date and time when the original image was generated. In the digital still camera, the date and time when the image was taken is recorded. The format is “YYYY: MM: DD HH: MM: SS”. The time is displayed 24 hours, and a space character [20.H] is filled between the date and the time. The length of the character string is 20 bytes including NULL. When there is no description, it is treated as unknown.
デジタルデータ作成日時DateTimeDigitizedは、画像がディジタルデータ化された日付と時間を示す。例えば、デジタルスチルカメラにより撮影され、同時にファイルが記録される場合、原画像の生成日時DateTimeOriginalとデジタルデータ作成日時DateTimeDigitizeは同じ内容となる。フォーマットは”YYYY:MM:DD HH:MM:SS”となる。時間は24時間表示し、日付と時間の間に空白文字[20.H]を一つ埋める。文字列の長さは、NULLを含めて20バイトとする。記載が無いときは不明として扱う。 Digital data creation date and time DateTimeDigitized indicates the date and time when the image was digitized. For example, when an image is captured by a digital still camera and a file is recorded at the same time, the original image generation date / time DateTimeOriginal and the digital data creation date / time DateTimeDigitize have the same contents. The format is “YYYY: MM: DD HH: MM: SS”. The time is displayed 24 hours, and a space character [20.H] is filled between the date and the time. The length of the character string is 20 bytes including NULL. When there is no description, it is treated as unknown.
DateTimeのサブセックSubsecTimeは、DateTimeタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。DateTimeOriginalのサブセックSubsecTimeOriginalは、原画像の生成日時DateTimeOriginalタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。DateTimeDigitizedのサブセックSubsecTimeDigitizedは、デジタルデータ作成日時DateTimeDigitizedタグに関連して時刻を小数点以下の秒単位まで記録するためのタグである。 A sub-sec SubsecTime of DateTime is a tag for recording the time to the second unit after the decimal point in relation to the DateTime tag. The sub-sec SubsecTimeOriginal of DateTimeOriginal is a tag for recording the time to the second unit after the decimal point in relation to the generation time DateTimeOriginal tag of the original image. A sub-sec SubsecTimeDigitized of DateTimeDigitized is a tag for recording the time to the second of the decimal point in relation to the digital data creation date / time DateTimeDigitized tag.
撮影条件に関するタグは、露出時間ExposureTime、シャッタースピードShutterSpeedValue、絞り値ApertureValue、輝度値BrightnessValue、露光補正値ExposureBiasValue、レンズ最小F値MaxApertureValue、被写体距離SubjectDistance、測光方式MeteringMode、光源LightSource、フラッシュFlash、レンズ焦点距離FocalLength、FナンバFNumber、露出プログラムExposureProgram、スペクトル感度SpectralSensitivity、ISOスピードレートISOSpeedRatings、光電変換関数OECF、フラッシュ強度FlashEnergy、空間周波数応答SpatialFrequencyResponse、焦点面の幅の解像度FocalPlaneXResolution、焦点面の高さの解像度FocalPlaneYResolution、焦点面解像度単位FocalPlaneResolutionUnit、被写体位置SubjectLocation、露出インデックスExposureIndex、センサ方式SensingMethod、ファイルソースFileSource、シーンタイプSceneType、CFAパターンCFAPatternがある。IFDポインタ互換性は、互換性IFDへのポインタを示す。 Tags related to shooting conditions are exposure time ExposureTime, shutter speed ShutterSpeedValue, aperture value ApertureValue, brightness value BrightnessValue, exposure correction value ExposureBiasValue, lens minimum F value MaxApertureValue, subject distance SubjectDistance, metering method MeteringMode, light source LightSource, Flash Flash, lens focal length FocalLength, F number FNumber, exposure program ExposureProgram, spectral sensitivity SpectralSensitivity, ISO speed rate ISOSpeedRatings, photoelectric conversion function OECF, flash intensity FlashEnergy, spatial frequency response SpatialFrequencyResponse, focal plane width resolution FocalPlaneXResolution, focal plane height resolution FocalPlaneYResolution, focus There are a surface resolution unit FocalPlaneResolutionUnit, a subject position SubjectLocation, an exposure index ExposureIndex, a sensor method SensingMethod, a file source FileSource, a scene type SceneType, and a CFA pattern CFAPattern. IFD pointer compatibility indicates a pointer to the compatibility IFD.
Exifファイルのオーディオファイル構成例は、図4に示すようなデータ構造を持つ。オーディオファイルでは、ストレージ領域を区画するファイルフォーマットは「チャンク」という区画名称で各データ区画を呼んでいる。最初の“RIFF”というチャンクID(ckID)に続いてRIFFサイズ指定(ckSize)、その後“WAVE”タイプ指定があり、フォーマットチャンクでのMPEGタグ、ステレオの指定があって、WAVEのMP3Audioが登録されていると判定されるオーディオ登録情報データがある。 The audio file configuration example of the Exif file has a data structure as shown in FIG. In the audio file, the file format for partitioning the storage area calls each data partition with the partition name “chunk”. The first “RIFF” chunk ID (ckID) is followed by the RIFF size specification (ckSize), followed by the “WAVE” type specification, the MPEG tag and stereo specification in the format chunk, and WAVE MP3Audio is registered. There is audio registration information data determined to be.
つづいて、ファクトチャンクがあって、これに続き、付属情報サブチャンクとして、INFOリストチャンクとExifリストチャンクがある。そのあとに、チャンクID(ckID)としてASCII文字列“Data”(64617461)を開始マーカーとしてMPEG Layer3圧縮形式WAVEのオーディオストリーム本体データが続く。 Next, there is a fact chunk, followed by an INFO list chunk and an Exif list chunk as attached information sub-chunks. After that, the audio stream body data of the MPEG Layer3 compression format WAVE follows with the ASCII character string “Data” (64617461) as the chunk ID (ckID) and the start marker.
INFOリストチャンク、Exifリストチャンク、データチャンクの各チャンクについて説明する。INFOリストチャンクには英数字で、タイトルの英数字、ジャンル英数字、ファイル作成年月日英数字、コメント英数字、アーティスト英数字、著作権英数字がある。 Each chunk of INFO list chunk, Exif list chunk, and data chunk will be described. The INFO list chunk is alphanumeric, including title alphanumeric, genre alphanumeric, file creation date alphanumeric, comment alphanumeric, artist alphanumeric, and copyright alphanumeric.
Exifリストチャンクは、LISTマーカーから開始して、そのサイズ、“exif”とその規格バージョンが記載され、関連画像ファイルがある場合にはそのファイル名(ポインタは許可されない)が「ファイル名.拡張子」形式で直接記載され、その後に、音声ファイル作成年月日として年:月:日:時:分:秒があって、秒.サブ秒の記載方式でサブ秒まで記載される。 The Exif list chunk starts with a LIST marker, and describes its size, “exif” and its standard version. If there is an associated image file, its file name (pointer is not allowed) is “file name.extension”. ”Format, followed by year: month: day: hour: minute: second and second. It is described up to the subsecond in the subsecond description method.
その後に、ユーザコメントeucmのデータフィールドがある。このユーザコメントには、eucmのタグ文字につづき、eucmのチャンクサイズ、それにつづきチャンクデータである、ユーザコメントが記載される。このユーザコメントは先頭8バイトの文字コードのASCII大文字でのタイプ宣言があり、望ましくはUnicode、日本のパソコン事情でShiftJISを使用する場合はUndefinedが指定される。このユーザコメント欄には、2バイトコード文字でのユーザ文字としての、アーティストや曲名、ファイル作成日時、さび部分の歌詞などが文字列登録されている。これが本実施の形態ではユーザ登録メモ情報として使用される。 After that, there is a data field for user comment eucm. In this user comment, the eucm tag character is followed by the eucm chunk size, followed by the user comment which is chunk data. This user comment has a type declaration in uppercase ASCII with a character code of the first 8 bytes, preferably Unicode, and Undefined is specified when ShiftJIS is used in the Japanese personal computer situation. In this user comment column, an artist, a song name, a file creation date and time, a lyrics of a rust portion, etc. are registered as a character string as a 2-byte code character. This is used as user registration memo information in the present embodiment.
情報読み出し部2は、上記のような画像ファイルやオーディオファイルと音声合成に必要な情報との対応表を保持している。図5は情報読み出しのための対応表の具体例である。
The
合成に必要な情報のデータラベル、Exifファイルのどこを参照すればよいかのポインタ、Exifファイルにおける表現形式が対応付けされている。例えば、格納フォルダ名は、Exifリストチャンクから「文字列」を参照する。ファイル名は、Exifリストチャンクから「ファイル名.拡張子」を参照する。撮影時間は、Exifリストチャンクから「年:月:日:時:分:秒」を参照する。撮影の場所は、ユーザコメントeucmから「文字列」を参照する。再生頻度は、ユーザコメントeucmから「数字」を参照する。好感度情報は、ユーザコメントeucmから「文字列」を参照する。ユーザ登録メモは、ユーザコメントeucmから「文字列」を参照する。そして、情報読み出し部において、上記対応表を用いて、ファイルの上記場所から、本実施の形態のファイル属性データの各情報データが参照され、文字列に変換されて読み出される。 The data label of information necessary for composition, the pointer of where to refer to the Exif file, and the expression format in the Exif file are associated. For example, the storage folder name refers to “character string” from the Exif list chunk. For the file name, refer to “file name.extension” from the Exif list chunk. Refer to "Year: Month: Day: Hour: Minute: Second" from the Exif list chunk for the shooting time. Refer to the “character string” from the user comment eucm for the shooting location. For the reproduction frequency, reference is made to “number” from the user comment eucm. For the preference information, “character string” is referred from the user comment eucm. The user registration memo refers to “character string” from the user comment eucm. Then, in the information reading unit, using the correspondence table, each information data of the file attribute data of the present embodiment is referred from the location of the file, converted into a character string, and read.
図6が情報読み出し部2によって読み出されたデータの例である。情報読み出し部2は、上記情報読み出しのための対応表を用いて、格納フォルダ名から“家族/犬/”を、ファイル名から“モモの散歩.jpg”を、撮影の時間から“2002/06/27”,“09:52:15”を、撮影の場所から“近所の公園”を参照し、各々文字列に変換して読み出す。また、再生頻度から0を、好感度情報から5を、ユーザ登録メモから“モモちゃんが初めて散歩に行った。”を参照し、各々文字列に変換して読み出す。情報読み出し部2によって読み出された、上記図6に示したデータは、文生成部3に送られる。
FIG. 6 shows an example of data read by the
図7は文生成部3の構成図である。文生成部3は、出力内容を決定する出力内容決定部5と、出力内容決定部5で決定された出力内容に合う文を生成する文出力部6とから構成される。このような構成により、文生成部3は、図6に示したようなデータをもとに、出力内容決定部5で、出力言語、文の内容、文の数を決定し、それに合うテンプレートを選択し、文出力部6では上記テンプレートに基づいて文を生成する。
FIG. 7 is a configuration diagram of the
図8は出力内容決定部5の構成図である。出力内容決定部5は、図6に示したようなデータから得られる情報を元に、生成する文の内容を決定するために、文字列を解析する文字列解析部7aと、文字列解析部7aにて解析された文字列から単語を抽出する単語抽出部7bと、出力言語を決定する出力言語決定部10と、文内容を決定する文内容決定部11と、文の数を決定する文の数決定部12と、テンプレートデータベース14から好適なテンプレートを選択するテンプレート選択部13を備える。
FIG. 8 is a configuration diagram of the output
文字列解析部7aは、情報読み出し部2が読み出した上記図6に示したデータに言語的な情報、例えば品詞情報を付与する。文字列は、情報読み出し部2において、単語に分割されているので、文字列解析部7aは、各々の単語をルールファイル8、辞書ファイル9と照らし合わせることによって、言語的な情報を得ることができる。
The character string analysis unit 7a gives linguistic information such as part of speech information to the data shown in FIG. 6 read by the
単語抽出部7bは、文字列解析部7aにて解析された文字列から単語を抽出する。ここで、抽出された単語は、出力言語決定部10、文内容決定部11及び文の数決定部12に渡される。
The
出力言語決定部10は、出力する言語の種類を決定するためのものであり、例えばユーザ指定、画像音声記録装置の起動時の言語モード、ユーザ登録メモの言語という順番で優先度を付ける。もちろん、出力言語決定部10は、言語判定のためのサブモジュールを有する。言語判定サブモジュールは、文字列を受け取り、その文字列が何語であるかを判定する。
The output
言語判定は、他の自然言語処理アプリケーションで用いられている、どの言語判定手法を用いて良い。例えば、入力文字列の文字コード、字種によって判定することができるし、文字列の並びの特徴を言語判定のためのルールとしてもよい。また、内部に辞書データをもち、入力文字列を辞書引きすることによって言語を判定することもできる。 For language determination, any language determination method used in other natural language processing applications may be used. For example, the determination can be made based on the character code and character type of the input character string, and the characteristics of the arrangement of the character strings may be rules for determining the language. It is also possible to determine the language by having dictionary data inside and searching the input character string with a dictionary.
文内容決定部11は、ガイド文としてどのような文を生成するかを決定する。ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータから、文字列解析部7aで解析された文字列中、或いは単語抽出部7bから得られた単語データを基に文生成を行う際、どの情報に関する文であるかを決定する。また、文内容決定部11は、再生情報、好感度情報、感性キー情報、アクセス頻度キー情報などをもとに、画像に対するユーザの捉え方に関するガイド文を生成するかどうかを決定する。ユーザの捉え方に関するガイド文を生成することを決定したときには、テキスト音声合成の制御を行なう。また、アプリケーション使用時間帯情報を基にユーザに対して挨拶文を作成するかどうかを決定するようにしてもよい。もちろん、ユーザ指定情報に基づいて文の内容を決定してもよい。
The sentence
文の数決定部12は、ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータから、文字列解析部7aで解析された文字列中、或いは単語抽出部7bから得られた単語データを基に文の数を決定する。画像記録のモード情報がファイル名等から判明すれば、連続スライドショーモードであるか否かを判定でき、さらにExifIFD日付タグのサブセコンドタグから連続する画像が何枚であるがわかるので、その枚数に応じて、出力する文の分数を決定することができる。また、文の数決定部12は、好感度情報の数に合わせて、文を追加するようにしてもよい。
The number-of-
テンプレート選択部13は、文内容決定部11で決定された内容で、文の数決定部12で指定された文の数分の、出力言語決定部10からの指示に従った言語のテンプレートを選択する。作成する文がユーザ登録メモを基にした文であれば、テンプレート選択部13は、ユーザ登録メモ用のテンプレートを選択する。また、撮影年月日についての文を生成するのであれば、そのためのテンプレートを選択する。
The
また、テンプレート選択部13は、好感度キーによる好感度情報にしたがって、テンプレートを選択することもできる。例えば、テンプレートデータベース14に「これは、<名詞>です。」、「これは、お気に入りの<名詞>です。」という2種類のデータが記録されていたとする。もし、好感度キーが、その画像に対する好感度がよいことを示しているならば、テンプレート選択部13は、「これはお気に入りの<名詞>です。」というテンプレートの方を選択する。好感度がよいことをしめしていなければ、他方のテンプレートを選択する。
Moreover, the
また、テンプレート選択部13は、どんなユーザがアプリケーションを使用しているかの情報を基に、テンプレートを選択することができる。例えば、ユーザが10代の若者である場合、テンプレート選択部13は、「これは、<名詞>だよ。」というようなくだけた口調のテンプレートを選択することもできる。
Further, the
図9は出力内容決定部5の処理手順を示すフローチャートである。先ず、概略的に説明すると、文字列解析部7aにより文字列を解析すると共に単語抽出部7bにより単語を抽出し(ステップS11)、出力言語決定部10により出力言語を決定し(ステップS12)、文内容決定部11により文内容を決定し(ステップS13)、文の数決定部12により文の数を決定し(ステップS14)、テンプレート選択部13によりテンプレートを選択する(ステップS15)。出力する文の数だけテンプレートを選択したか否かの判定(ステップS16)によりYESを判定するまで後、各テンプレートは文出力部6に送られる。文出力部6は、各テンプレートに基づいて文を生成する。
FIG. 9 is a flowchart showing a processing procedure of the output
以下には、出力内容決定部5の処理手順を詳細に説明する。文字列解析部7aはステップS1にて文字列を解析し、後段の処理に必要な情報を付加する。本実施の形態では、文字列解析部7aの解析内容を、入力文字列に対し、形態素境界と各形態素の品詞を求める形態素解析であると仮定する。このため、文字列解析部7aは、解析のためのにルールファイル8と辞書ファイル9を用いる。
Below, the processing procedure of the output
ルールファイル8には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書に登録されていない形態素に必要な情報を付与する規則とが書かれている。辞書ファイル9には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。
The
形態素境界と品詞の判定は、最長一致法または分割数最小法のような経験則による判定手法を用いても良いし、文法的接続可能性や、統計的な言語モデルを使用しての解析を行なっても良い。形態素解析の手法は本実施の形態においては特に特定されず、たとえば、フリーで公開されている形態素解析システム茶筌(http://chasen.aist-nara.ac.jp/hiki/ChaSen/)などをそのまま用いることが出来る。撮影時間や好感度情報など、値に数値を持つものは、図5のフォーマットにしたがって、数値が取り出される。 The morpheme boundary and part-of-speech can be determined using an empirical method such as the longest match method or the minimum number of division method, or the analysis can be performed using grammatical connectivity or a statistical language model. You can do it. The method of morphological analysis is not particularly specified in the present embodiment. For example, a free morphological analysis system tea bowl (http://chasen.aist-nara.ac.jp/hiki/ChaSen/) is used. It can be used as it is. For those having numerical values such as shooting time and favorable sensitivity information, the numerical values are extracted according to the format of FIG.
文字列解析部7aによる文字列の解析の結果、図6のデータは図10のように解析結果が追加されて、出力される。すなわち、格納フォルダ名の“家族/犬/”には、“家族”−[名詞]、“犬”−[名詞]という解析結果が追加されて出力される。また、ファイル名の“モモの散歩.jpg”には、“モモ”−[名詞]、“の”−[格助詞]、“散歩”−[名詞]という解析結果が追加されて出力される。またファイ名拡張子は“jpg”と解析される。撮影の時間の“2002/06/27”は「2002」、「06」、「27」と、また“09:52:15”は「09」、「52」、「15」と解析されて数値が取り出される。また、撮影の場所の“近所の公園”には、“近所”−[名詞]、“の”−[格助詞]、“公園”−[名詞]という解析結果が追加されて、出力される。また、再生頻度“0”からは「0」が、好感度情報“5”からは「5」が取り出される。また、ユーザ登録メモの“モモちゃんが初めて散歩に行った。”には、“モモ”−[名詞]、“ちゃん”−[接尾辞]、“が”−[格助詞]、“初めて”−[副詞]、“散歩”−[名詞]、“に”−[格助詞]、“行”−[動詞]、“っ”−[語尾]、“た”−[助動詞]、“。”−[句点」という解析結果が追加されて出力される。 As a result of the analysis of the character string by the character string analysis unit 7a, the data of FIG. 6 is output with the analysis result added as shown in FIG. That is, the analysis result of “family” − [noun] and “dog” − [noun] is added to the storage folder name “family / dog /” and output. In addition, an analysis result “peach”-[noun], “no”-[case particle], and “walk”-[noun] is added to the file name “peach walk.jpg” and output. The file name extension is analyzed as “jpg”. The shooting time “2002/06/27” is analyzed as “2002”, “06”, “27”, and “09:52:15” is analyzed as “09”, “52”, “15”. Is taken out. In addition, an analysis result of “neighborhood”-[noun], “no”-[case particle], and “park”-[noun] is added to the “neighborhood park” of the shooting location and output. Also, “0” is extracted from the reproduction frequency “0”, and “5” is extracted from the preference information “5”. In addition, the user registration memo “Momo-chan went for a walk for the first time” has “Momo”-[noun], “Chan”-[suffix], “ga”-[case particle], “first time”- [Adverb], “walk”-[noun], “ni”-[case particle], “line”-[verb], “tsu”-[suffix], “ta”-[auxiliary verb], “.”-[ The analysis result “Punctuation” is added and output.
また、ステップS11では、単語抽出部7bが図10の解析結果から単語を抽出する。ここで、単語抽出部7bによって抽出された単語は、テンプレートデータベース14からテンプレート選択部13によって選択されたテンプレートに当てはめられる。
In step S11, the
次に、ステップS12において出力言語決定部10により、何語の文を生成するかが決定される。出力言語決定部10は、データ(図10)のユーザ登録メモ欄に値が入っているかどうかをチェックする。ユーザ登録メモ欄に値が入っていれば、ユーザ登録メモの言語を出力言語とする。ユーザ登録メモ欄に値が入っていないときは、あらかじめデフォルト言語を決めておき、デフォルト言語を出力言語とする。本実施の形態では、デフォルト言語を日本語と仮定して、説明を進める。
Next, in step S12, the output
ユーザ登録メモがある場合、ユーザ登録メモが何語で書かれているかを判定する必要がある。本実施の形態にあって、出力言語決定部10は、言語ごとの辞書を複数保持しており、言語ごとにユーザ登録メモの形態素が何語辞書に載っていたかをカウントし、最も単語数が多かった辞書の言語を出力言語に決定する。
When there is a user registration memo, it is necessary to determine in which language the user registration memo is written. In this embodiment, the output
次に、ステップS13においてどのような内容の文を生成するかを文内容決定部11が決定する。文内容決定部11には、単語抽出部7bから得られたデータのうち、どれをもとに文を生成するか、また、どれをもとにテキスト音声合成の際の制御情報に用いるかの情報を持たせておく。本実施の形態では、ユーザ登録メモ、ファイル名、撮影時間、撮影場所のデータをもとに文生成を行い、どの情報に関する文であるかや、再生情報、好感度情報をもとにテキスト音声合成の制御を行なうとする。
Next, in step S13, the sentence
文内容決定部11では、データのラベル名(格納フォルダ名、ファイル名、ファイル名拡張子…)ごとにその値の有無をチェックする。文生成に用いられるデータに値がある場合、その情報と実際の値をテンプレート選択部13に出力する。
The sentence
次に、ステップS14において、文の数決定部12が内容ごとに文の数を決定する。デフォルト文数は1にしておき、文の数決定ルールにマッチする場合のみ、出力する文の数を変更する。文の数決定ルールとしては、ユーザ登録メモはその文数の文を出力する、好感度情報が5以上の場合にコメント文を1文追加する、画像が連写モードで撮影された場合に連写の数の文を生成する、などが挙げられる。このルールはアプリケーション設計者が自由に定めてよい。
Next, in step S14, the sentence
本実施の形態のデータでは、ユーザ登録メモは1つの文のみから構成されているので、ユーザ登録メモに関する文は1文だが、好感度情報が5なので、コメント文が1文追加される。 In the data of the present embodiment, since the user registration memo is composed of only one sentence, the sentence related to the user registration memo is one sentence, but since the preference information is 5, one comment sentence is added.
次に、ステップS15においてテンプレート選択部13が、文内容決定部11で決定された内容に従い、文の数決定部12で指定された文の数のテンプレートを選択する。テンプレートの言語は、出力言語決定部10からの指示に従う。
Next, in step S <b> 15, the
図11は本実施の形態で用いるテンプレートの具体例である。本実施の形態では、入力データに、画像ファイルであることを示す拡張子jpg、撮影時間、撮影場所が記載されているので、テンプレート選択部13において、テンプレートデータベース14から「この画像は<年>の<月日>に<場所>で撮影しました。」というテンプレートが選ばれる。次に、ユーザ登録メモがあるので、「<ユーザ登録メモ>」というテンプレートが選ばれる。さらに、コメント文が1文追加されることになっており、好感度が高いので、コメント文のうち、ポジティブなものが選択され、「素敵な画像ですね。」が選ばれる。< >で囲んである部分は、後段の処理でデータから値が代入される。< >の中に ","で区切って複数の項目が記載されている場合は、それらはテンプレート適用の制約条件となり、すべての項目を満たしていなければ、そのテンプレートを適用することは出来ない。
FIG. 11 is a specific example of a template used in this embodiment. In the present embodiment, the extension jpg indicating the image file, the shooting time, and the shooting location are described in the input data. Therefore, the
出力内容決定部5は、テンプレート選択部13にて選択されたテンプレートを文出力部6に出力する。
The output
次に文出力部6の説明をする。図12は文出力部6の構成図である。文出力部6は、出力内容決定部5からの入力文字列である単語列を変形する単語変形部15と、入力文の構造を判定する文構造判定部17と、上記図10に示したデータから必要な値を抽出してテンプレートに当てはめるテンプレート適用部18とから構成される。
Next, the
単語変形部15は、出力内容決定部5から得られたテンプレートに、図10の出力されるデータから単語抽出部7bが抽出して得られた文字列を当てはめる際に、テンプレートに当てはまるように、入力文字列を変形する。このとき、単語変形部15は、概念辞書(シソーラス)ファイル16を参照して入力文字列を他の語に置き換えてもよい。つまり、単語変形部15は、単語抽出部7bによって抽出された単語を、テンプレートに当てはまるように変形するか、或いは概念辞書ファイル16を参照して得た他の語に置き換える。概念辞書は、単語間の概念的な関係を表す辞書である。文字列を同じ概念の語、または上位概念を持つ語などで置き換えるのに用いられる。
When applying the character string obtained by extracting the
たとえば、「<ユーザ登録メモ>,<文>」というテンプレートがテンプレート選択部13によって選択されているとする。このテンプレートは、ユーザ登録メモが文という構造を持っていることを要求している。
For example, it is assumed that the template “<user registration memo>, <sentence>” is selected by the
そこで、文構造判定部17は、ユーザ登録メモが文であるかどうかをチェックする。文構造判定部17は、図13の文構造決定用のルールを有しており、入力がどのような構造を持っているかを調べることが出来る。本実施の形態のルールでは、入力形態素の並びがルールの右辺と合致すれば、左辺のシンボルで代入することができる。最後まで代入して、得られたシンボルが入力の構造となる。この場合、入力は文と判定される。
Therefore, the sentence
図13において、入力形態素が“名詞”、或いは“名詞 接尾辞”であれば[名詞句1]で代入できる。また、“名詞 各助詞”、或いは“名詞 接尾辞 各助詞”であれば[名詞句2]で代入できる。また、“名詞句1”、“名詞句2”、“名詞句2 名詞句1”、“名詞句2 名詞句2”、“名詞句2 名詞句2 名詞句1”、“名詞句2 名詞句2 名詞句2”であれば[名詞句]に代入できる。また、入力形態素が“動詞”、“動詞 語尾”、“動詞 助動詞”、“動詞 語尾 助動詞”であれば[動詞句]で代入できる。また、“副詞”であれば[修飾句]で代入できる。そして、“名詞句 動詞句”、“名詞句 助動詞”、“修飾句、名詞句 動詞句”、“名詞句 修飾句、動詞句”、“名詞句、修飾句 名詞句 動詞句”であれば[文]で代入できる。
In FIG. 13, if the input morpheme is “noun” or “noun suffix”, it can be substituted by [noun phrase 1]. If it is “noun each particle” or “noun suffix each particle”, it can be substituted by [noun phrase 2]. Also, “noun phrase 1”, “
もし、ユーザ登録メモが名詞句であると判定された場合、テンプレート「<ユーザ登録メモ>,<文>」は使うことが出来ないので、ユーザ登録メモの文字列を変形する必要がある。たとえば、ユーザ登録メモの内容が、「モモちゃんの散歩の様子」であった場合、最後に「です。」をつけることによって、文にすることが出来、テンプレートを適用できるようになる。また、「これはお気に入りの<ファイル名>,<名詞句>です。」というテンプレートの場合、ファイル名の文字列「モモの散歩」は名詞句なので、単語変形部15は特に何もしない。
If it is determined that the user registration memo is a noun phrase, the template “<user registration memo>, <sentence>” cannot be used, so the character string of the user registration memo needs to be transformed. For example, if the content of the user registration memo is “Momo-chan's walk”, it can be made a sentence by adding “Is.” At the end, and a template can be applied. Further, in the case of the template “This is a favorite <file name>, <noun phrase>.”, The character string “Momo no Muro” is a noun phrase, so the
また、「これは、<“色”>の<“花”>です。」のようなテンプレートが選択されているとき、テンプレートの適用に概念辞書を用いる。上記テンプレートにおいて、“”に囲まれた文字列は、それが概念であることを示す。テンプレートのはじめの部分には、色を表す名詞を当てはめることができる。2番目の部分には、花という概念を持つ語が入る。 Also, when a template such as “This is <“ Flow ”> of <“ Color ”>” is selected, the concept dictionary is used to apply the template. In the above template, a character string surrounded by “” indicates that it is a concept. A noun representing color can be applied to the first part of the template. The second part contains words with the concept of flowers.
例えば、ユーザ登録メモから得られた文字列が、「赤」と、「チューリップ」であったと仮定する。出力内容決定部5の文字列解析部7aで、「赤」と、「チューリップ」が共に名詞であるという情報が得られる。また、概念辞書ファイル16を用いると、赤の上位概念が色であり、チューリップの上位概念が花であることが判明する。
For example, it is assumed that the character strings obtained from the user registration memo are “red” and “tulip”. Information indicating that “red” and “tulip” are both nouns is obtained by the character string analysis unit 7 a of the output
これらの解析結果を用いることで、「赤」、「チューリップ」という文字列を上記テンプレートに当てはめることができることが判定される。その結果、「これは赤のチューリップです。」という文が生成される。 By using these analysis results, it is determined that the character strings “red” and “tulip” can be applied to the template. As a result, the sentence “This is a red tulip” is generated.
テンプレート適用部18は、テンプレート選択部13によって選択されたテンプレートを用いて文を生成する。具体的に、テンプレート適用部18は、図10に示したデータから、必要な値を抽出し、あるいは単語変形部25により、変形又は置き換えた語をテンプレートに当てはめる。「この画像は<年>の<月日>に<場所>で撮影しました。」というテンプレートの場合、データから撮影時間の年月日と、撮影場所を抽出し、テンプレートに当てはめて、「この画像は、2002年の6月27日に近所の公園で撮影しました。」という文を得る。
The
次にテキスト音声合成部4の説明をする。テキスト音声合成部4は、文生成部3にて生成されたテキストを音声波形に変換するためのモジュールである。図14は、テキスト音声合成部4の構成を示したものである。テキスト音声合成部4は、入力されたテキストを音声記号列に変換するための言語処理部21と、言語処理部21からの音声記号列を韻律データに変換するための韻律生成部24と、韻律生成部24からの韻律データを元に音声波形を生成するための波形生成部27とによって構成されている。
Next, the text-to-
言語処理部21は、辞書ファイル22と、ルールファイル23とを有し、入力されたテキストを音声記号列に変換する。韻律生成部24は、ルールファイル25と、データファイル26とを有し、言語処理部21からの音声信号列を韻律データに変換する。波形生成部27は、素片ファイル28を有し、韻律生成部24からの韻律データを基に音声波形を生成する。
The
概略的に動作を説明すると、テキスト音声合成部4は、入力されたテキストを言語処理部21により辞書ファイル22、ルールファイル23を参照して音声信号列に変換し、韻律生成部24によりルールファイル25、データファイル26を参照して上記音声信号列を韻律データに変換し、波形生成部27により上記韻律データを基に素片データベース28を参照して音声波形を生成する。
Briefly explaining the operation, the text-to-
以下、言語処理部21、韻律生成部24及び波形生成部27の詳細な構成及び動作について図15〜図19を参照しながら説明する。
Hereinafter, detailed configurations and operations of the
図15は、言語処理部21の構成を示したものである。言語処理部21は、入力されたテキストを音声記号列に変更するためのものであり、入力されたテキストを解析し、それぞれの形態素の情報を得るためのテキスト解析部29と、形態素情報を元に音声記号を生成するための韻律情報生成部30とからなる。
FIG. 15 shows the configuration of the
テキスト解析部29は、ルールファイル30と、辞書ファイル31に接続している。ルールファイル30には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書に登録されていない形態素に必要な情報を付与する規則とが書かれている。辞書ファイル31には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。
The
テキスト音声合成部4に入力されたテキストは、言語処理部21にあるテキスト解析部29に渡される。入力されるテキストは1文の場合も、複数文からなる場合もありうるが、本実施の形態では、説明を容易にするため1文として、話を進める。
The text input to the text-to-
入力された文は、テキスト解析部29において、ルールファイル30と辞書ファイル31とを用いて形態素に分割され、辞書ファイル31からそれぞれの形態素に関する情報を得る。辞書ファイル31に登録されていない形態素については、ルールファイル30を用いて、必要な形態素情報を生成する。テキスト音声合成部4の言語処理部21内のテキスト解析部29は、文生成部3の出力内容決定部5の文字列解析部7と同じものを用いることが出来る。このようにして得られた形態素情報は、韻律情報生成部32へと送られる。
The input sentence is divided into morphemes by the
韻律情報生成部32は、形態素情報を解析し韻律情報を得るためのルールファイル33を有する。ルールファイル33には、形態素情報をもとにフレージングや読みの変更を行なうための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部29で用いた辞書ファイル31とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パターンの情報などである。
The prosodic
本実施の形態では、形態素に関する情報も韻律生成のための情報も1つの辞書ファイル31に納めるという構成を取っているが、それぞれを別の辞書ファイルとして保持し、テキスト解析部29には形態素に関する情報のみが納められた辞書ファイルが接続されており、韻律情報生成部32には韻律生成のための情報のみが納められた辞書ファイルが接続されているという構成で同等の処理を行なうことができる。
In the present embodiment, the morpheme information and the prosody generation information are stored in one
韻律情報生成部32では、テキスト解析部29から受け取った形態素情報をもとに、入力文に対し、ルールを用いて韻律情報を付与するという処理を行なう。韻律情報とは、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などが挙げられる。韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定する必要もない。
The prosodic
韻律情報生成部32での処理によって得られる韻律情報は、音声記号列で表現される。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。発音記号やアクセント記号では、IPA(国際音声字母、International Phonetic Alphabet)やSAMPAなどが広く知られている。また、ポーズ記号や音調記号については、ToBI(Tone and Break Indices)が有名である。言語処理部21は、得られた音声記号列を韻律生成部24へと出力する。
The prosodic information obtained by the processing in the prosodic
図16は韻律生成部24の構成を示したものである。韻律生成部24は、入力された音声記号列を韻律データに変換するためのものである。韻律生成部24は、各音素の継続時間長を求めるための継続時間長決定部34と、各音素の基本周波数を求めるための基本周波数決定部39とによって構成されている。
FIG. 16 shows the configuration of the
継続時間長決定部34は、言語処理部21からの音声信号列を音素に関する解析データファイル36を用いて解析する音声信号列解析部35と、音声信号列解析部35にて解析されたそれぞれの音素の継続時間長を、継続時間長を決めるためのルールファイル38を用いて決定するルール適用部37とを有する。解析データファイル36に格納されている、音素に関する解析データとは、例えば、それぞれの音素が母音かどうかやそれぞれの音素のデフォルトの継続時間長などを指す。ルールファイル38に格納されている、継続時間長を決めるためのルールとは、どのような音韻環境の時にデフォルト継続時間長を伸縮させるかを決めるための規則のことである。音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどうかなどを指す。
The duration determination unit 34 analyzes the speech signal sequence from the
継続時間長決定部34は、音声信号列解析部35にて解析データファイル36を用いて言語処理部21からの音声信号列を解析し、ルール適用部37にてルールファイル38を用いてそれぞれの音素の継続時間長を決定する。つまり、ルール適用部37にてルールを適用するのに必要な情報は入力された音声記号列を音声信号列解析部35にて解析することで得られる。継続時間長決定部34にて決定された継続時間長の情報は基本周波数決定部39へと送られる。
The duration determination unit 34 analyzes the audio signal sequence from the
基本周波数決定部39は、言語処理部21からの音声信号列と継続時間長決定部34にて決定された継続時間長の情報から韻律データを生成する。このため、基本周波数決定部39は、上記音声信号列の基本周波数パターンを、基本周波数パターンに関する解析データファイル41を用いて解析してルール適用に必要な情報を得る音声信号列解析部40と、音声信号列解析部40にて得られた情報を基に、パターン選択用ルールファイル43を用いて最適なパターンを選択するルール適用部42と、ルール適用部42にて決定された最適なパターンを継続時間長決定部34にて既に決定されたそれぞれの音素の継続時間長に合わせて変形して音素毎の基本周波数を決定する時間伸縮部44とを備える。
The fundamental frequency determination unit 39 generates prosodic data from the speech signal sequence from the
解析データの持ち方とルールデータの選択方法は装置の設計によって、様々な実現形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性是非を判定する手法を用いる。 Depending on the design of the device, there are various ways of realizing the analysis data holding method and the rule data selection method. In this embodiment, the accent type of the word to which the phoneme belongs, the strength of the accent, the dependency, etc. A method is used to determine the applicability of rules based on the sentence structure of
上記基本周波数パターンのデータは、複数の音素にまたがる基本周波数の値を保持しておく。解析データファイルは、ルールで選択できるように、アクセント型や音調など予測要因毎にパターンが分類してある。 The fundamental frequency pattern data holds a fundamental frequency value across a plurality of phonemes. In the analysis data file, patterns are classified for each prediction factor such as accent type and tone so that they can be selected by rules.
基本周波数決定部39は、入力された音声記号列を音声信号列解析部40により上記解析データファイル41を参照して解析し、ルール適用に必要な情報を得る。得られた情報を元に、ルール適用部42がパターン選択用ルールファイル43を参照して、最適なパターンを選択する。ルール適用部42にて選択されたパターンは、継続時間長決定部34ですでに決定されたそれぞれの音素の継続時間長にあわせて、時間伸縮部44にて変形され、音素毎の基本周波数が決定される。継続時間長決定部34で決定された音素毎の継続時間長と基本周波数決定部39で決定された音素毎の基本周波数は、韻律データとして韻律生成部24から、波形生成部27へ送られる。
The fundamental frequency determination unit 39 analyzes the input phonetic symbol string with reference to the analysis data file 41 by the voice signal
韻律データの一部を図17及び図18に示す。韻律データの前半は図17の継続時間長(duration)のデータ、後半は図18の基本周波数(pitch)のデータである。図17において、継続時間長のデータは、一番左が音声開始時点からのサンプル数、次が音素列、一番右が音素ごとの継続時間長になっている。図18において基本周波数のデータは、左が音声開始時点からのサンプル数、右が基本周波数の値である。 A part of the prosodic data is shown in FIGS. The first half of the prosody data is the duration data in FIG. 17, and the second half is the fundamental frequency data in FIG. In FIG. 17, the duration time data includes the leftmost sample number from the voice start point, the next phoneme string, and the rightmost duration length for each phoneme. In FIG. 18, the fundamental frequency data is the number of samples from the voice start time on the left and the fundamental frequency value on the right.
図19は、波形生成部27の構成を示したものである。波形生成部27は、韻律生成部24の出力である韻律データから音声波形を生成する。このため、本実施の形態で用いられる波形生成部27は、入力された韻律データを音素列情報、音素時間長情報、ピッチパターン情報に分配する韻律データ分配部51と、入力された音素列情報に含まれる音素列を選択し、選択した音素列に対応する音響特長パラメータを音声データファイル53から順次読み出して出力する素片選択部52と、音素列によって時間軸上に並べられた音響特長パラメータを入力とし音素時間情報によってそれぞれの音素の長さに等しくなるようにパラメータを時間軸上で伸縮するパラメータ補正部54と、パラメータ補正部54から出力される音響特長パラメータの系列、また、韻律データ分配部51からのピッチパターン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する波形組み立て部55とにより構成される。
FIG. 19 shows the configuration of the
素片選択部52が有している音声データファイル53に格納されている音声データとは、既存の規則音声合成装置に使用されるものと同様のもので、たとえばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、CV、CVC、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位を固定せずに保存する場合もある。
The voice data stored in the voice data file 53 included in the
この波形生成部27の概略的な動作は以下のようになる。入力された韻律データは、韻律データ分配部51によって音素列情報、音素時間長情報、ピッチパターン情報に分けられ出力される。音素列情報は素片選択部52に送られる。素片選択部52では、入力された音素列情報に基づいて音声データファイル53を参照して上記音素情報に含まれる音素列を選択して、選択した音素列に対応する音響特長パラメータを順次読み出して出力する。パラメータ補正部54は、音素列によって時間軸上に並べられた音響特長パラメータを入力とし、音素時間情報によってそれぞれの音素の長さに等しくなるようにパラメータを時間軸上で伸縮する。また、素片の接続部でのパラメータの不整合を避けるためにパラメータが滑らかに変化するように音響特長パラメータを補正する。また、パラメータを変更することにより、それぞれの音素の強さを変更する。波形組み立て部55は、パラメータ補正部54から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部51からのピッチパターン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。
The general operation of the
このように本実施の形態の音声合成装置1は、Exifファイルの画像ファイルや、オーディオファイルから画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。このため、本発明の音声合成装置1を画像音声記録再生装置に適用すれば、音声によって案内される情報によって、画像音声記録再生装置によって記録/再生された画像を検索することができる。 As described above, the speech synthesizer 1 according to the present embodiment has the user registration memo, the storage folder name, the information at the time of recording, and the reproduction frequency, which are information attached to the image or sound data from the image file of the Exif file or the audio file Alternatively, the preference information can be read out, a sentence can be generated based on the read out information, and the generated sentence can be synthesized as a voice and output as a voice. For this reason, when the speech synthesizer 1 of the present invention is applied to an image / audio recording / reproducing apparatus, an image recorded / reproduced by the image / audio recording / reproducing apparatus can be searched based on information guided by sound.
なお、本発明の音声合成装置によれば、出力音声の話速、音量、声の高さ、声色、韻律的特徴を変更することができる。以下に、テキスト音声合成における出力音声変更の手法について説明する。 According to the speech synthesizer of the present invention, the speech speed, volume, voice pitch, voice color, and prosodic features of the output voice can be changed. In the following, a method for changing the output speech in text speech synthesis will be described.
それぞれの変更は以下の手法にて行われる。
話速=継続時間長の伸縮
音量=パラメータの補正、変更
声の高さ=基本周波数の値を変更
声色=音声データの変更
韻律的特長=音素ごとの継続時間長、パラメータ、基本周波数の変更
韻律的特長とは、たとえば、はつらつとしたイントネーション、強調イントネーション、暗いイントネーションなど、音声を聞いたときの印象に関するものである。
Each change is made by the following method.
Speaking speed = Duration length expansion / contraction volume = Parameter correction, Change voice pitch = Change fundamental frequency value Voice color = Change voice data Prosodic features = Change duration, parameter, fundamental frequency for each phoneme Prosody The characteristic features relate to the impression when listening to the voice, such as bright intonation, emphasized intonation, and dark intonation.
はつらつとしたイントネーションは、高くて大き目の音で、少し速めに合成することによって実現することが出来る。強調イントネーションは、高くて大き目の音で、少しゆっくり目に合成することによって実現することが出来る。このように、合成する音の高さ、長さ、強さを変更することで、異なる韻律的特徴を実現することが可能となる。このように、本発明では、画像又は音響データに付随する情報によって、出力される合成音の話速、音量、声の高さ、声色、韻律的特徴を変更する。 Intense intonation can be achieved by synthesizing a little faster with a loud and loud sound. Emphasized intonation can be achieved by synthesizing the eyes a little slowly with a loud sound. In this way, different prosodic features can be realized by changing the pitch, length, and strength of the synthesized sound. As described above, according to the present invention, the speech speed, volume, voice pitch, voice color, and prosodic features of the output synthesized sound are changed according to information accompanying the image or the sound data.
図20は出力する合成音を変更可能な音声合成装置60の構成図である。出力する合成音を変更可能な音声合成装置60は、図1に構成を示した音声合成装置1に加え、音声合成制御部61を有する。
FIG. 20 is a configuration diagram of a
音声合成制御部61は情報読み出し部2にて抽出された情報と、文生成にて生成された文とをもとに合成音をどのように変化させるかを決定し、テキスト音声合成部4をコントロールするためのモジュールである。
The speech
また、音声合成制御部61は、効果音のデータベースを有し、合成音と同期させて、効果音を出力することも可能である。たとえば、音声合成制御部61には、文生成部3で生成された文が、ユーザ登録メモをもとに生成されたものである場合、柔らかなイントネーションで音声合成するというルールが保持されているとする。
The voice
音声合成制御部61は、情報読み出し部2と文生成部3から得られる情報によって、テキスト音声合成部4が処理しようとしている文がユーザ登録メモから生成されたものであるかどうかを判断する。もし、文がユーザ登録メモから生成されたものであった場合、音声合成制御部61は韻律データと音響特徴パラメータ、音声データを変更する。たとえば、柔らかなイントネーションは、ゆっくり目で穏やかな声によって実現されるとすると、音声合成制御部61は、韻律データの継続時間長の値をそれぞれ同じ割合で伸長させる。また、テキスト音声合成部4の波形生成部27が用いる音声データを、穏やかな声のデータをもとに生成された音声データと入れ替える。そして、音響特徴パラメータの音量に関する部分の値を同じ割合で小さくする。これにより、出力される合成音は柔らかなイントネーションを持つようになる。
The speech
同様にして、再生頻度によって、強調イントネーションを実現したり、好感度情報によってはつらつとしたイントネーションを実現したりすることが出来る。また、画像ないし音響データが記録された時間に応じて、合成音と同期させて、効果音を出力することも出来る。 Similarly, emphasis intonation can be realized depending on the reproduction frequency, and a smooth intonation can be realized depending on the preference information. Moreover, according to the time when the image or the sound data was recorded, the sound effect can be output in synchronization with the synthesized sound.
音声合成装置1、音声合成装置60は、携帯型の画像音声記録再生装置に適用できる。図21は、音声合成装置60を内蔵した携帯型画像音声記録再生装置の構成を示す図である。
The voice synthesizer 1 and the
図21において、画像音声記録再生装置70は、被写体をレンズ71を通して撮像するカメラ撮像部72と、カメラ撮像部72で撮像された被写体画像に記録処理や再生処理を施すと共に、画像圧縮処理や画像伸長処理を施す画像記録再生部73と、画像記録再生部73で記録処理や再生処理が施された画像を後述するシステム制御部74による制御の基に表示する画像表示部75とを備える。
In FIG. 21, an image / audio recording / reproducing apparatus 70 performs a recording process and a reproduction process on a subject image captured by the
カメラ撮像部72は、撮像した画像を画像記録再生部73に入力する。画像記録再生部73は、カメラ撮像部72で撮像された撮影画像を圧縮してファイルとして撮影画像ファイルデータベース76に記録するための記録処理、ファイルを撮影画像ファイルデータベース76から読み出して伸長する再生処理を行う。また、画像記録再生部73は、必要に応じて音声信号をファイルフォーマットを使用して撮影画像ファイルデータベース76に画像信号と共に入力する。画面表示部75は、好ましくは画像又はアイコン表示の可能な平板表示器であり、画像ファイルに対応してそのファイル内の画像データや見出し用縮小画像であるサムネイル画像を表示する。また、撮影原画像も表示できる。また、文字入力メニュー表示機能も有している。
The
また、この画像音声記録再生装置70は、画像記録再生部73により記録処理が施された各原画像に対応して付加される情報や撮影メディアフォーマットに記載された情報をシステム制御部74の制御に基づいてファイルデータとして格納している撮影画像ファイルデータベース76と、使用者により操作される操作キー部78と、操作キー部78からの操作入力信号、特に画像選択情報データ、登録文字列情報データ、連続再生スタート画像指定データなどを受けてシステム制御部74に送る登録キー制御部77とを備える。
In addition, the video / audio recording / reproducing apparatus 70 controls the information added to each original image subjected to the recording process by the image recording / reproducing
撮影画像ファイルデータベース76は、書き込み可能な不揮発性メモリまたは書き込み消去可能なメモリメディアであって、例えばメモリカード、カード型HDD、リムーバブル光ディスク等のリムーバブルメディアからなり、DCFファイルシステム等のリムーバブルメディアフォーマットに準拠して読み出しが可能とされる。また、ユーザ登録文字情報がリムーバブルメディアフォーマットに準拠して入力できることが好ましい。
The photographed
また、この画像音声記録再生装置70は、画像記録再生部73、画像表示部75、撮影画像ファイルデータベース76、登録キー制御部77に接続されて各部を制御するシステム制御部74を備える。システム制御部74は、記録再生制御機能部81、カメラ状態制御機能部82、ファイルシステム制御機能部83、ユーザキー設定機能部84を有する。
The image / sound recording / reproducing apparatus 70 includes an image recording / reproducing
また、システム制御部74内の上記カメラ状態機能部82、ファイルシステム機能部83及びユーザキー設定機能部84は、音声合成装置60の情報読み出し部2を構成する。つまり、情報読み出し部2は、システム制御部74内のカメラ状態機能部82、ファイルシステム機能部83及びユーザキー設定機能部84を介して、撮影画像ファイルデータベースから上記画像又は音響データに付随する情報を読み出す。情報読み出し部2で読み出された情報は、音声合成部60を構成する文生成部3に供給される。文生成部3は、読み出した情報を基にテキストを作成する。テキスト音声合成部4は、文生成部3にて作成されたテキストを音声に合成して出力する。音声合成制御部61は、テキスト音声合成部4における音声合成をコントロールする。
The camera
情報読み出し部2を構成する、カメラ情報制御機能部82は、デジタルカメラの状態に関する情報を文生成部3に供給する。デジタルカメラの状態とは、使用されているアプリケーションが何語モードで起動されているかや、その時点での何月日、時間、呼び出しメニューのモードなどを指す。
The camera information
ファイルシステム制御部83は、画像に関する情報を文生成部3に供給する。画像に関する情報とは、その画像の日時、ファイル拡張子、その画像へのアクセス頻度、その画像が格納されているフォルダの名前、ユーザコメント、感性キー情報などを指す。
The file
ユーザキー設定制御機能部84は、出力音声について使用者から指定された情報を供給する。出力音声についてユーザから指定された情報とは、出力音声の言語、ボリューム、スピード、声の高さなどを指す。
The user key setting
音声合成部60は、上述したように、Exifファイルの画像ファイルや、オーディオファイルから画像又は音響データに付随する情報である、ユーザ登録メモ、格納フォルダ名、記録時の情報、再生頻度、又は好感度情報を読み出し、読み出した情報に基づいて文を生成し、生成した文を音声合成して音声として出力することができる。また、音声合成部60は、音声合成制御部61を備えているので、文がユーザ登録メモから生成されたものであった場合、韻律データと音響特徴パラメータ、音声データを変更する。これにより、柔らかなイントネーションを合成音に持たせることができる。同様にして、再生頻度によって、強調イントネーションを実現したり、好感度情報によってはつらつとしたイントネーションを実現したりすることが出来る。また、画像ないし音響データが記録された時間に応じて、合成音と同期させて、効果音を出力することも出来る。
As described above, the
このような音声合成部60を備えることにより、画像音声記録再生装置70は、音声によって案内される情報を基に、記録/再生された画像をユーザに簡単に検索させることができる。
By providing such a
なお、本発明に係る音声合成装置は、デジタルカメラによって撮影されて記録された画像を検索する画像検索装置として用いられてもよい。この画像検索装置は、デジタルカメラから得られる情報を基にテキストを生成する文生成手段と、上記文生成手段によって生成されたテキストを基に音声を合成するテキスト音声合成手段とを備え、上記文生成手段によって生成されたテキストによる文を読み上げる。 Note that the speech synthesizer according to the present invention may be used as an image search device that searches for images recorded and recorded by a digital camera. The image search apparatus includes a sentence generation unit that generates text based on information obtained from a digital camera, and a text-to-speech synthesis unit that synthesizes speech based on the text generated by the sentence generation unit. Read a text sentence generated by the generation means.
この画像検索装置にあって、上記文生成手段は、デジタルカメラの撮影メディアフォーマットに記載された情報、すなわち画像又は音響データに付随する情報を基にテキストを生成する。また、文生成手段は、ユーザ登録メモを基にテキストを生成する。また、上記文生成手段は、画像データを格納するフォルダ名を基にテキストを生成する。また、上記文生成手段は、上記デジタルカメラから得られる情報に基づいて生成する文の数を変える。また、上記文生成手段は、画像へのアクセス頻度に基づいて生成する文の数を変えてもよい。また、好感度キーに基づいて生成する文の数を変えてもよい。 In this image search device, the sentence generation unit generates text based on information described in the shooting media format of the digital camera, that is, information attached to the image or sound data. The sentence generation unit generates a text based on the user registration memo. The sentence generation unit generates a text based on the name of the folder storing the image data. The sentence generation means changes the number of sentences to be generated based on information obtained from the digital camera. The sentence generation means may change the number of sentences to be generated based on the access frequency to the image. Further, the number of sentences generated based on the likability key may be changed.
また、上記文生成手段は、ユーザ登録メモから単語抽出し、テンプレートに当てはめて文生成を行う。このとき、上記文生成手段は、ユーザ登録メモに記載された文字列を順に、テンプレートの空欄に当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された文字列を解析し、単語を抜き出して、テンプレートの空欄に当てはめて文生成を行う。また、上記文生成手段は、ユーザ登録メモに記載された文字列をテンプレートに当てはまるように変形し、テンプレートの空欄に当てはめて文生成を行う。また、上記文生成手段は、ユーザ登録メモに記載された文字列を解析し、単語を抜き出して、テンプレートに当てはまるように変形し、テンプレートの空欄に当てはめて文生成を行う。 The sentence generation means extracts a word from the user registration memo and applies it to a template to generate a sentence. At this time, the sentence generation unit generates a sentence by sequentially applying the character strings described in the user registration memo to blanks of the template. The sentence generation unit analyzes the character string described in the user registration memo, extracts a word, and applies it to a blank field of the template to generate a sentence. Further, the sentence generation means transforms the character string described in the user registration memo so as to be applied to the template, and applies it to the blank of the template to generate the sentence. The sentence generation unit analyzes the character string described in the user registration memo, extracts a word, transforms it so as to apply to the template, and generates a sentence by applying it to the blank of the template.
また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書から別の単語を選出し、テンプレートに当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書から同じ意味情報を持つ単語を選出し、テンプレートに当てはめて文生成を行なう。また、上記文生成手段は、ユーザ登録メモに記載された単語を用いて、概念辞書からその単語の上位概念の単語を選出し、テンプレートに当てはめて文生成を行なう。 Further, the sentence generation means selects another word from the concept dictionary using the words described in the user registration memo, and generates a sentence by applying it to the template. The sentence generation means selects words having the same semantic information from the concept dictionary using the words described in the user registration memo, and generates the sentence by applying it to the template. The sentence generation means selects a word of a higher concept of the word from the concept dictionary using the words described in the user registration memo, and generates the sentence by applying it to the template.
また、上記文生成手段は、画像データを格納するフォルダー名をテンプレートに当てはめて文生成を行なってもよい。また、上記文生成手段は、撮影情報データから時間情報を抽出し、テンプレートに当てはめて文生成を行ってもよい。また、上記文生成手段は、デジタルカメラから得られる情報の種類によって、使用するテンプレートを選択する。また、上記文生成手段は、デジタルカメラから得られる情報として、ユーザ別アクセス頻度を使用してもよい。また、上記文生成手段は、デジタルカメラから得られる情報として、好感度キーに基づいた好感度情報を使用してもよい。また、上記文生成手段は、デジタルカメラから得られる情報として、ファイルの拡張子によって、使用するテンプレートを選択してもよい。 Further, the sentence generation means may generate a sentence by applying a folder name for storing image data to a template. Further, the sentence generation means may extract time information from the shooting information data and apply it to a template to generate a sentence. The sentence generation means selects a template to be used according to the type of information obtained from the digital camera. The sentence generation unit may use the access frequency for each user as information obtained from the digital camera. Further, the sentence generation means may use likability information based on the likability key as information obtained from the digital camera. The sentence generation unit may select a template to be used as information obtained from the digital camera according to the extension of the file.
また、上記文生成手段は、検索対象の他の画像ファイルに付随する情報を用いて、使用するテンプレートを選択してもよい。検索対象の他の画像ファイルに付随する情報として、画像が撮影された時間を用い、使用するテンプレートを選択する。上記文生成手段は、検索対象の他の画像ファイルに付随する情報として、ユーザ登録メモに記載されている単語を用い、使用するテンプレートを選択してもよい。また、上記文生成手段は、ユーザ登録メモから単語を抽出し、メモに記載された単語の情報として、単語の表記、品詞、意味情報のいずれか1つ以上を用いて、テンプレートを選択する。 In addition, the sentence generation unit may select a template to be used by using information accompanying other image files to be searched. A template to be used is selected using the time when the image was taken as information accompanying other image files to be searched. The sentence generation unit may select a template to be used by using a word described in a user registration memo as information attached to another image file to be searched. Further, the sentence generation unit extracts a word from the user registration memo, and selects a template using any one or more of word notation, part of speech, and semantic information as information of the word described in the memo.
上記画像検索装置にあって、上記テキスト音声合成手段は、デジタルカメラから得られる言語の情報によって、出力される合成音声の言語を変更する。また、上記テキスト音声合成手段は、ユーザによって指定された言語を合成音の言語として出力してもよい。また、上記テキスト音声合成手段は、デジタルカメラのモードから使用言語を選択してもよい。また、上記テキスト音声合成手段は、ユーザ登録メモに含まれる文字列を解析し、言語判定をする。また、上記テキスト音声合成手段は、決定された言語が、上記文生成手段によって生成された文の言語と異なる場合、生成された文を決定された言語の文に変換する機能を有する。 In the image search device, the text-to-speech synthesizer changes the language of the synthesized speech to be output according to language information obtained from the digital camera. The text-to-speech synthesizer may output a language specified by the user as the language of the synthesized sound. The text-to-speech synthesizer may select a language to be used from the mode of the digital camera. The text-to-speech synthesizer analyzes a character string included in the user registration memo and performs language determination. The text-to-speech synthesizer has a function of converting the generated sentence into a sentence of the determined language when the determined language is different from the language of the sentence generated by the sentence generator.
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの文体を変更する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キーによる好感度情報、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの文体を変更する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの文体を変更する。 The text-to-speech synthesizer changes the style used when outputting the sentence generated by the sentence generator according to the content of information obtained from the digital camera. The text-to-speech synthesizer includes, as information obtained from the digital camera, the contents of the user registration memo, shooting information data, shooting time, shooting location, frequency of access to the image, preference information by the preference key, and call mode information. By using any one or more of the menus, the style used when outputting the sentence generated by the sentence generation means is changed. The text-to-speech synthesizer changes the style used when the sentence generated by the sentence generator is output depending on the season, time zone, and date when the apparatus is used.
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を切り替える。また、上記テキスト音声合成手段は、韻律として、基本周波数と音韻継続時間長のいずれか1つ以上を切り替える。 The text-to-speech synthesis unit switches the prosody of the synthesized speech when outputting the sentence generated by the sentence generation unit according to the content of information obtained from the digital camera. The text-to-speech synthesizer switches one or more of the fundamental frequency and the phoneme duration time as the prosody.
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キーによる好感度情報、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を切り替える。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の韻律を変更する。 The text-to-speech synthesizer includes, as information obtained from the digital camera, the contents of the user registration memo, shooting information data, shooting time, shooting location, frequency of access to the image, preference information by the preference key, and call mode information. By using any one or more of the menus, the prosody of the synthesized speech when outputting the sentence generated by the sentence generating means is switched. The text-to-speech synthesis unit changes the prosody of the synthesized speech when the sentence generated by the sentence generation unit is output according to the season, time zone, and day in which the apparatus is used.
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の話速を決定する。 The text-to-speech synthesis unit determines the speech speed of the synthesized speech when outputting the sentence generated by the sentence generation unit according to the content of information obtained from the digital camera. In addition, the text-to-speech synthesizer may be any of the information obtained from the digital camera, such as user registration memo contents, shooting information data, shooting time, shooting location, frequency of access to images, preference key, and call mode menu. By using one or more, the speech speed of the synthesized speech when outputting the sentence generated by the sentence generation means is determined. The text-to-speech synthesis unit determines the speech speed of the synthesized speech when outputting the sentence generated by the sentence generation unit according to the season, time zone, and day in which the apparatus is used.
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の音量レベルを決定する。 The text-to-speech synthesizer determines the volume level of the synthesized speech when outputting the sentence generated by the sentence generator according to the content of information obtained from the digital camera. In addition, the text-to-speech synthesizer may be any of the information obtained from the digital camera, such as user registration memo contents, shooting information data, shooting time, shooting location, frequency of access to images, preference key, and call mode menu. By using one or more, the volume level of the synthesized speech when the sentence generated by the sentence generating means is output is determined. The text-to-speech synthesis unit determines the volume level of the synthesized speech when outputting the sentence generated by the sentence generation unit according to the season, time zone, and day in which the apparatus is used.
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声の声色を決定する。 The text-to-speech synthesis unit determines a voice color of the synthesized speech when outputting the sentence generated by the sentence generation unit according to the content of information obtained from the digital camera. The text-to-speech synthesizer is one of a user registration memo content, shooting information data, shooting time, shooting location, frequency of access to images, preference key, and call mode menu as information obtained from the digital camera. By using two or more, the voice color of the synthesized speech when the sentence generated by the sentence generator is output is determined. The text-to-speech synthesis unit determines a voice color of the synthesized speech when outputting the sentence generated by the sentence generation unit according to the season, time zone, and day in which the apparatus is used.
また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報として、ユーザ登録メモの内容、撮影情報データ、撮影時間、撮影場所、画像へのアクセス頻度、好感度キー、呼び出しモードのメニューのうちいずれか1つ以上を用いることによって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声に効果音を付与するか否かを決定する。また、上記テキスト音声合成手段は、デジタルカメラから得られる情報の内容によって、上記文生成手段によって生成された文を出力するときの合成音声に付与する効果音の種類を決定する。また、上記テキスト音声合成手段は、装置が使用される季節や時間帯、日によって、上記文生成手段によって生成された文を出力するときの合成音声に付与する効果音の種類を決定する。 The text-to-speech synthesizer determines whether or not to add sound effects to the synthesized speech when outputting the sentence generated by the sentence generator according to the content of information obtained from the digital camera. In addition, the text-to-speech synthesizer may be any of the information obtained from the digital camera, such as user registration memo contents, shooting information data, shooting time, shooting location, frequency of access to images, preference key, and call mode menu. By using one or more, it is determined whether or not to add sound effects to the synthesized speech when outputting the sentence generated by the sentence generation means. The text-to-speech synthesizer determines whether to add sound effects to the synthesized speech when the sentence generated by the sentence generator is output, depending on the season, time zone, and day in which the apparatus is used. . The text-to-speech synthesizer determines the type of sound effect to be added to the synthesized speech when outputting the sentence generated by the sentence generator according to the content of information obtained from the digital camera. The text-to-speech synthesizer determines the type of sound effect to be added to the synthesized speech when the sentence generated by the sentence generator is output depending on the season, time zone, and day in which the apparatus is used.
1 音声合成装置、2 情報読み出し部、3 文生成部、4 テキスト音声合成装置、5 出力内容決定部、7 文字列解析部、10 出力言語決定部、11 文内容決定部、12 文の数決定部、13 テンプレート選択部、14 テンプレートデータベース DESCRIPTION OF SYMBOLS 1 Speech synthesizer, 2 Information reading part, 3 sentence production | generation part, 4 Text speech synthesizer, 5 Output content determination part, 7 Character string analysis part, 10 Output language determination part, 11 sentence content determination part, 12 sentence number determination Part, 13 template selection part, 14 template database
Claims (6)
上記情報読み出し手段によって読み出された情報に基づいて文を生成する文生成手段と、
上記文生成手段によって生成された文を音声合成して出力する音声合成手段とを有し、
上記文生成手段は、出力する文の内容を決定するために上記情報読み出し手段によって読み出された情報に基づく文字列を解析する文字列解析手段と、上記文字列解析手段にて解析された文字列から単語を抽出する単語抽出手段と、文を生成するために用いるテンプレートを記憶しているテンプレート記憶手段とを更に有し、
上記文生成手段は、上記単語抽出手段によって抽出された単語を含む文字列を、上記テンプレート記憶手段から選択したテンプレートが要求する文構造決定用のルールに当てはまるように変形し、上記変形した文字列を上記テンプレートに当てはめて文を生成する
音声合成装置。 Information reading means for reading information associated with image or sound data;
Sentence generation means for generating a sentence based on the information read by the information reading means;
Speech synthesis means for synthesizing and outputting the sentence generated by the sentence generation means,
The sentence generation means includes a character string analysis means for analyzing a character string based on information read by the information reading means in order to determine the content of a sentence to be output, and a character analyzed by the character string analysis means. A word extracting means for extracting a word from the sequence; and a template storage means for storing a template used for generating a sentence;
The sentence generation unit transforms the character string including the word extracted by the word extraction unit so as to apply to the rule for sentence structure determination requested by the template selected from the template storage unit, and the deformed character string. A speech synthesizer that generates a sentence by applying to the above template.
上記文生成手段は、上記テンプレート内の概念を示す文字列に対して、上記単語抽出手段によって抽出した単語から上記概念を示す文字列に応じた単語を上記概念辞書から選出し、上記テンプレートに当てはめて文を生成する請求項1記載の音声合成装置。 A conceptual dictionary;
The sentence generation means selects a word corresponding to the character string indicating the concept from the words extracted by the word extraction means from the word dictionary indicating the concept in the template and applies it to the template. The speech synthesizer according to claim 1, which generates a sentence.
上記音声合成手段は、上記画像又は音響データに付随する情報に応じて、合成音声の韻律、話速、音量又は声色を変更する請求項2記載の音声合成装置。 Information accompanying the image or sound data includes a user registration memo, a storage folder name, or a reproduction frequency,
The speech synthesizer according to claim 2, wherein the speech synthesizer changes a prosody, speech speed, volume, or voice color of the synthesized speech in accordance with information accompanying the image or sound data.
上記情報読み出し工程によって読み出された情報に基づいて文を生成する文生成工程と、
上記文生成工程によって生成された文を音声合成して出力する音声合成工程とを有し、
上記文生成工程は、出力する文の内容を決定するために上記情報読み出し工程によって読み出された情報に基づく文字列を解析する文字列解析工程と、上記文字列解析工程にて解析された文字列から単語を抽出する単語抽出工程と、文を生成するために用いるテンプレートを記憶しているテンプレート記憶手段からテンプレートを選択するテンプレート選択工程とを更に有し、
上記文生成工程では、上記単語抽出工程によって抽出された単語を含む文字列を、上記テンプレート記憶手段から選択したテンプレートが要求する文構造決定用のルールに当てはまるように変形し、上記変形した文字列を上記テンプレートに当てはめて文を生成する
音声合成方法。 An information reading step for reading information associated with image or sound data;
A sentence generation step for generating a sentence based on the information read out by the information reading step;
A speech synthesis step of synthesizing and outputting the sentence generated by the sentence generation step,
The sentence generation step includes a character string analysis step for analyzing a character string based on the information read out by the information reading step in order to determine the content of the sentence to be output, and a character analyzed in the character string analysis step. A word extracting step of extracting a word from the column, and a template selecting step of selecting a template from a template storage means storing a template used for generating a sentence,
In the sentence generation step, the character string including the word extracted in the word extraction step is transformed so as to apply to the sentence structure determination rule required by the template selected from the template storage unit, and the transformed character string A speech synthesis method that generates a sentence by applying to the above template.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004202320A JP4765274B2 (en) | 2004-07-08 | 2004-07-08 | Speech synthesis apparatus and speech synthesis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004202320A JP4765274B2 (en) | 2004-07-08 | 2004-07-08 | Speech synthesis apparatus and speech synthesis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006023592A JP2006023592A (en) | 2006-01-26 |
JP4765274B2 true JP4765274B2 (en) | 2011-09-07 |
Family
ID=35796887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004202320A Expired - Fee Related JP4765274B2 (en) | 2004-07-08 | 2004-07-08 | Speech synthesis apparatus and speech synthesis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4765274B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116905B (en) * | 2020-09-16 | 2023-04-07 | 珠海格力电器股份有限公司 | Method and device for converting memo information into alarm clock to play |
CN112614480B (en) * | 2020-12-22 | 2023-09-15 | 平安银行股份有限公司 | Voice broadcasting method, device, equipment and storage medium |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0772888A (en) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | Information processor |
JP3908437B2 (en) * | 2000-04-14 | 2007-04-25 | アルパイン株式会社 | Navigation system |
JP2002175094A (en) * | 2000-05-31 | 2002-06-21 | Matsushita Electric Ind Co Ltd | Device and method for information provision by voice |
JP2002163277A (en) * | 2000-11-28 | 2002-06-07 | Auto Network Gijutsu Kenkyusho:Kk | Document information supply system, information terminal unit and document information supply method |
JP2002175176A (en) * | 2000-12-07 | 2002-06-21 | Canon Inc | Information presenting device and presenting method |
JP3648456B2 (en) * | 2001-01-11 | 2005-05-18 | シャープ株式会社 | Speech synthesizer |
-
2004
- 2004-07-08 JP JP2004202320A patent/JP4765274B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006023592A (en) | 2006-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2207165B1 (en) | Information processing apparatus and text-to-speech method | |
US7177795B1 (en) | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems | |
JPH10274997A (en) | Document reading-aloud device | |
JP2000081892A (en) | Device and method of adding sound effect | |
JP2008185805A (en) | Technology for creating high quality synthesis voice | |
JP2008268684A (en) | Voice reproducing device, electronic dictionary, voice reproducing method, and voice reproducing program | |
JP5106608B2 (en) | Reading assistance apparatus, method, and program | |
US20050171778A1 (en) | Voice synthesizer, voice synthesizing method, and voice synthesizing system | |
KR20080040960A (en) | Automatic speech translation method and apparatus based on corresponding sentence pattern | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP2008083239A (en) | Device, method and program for editing intermediate language | |
JP2006065675A (en) | Data search method and apparatus | |
JP4765274B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP4287785B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP2000172289A (en) | Method and record medium for processing natural language, and speech synthesis device | |
JP2004289560A (en) | Image recording and reproducing method and image recording and reproducing apparatus | |
JP2006243673A (en) | Data retrieval device and method | |
JP4189653B2 (en) | Image recording / reproducing method and image recording / reproducing apparatus | |
JP2004325905A (en) | Device and program for learning foreign language | |
JP6422647B2 (en) | Two-dimensional code recording method and two-dimensional code reader | |
JP3060276B2 (en) | Speech synthesizer | |
JP2009116107A (en) | Information processing device and method | |
KR20100003574A (en) | Appratus, system and method for generating phonetic sound-source information | |
JP3414326B2 (en) | Speech synthesis dictionary registration apparatus and method | |
JP2004294577A (en) | Method of converting character information into speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110530 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |