[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2002027177A - 音声・画像処理装置 - Google Patents

音声・画像処理装置

Info

Publication number
JP2002027177A
JP2002027177A JP2000208021A JP2000208021A JP2002027177A JP 2002027177 A JP2002027177 A JP 2002027177A JP 2000208021 A JP2000208021 A JP 2000208021A JP 2000208021 A JP2000208021 A JP 2000208021A JP 2002027177 A JP2002027177 A JP 2002027177A
Authority
JP
Japan
Prior art keywords
voice
image
data
text
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000208021A
Other languages
English (en)
Other versions
JP4319334B2 (ja
Inventor
Iwao Nozaki
岩夫 野崎
Yoshiya Marumoto
喜也 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Noritsu Koki Co Ltd
Original Assignee
Noritsu Koki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Noritsu Koki Co Ltd filed Critical Noritsu Koki Co Ltd
Priority to JP2000208021A priority Critical patent/JP4319334B2/ja
Publication of JP2002027177A publication Critical patent/JP2002027177A/ja
Application granted granted Critical
Publication of JP4319334B2 publication Critical patent/JP4319334B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Facsimiles In General (AREA)

Abstract

(57)【要約】 【課題】音声付き画像シートを作成依頼する際の音声デ
ータの入力方法を改善すること。 【解決手段】音声データを光学的に読み取り可能なよう
にコード化された音声コードイメージに変換するコード
変換部40と、音声付き画像シートを作成するために音
声コードイメージと画像データに基づく画像イメージを
プリントするプリント部を備えた音声・画像処理装置に
おいて、入力されたテキストデータを処理するテキスト
入力処理部23が備えられ、かつこのテキスト入力処理
部で処理されたテキストデータに基づいてこのテキスト
データの音声を再生する音声コードイメージが生成され
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声データを光学
的に読み取り可能なようにコード化された音声コードイ
メージに変換するコード変換部と、音声付き画像シート
を作成するために前記音声コードイメージと画像データ
に基づく画像イメージをプリントするプリント部を備え
た音声・画像処理装置に関する。
【0002】
【従来の技術】近年、マルチメディア時代を迎えて、情
報の伝達を視覚だけに頼るのではなく、聴覚も利用する
ことが積極的に試みられており、音声付き画像シート、
特に音声付き写真もそのような試みの1つであり、例え
ば、日本国特開平6−231466号公報、及び、日本
国特開平7−181606号公報では、図や写真、文字
に加えて音声を光学的に読取可能に変換したドットコー
ド(音声コードイメージ)を同一の用紙上に印刷し、こ
のドットコードを読み取る専用のスキャナーにより音声
が聞こえるという、音声付き画像シートを開示してい
る。このような音声付き画像シートは、特に発音を繰り
返し勉強するための語学教材、動物の鳴き声を収録する
写真図鑑、音の出る絵本、あるいは、結婚式、成人式、
七五三などの記念行事を行事に付随する音声とともに記
録する写真として適用されている。
【0003】
【発明が解決しようとする課題】また、最近では、適当
な写真に、音声コード化されたメッセージを付与したも
のが、新しいメッセージカードとして注目されてきてい
るが、このようなメッセージカードの作成をDPショッ
プ等に依頼する場合、プリントしたい画像を収めた写真
フィルムやデジタルカメラの記録メディアを提出するだ
けでなく、店頭でマイクを通じて音声メッセージを吹き
込む必要がある。これは、メッセージの内容にかかわら
ず、一般の人にとって結構恥ずかしい行為であり、この
ためにメッセージカードの作成を躊躇する人が少なくな
い。店頭での音声メッセージの吹き込みを避けるため、
予め家で音声メッセージを吹き込んだカセットテープや
MDなどを持参してもよいが、確認のために再生するケ
ースが多いし、簡単なメッセージのためにいちいち家で
録音することは煩わしいものである。上記実状に鑑み、
本発明の課題は、音声付き画像シートを作成依頼する際
の音声データの入力方法を改善することである。
【0004】
【課題を解決するための手段】上記課題を解決するた
め、音声データを光学的に読み取り可能なようにコード
化された音声コードイメージに変換するコード変換部
と、音声付き画像シートを作成するために前記音声コー
ドイメージと画像データに基づく画像イメージをプリン
トするプリント部を備えた音声・画像処理装置におい
て、本発明では、入力されたテキストデータを処理する
テキスト入力処理部が備えられ、かつ前記テキスト入力
処理部で処理されたテキストデータに基づいてこのテキ
ストデータの音声を再生する音声コードイメージが生成
されることを特徴としている。
【0005】この構成では、音声付き画像シートを作成
するために必要な音声コードイメージのソースデータと
してテキストデータの形態で入力されたものを用いるの
で、顧客はメッセージ内容を肉声で吹き込む必要がな
い。テキストデータの入力としては、例えば、この音声
・画像処理装置に接続されたキーボードを用いて直接メ
ッセージ内容を打ち込んでもよいし、予めワープロ等を
利用して作成したメッセージをフロッピー(登録商標)
等の記録メディアに記録して、それを店に持ち込んでも
よい。さらには、電子メールを介して店にメッセージ内
容を送ることも可能であり、その際、作成すべき音声付
き画像シートのための画像データを添付ファイルとして
送るなら、音声付き画像シートの注文時には顧客が店に
出向く必要がなくなる。
【0006】本発明の好適な実施形態では、入力された
テキストデータに基づいて合成音声データを生成する音
声合成部が備えられ、前記コード変換部が前記音声合成
部で生成された合成音声データを前記音声コードイメー
ジのためのソース音声データとして使用するように構成
されている。
【0007】この構成では、音声付き画像シートを作成
するために必要な音声データとして、最初テキストデー
タの形態で入力されたものから音声合成技術を利用して
合成音声データ化されるものを利用することができるの
で、やはり、顧客はメッセージ内容を肉声で吹き込む必
要がない。
【0008】音声合成部の一例として、本発明の好適な
実施形態では、テキスト解析用辞書を用いて入力テキス
トデータを解析することでその読みを同定するとともに
さらにアクセントと韻律を設定して得られた音韻系列か
ら合成音声エレメント辞書を用いて合成音声データを生
成するテキスト音声合成部を備えている。この構成で
は、キーボードから入力された仮名漢字混じりテキスト
データや記録メディアに保存されたテキスト文書や電子
メールを通じて送られてきたテキスト文書を読み込むこ
とで入力されたテキストデータに対してテキスト解析用
辞書を用いて読みと文節のアクセントが与えられ、さら
に合成音声エレメント辞書にアクセスしながらの韻律パ
ラメータの編集工程を通じて音声のパワーと基本周波数
を調整することで、ある程度の口調を設定することがで
きる。従って、顧客の要望に応じて、女性口調や男性口
調、あるいは怒り口調や喜び口調を選択して、最終的な
合成音声データを作成することができる。この点に関す
る、より好ましい形態として、前記合成音声エレメント
辞書に格納される合成音声エレメントを個人別で登録さ
れた肉声データに基づいて作製するならば、合成音声を
顧客の肉声に類似した親しみのある音声とすることも可
能となる。
【0009】上述したようなテキスト音声合成部は高度
の技術を必要とし、装置的にも操作的にも大きな負担と
なるものであることから、これに代わる簡易的な音声合
成技術として、本発明の別な実施形態では、入力テキス
トデータを予め登録された語彙やフレーズの肉声データ
を格納している登録音声エレメント辞書を用いて断片的
に順次合成音声データに変換する音声編集合成部を備え
ているものがある。これは、語彙・フレーズの限定され
た肉声の断片から文音声を生成する編集合成と呼ばれる
方式であり、合成音声データの生成は、テキストデータ
の断片を登録音声エレメント辞書を用いて音声データの
断片で置き換えることで行われるので、高速処理可能で
かつ装置コストも抑えることができる。
【0010】このような編集合成によって得られる肉声
に比べて低品質の合成音声データをより親しみをもって
聞くことができるように、本発明では、その登録音声エ
レメント辞書に、個人別で登録された肉声データを格納
することが提案される。つまり、音声付き画像シートの
顧客に対して予め、編集合成のために最低限必要とされ
る音声エレメントを顧客自身の肉声で登録しておく。音
声付き画像シートの注文時には、音声メッセージのソー
スとしてのテキストデータと適当な画像データを提出す
ると、本人の登録音声エレメントを用いた編集合成で合
成音声データが作成されるので、流暢に流れる音声でな
くとも、本人の肉声断片が使われているだけに、親しみ
のある音声として再生されることになる。
【0011】さらに、本発明の好適実施形態として、音
声合成部が合成音声データの声質を変形させる声質変形
部を備えているならば、世の中に存在しないような音声
データを作り出すことが可能であり、特に遊び感覚での
音声付き画像シートの交換などの目的にかなったものと
なる。このような音質変形は、例えば、音声データの周
波数を線形変換することにより簡単に実施することがで
きる。その際、音質変形のパラメータを顧客別に管理し
ておくと、顧客は独自の音声特徴をもった音声データ変
形パラメータを自分専用として確保することができる。
【0012】キーボードを用いて直接メッセージ内容を
打ち込んだりすることを嫌う顧客に対する方策として、
本発明の好適な実施形態の1つでは、文字認識装置が追
加的に備えられており、この文字認識装置によって出力
されたテキストデータが音声コードイメージ変換に用い
られる。ここで、文字認識装置は用紙に手書きされた文
字をOCRで読み取ってテキストデータ化したり、タッ
チパネル上で所定のペンで書かれた文字を読み取ってテ
キストデータ化する装置の総称であり、この構成によ
り、音声付き画像シートを作成依頼する際の音声データ
の入力方法はさらに簡単になるとともに、その入力形態
も多様化することになる。
【0013】以上の説明から明らかなように、本発明の
重要な特徴は、テキストデータを音声化することにある
が、本発明で取り扱っているテキストデータは、印刷さ
れたテキストとしての文字や数字・記号の集まり、印刷
物等に対するスキャナによる読取データ、電子化された
テキストとしての文字や数字・記号の集まり、入力デバ
イスを通じて逐次入力されるキャラクターコード群など
に代表されるように、広義の意味合いで解釈されるべき
であり、コンピュータのメディア変換技術において何ら
かの形で文字情報として認識される全てのデータが含ま
れるものである。本発明によるその他の特徴及び利点
は、以下図面を用いた実施例の説明により明らかになる
だろう。
【0014】
【発明の実施の形態】音声付き画像シートを作成するた
めの、本発明による音声・画像処理装置の1つの実施形
態が、図1の外観図及び図2の機能ブロック図によって
示されている。この音声・画像処理装置の中核となるの
が、汎用コンピュータ1であり、図2で示された音声付
き画像シートの作成に要求される種々の機能をハードウ
エアとソフトウエアによって構築している。この音声・
画像処理装置はDPショップなどの店頭に配置され、顧
客の依頼による音声付き写真を作成するサービスを行う
タイプのものである。
【0015】このコンピュータ1には、I/Oインタフ
ェース部10を介して種々の入力機器と出力機器が接続
している。出力機器としては、最終的に音声付き画像シ
ートとしての音声付き写真2を出力するプリント部とし
て銀塩写真プリンタ3(銀塩写真フィルムのプリントな
どに使用されているものが兼用される)、作業中の画像
の確認等のためのモニタ4や入力された音声データのチ
ェックのためのスピーカ5が挙げられる。入力機器とし
ては、直接的に音声をコンピュータ1に入力するための
マイク6aやカセットプレーヤ6b、さらにデジタルカ
メラによる撮影画像の取り込みのためのカードリーダ7
aや銀塩フィルムからの撮影画像の取り込みのためのフ
ィルムスキャナ7bが挙げられる。さらに、テキストデ
ータをコンピュータに入力するための機器として、キー
ボード8a、手書き又は印刷された文字を読み取るフラ
ットベットスキャナ8c、インターネットを通じて送ら
れてくるテキストデータを受信するための通信機器8d
が挙げられる。
【0016】また、音声データや画像データの入出力の
ためによく用いられているフロッピドライブ8eやMO
ドライブ8fもコンピュータ1に内蔵されている。キー
ボード8aは、マウス8bとともに図3で示された各機
能に対しコマンドを与えるためにも用いられるし、通信
機器8dは当然テキストデータだけでなく、画像データ
も受信することができる。
【0017】入力された画像データと音声データを用い
て音声付き写真2を作成するしくみは後で詳しく説明す
るとして、銀塩写真プリンタ3から出力された音声付き
写真2では、図3に示すように写真画像領域2aの周辺
に配置された音声コードイメージ領域2bに対して専用
の読取スキャナ90で走査すると、この読取スキャナ9
0に内蔵されている音声再生回路の働きで音声コードイ
メージに対応する音声信号が出力され、例えばイヤフォ
ン91等で音を聞くことができる。
【0018】この音声・画像処理装置は、主な機能ユニ
ットととして、図2から理解できるように、音声付き写
真2における写真画像のソースとしての画像データを受
け取る画像入力処理部21、音声付き写真2における音
声コードイメージのソースとしての音声データを外部か
ら直接受け取る音声入力処理部22、音声コードイメー
ジに変換される音声データのソースとなるべきテキスト
データを受け取るテキスト入力処理部23、入力された
テキストデータに基づいて合成音声データを生成する音
声合成部30、音声データを光学的に読み取り可能なよ
うにコード化された音声コードイメージに変換するコー
ド変換部40、画像データ格納部51、音声コードイメ
ージ格納部52、そして適正に処理された画像データと
音声コードイメージとから音声付き写真2のためのプリ
ントデータを生成する画像音声合成処理部60を備えて
いる。
【0019】画像入力処理部21は、画像編集部21a
や画像選択部21bを備えており、カードリーダ7a、
フィルムスキャナ7b、通信機器8d、フロッピドライ
ブ8e、MOドライブ8fなどから入力された画像デー
タは必要に応じて画像選択部21bによって選択され、
選択された画像データに対して画像編集部21aが色調
補正や解像度変換などの編集処理を行う。
【0020】音声入力処理部22は、音声付き写真2に
形成される音声コードイメージのソースとしての音声デ
ータが直接、顧客から与えられる場合に利用されるもの
であり、マイク6aやカセットプレーヤ6b、カードリ
ーダ7a(デジタルボイスレコーダ用メモリカードの使
用時)などから入力された音声データは必要に応じて、
音声選択部22bによって選択され、音声編集部22a
によって編集処理が行われる。
【0021】テキスト入力処理部23は、音声付き写真
2に形成される音声コードイメージのソースとして顧客
がテキストデータを与える場合に利用されるもので、顧
客が持参したフロッピディスクに保存されたテキストフ
ァイルや電子メールの形で送付されたテキストデータを
フロッピドライブ8eや通信機器8dを通じて取り込ん
だ後、テキスト編集部23aが必要なテキスト編集を施
す。また、キーボード8aを通じて、顧客又はオペレー
タが直接入力したテキストデータもこのテキスト編集部
23aによって処理される。さらに、オプションとし
て、OCR機能を持たせるために文字認識部24を備え
ることも可能である。OCR機能を持たせた場合、顧客
が提示したメッセージ文書をフラットベットスキャナ8
cで読み取らせた後、文字認識部24によってテキスト
データに変換する。つまり、フラットベットスキャナ8
cと文字認識部24が文字認識装置を構築している。
【0022】テキスト入力処理部22によって必要な編
集処理を施されたテキストデータを合成音声データに変
換する音声合成部30はテキスト音声合成部31とテキ
スト解析用辞書32と合成音声エレメント辞書33を備
えており、テキスト音声合成部31はテキスト解析用辞
書32を用いて入力テキストデータを解析することでそ
の読みを同定するとともにさらにアクセントと韻律を設
定して得られた音韻系列から合成音声エレメント辞書3
3を用いて合成音声データを生成する。なお、合成音声
エレメント辞書33のソースとしての音声としては女性
の音声又は男性の音声のいずれでもよいが、両方備えて
選択するようにすることも可能である。さらには、特定
の人物の音声をソースとした数多くの合成音声エレメン
ト辞書33を用意して、任意に切り換えて利用する構成
も可能である。
【0023】さらに、音声合成部30には、上述のよう
に作成された合成音声データの声質を変形させる声質変
形部34も付随しており、この声質変形部34は入力し
た音声データに対して、アップ・ダウンサンプリングに
よる周波数の線形変換や時間軸調整によって、テープレ
コーダの早回しや遅回しと類似した変形を施して出力す
るものである。この音声変形部34は、音声入力処理部
22から送られてくる音声データに対しても音声変形処
理を施すことができる。
【0024】音声入力処理部22から送られてきた肉声
の音声データや音声合成部30から送られてきた合成音
声データを音声コードイメージに変換する音声コード変
換部40は、波形符号化、分析合成符号化など公知の符
号化手法から適当に選ばれたもので構築された音声デー
タ圧縮符号化部41と、これにより符号化された音声コ
ードデータを二次元のコードイメージに展開する音声コ
ードイメージ生成部42と、後ほど行われる画像データ
に基づく画像イメージと音声コードイメージとの音声付
き写真におけるレイアウト編集の際に便利なように音声
付き写真2に形成される音声コードイメージのサイズ
(外形寸法)を算出するプリコードイメージ生成部43
とを備えている。
【0025】画像入力処理部21で編集された画像デー
タは画像イメージとして画像データ格納部51に、コー
ド変換部21で変換された音声コードイメージは音声コ
ードイメージ格納部52に一時的に格納され、画像音声
合成処理部60によって所望のレイアウトでもってプリ
ンタ3によってプリント出力されるようにプリントデー
タ化される。このため、画像音声合成処理部60は、画
像データ格納部51に格納された画像イメージと音声コ
ードイメージ格納部52に格納された音声コードイメー
ジのレイアウト処理を行う画像・音声コードイメージレ
イアウト編集部61と、決定されたレイアウトで両イメ
ージを合成してプリントデータを生成する画像・音声コ
ードイメージ合成処理部62を備えている。このレイア
ウト編集時には、プリコードイメージ生成部43で算出
された音声コードイメージのサイズに基づくダミーボッ
クスエリアがモニタ4上に表示され、同じく表示されて
いる画像イメージとの位置関係を見比べながらの正確な
レイアウト作業を可能にしている。
【0026】上述した音声・画像処理装置による音声付
き写真2の典型的な作成手順を図4のフローチャートを
用いて説明する。ここでは音声付き写真2の注文が電子
メールによってなされているとする。電子メールが到着
すると(#1)、この電子メールの添付ファイルとして
の画像データが画像入力処理部21に入力される(#1
1)と、その画像データは画像編集部21aの働きで、
モニタ4でその画像イメージを確認しながらオペレータ
の操作を通じて色調・階調変換、拡大縮小等の編集処理
が行われる(#12)。入力された画像が複数存在する
場合は画像選択部21bによって選択された後この編集
処理が行われる。編集処理された画像データは、一旦画
像データ格納部51に格納される(#13)。
【0027】一方、音声コードイメージのソースとして
のテキストデータを含む電子メールファイルは、テキス
ト入力処理部23のテキスト編集部23aに送られ(#
14)、そこで、その電子メールから音声付き写真2に
音声コードイメージとして取り込まれるべきメッセージ
だけを含むテキストデータが切り出される(#15)。
【0028】漢字仮名混じりテキストとして音声合成部
30に送られてきたテキストデータは、テキスト音声合
成部31によってテキスト解析用辞書32にアクセスし
ながら解析され(#21)、単語を同定しながら読み、
アクセントが付与される(#22)。次いで、息継ぎ位
置が設定されるとともに文全体のイントネーションが決
定され、音素記号と韻律パラメータからなる音韻系列が
作り出される(#23)。作り出された音韻系列に対し
て合成音声エレメント辞書33にアクセスしながら順次
合成音声エレメントを接続し、合成音声データを生成す
る(#24)。
【0029】この合成音声データに声質変形処理が要求
されている場合(#25YES 分岐)、声質変形部34に
よって周波数線形変換等が施され(#26)、要求され
ていない場合(#25NO分岐)、合成音声データはその
ままコード変換部40に送られる。
【0030】まず、合成音声データは音声データ圧縮符
号化部41に送られ、圧縮処理が行われ、続いて、音声
コードイメージ生成部42にて、光学的に読取り可能な
音声コードイメージに変換される(#31)。さらにこ
の音声コードイメージのサイズ(外形寸法)がプリコー
ドイメージ生成部43によって算出され(#32)、音
声コードイメージのデータとともにサイズデータもは音
声コードイメージ格納部52に一旦格納される(#3
3)。
【0031】画像データ格納部51に記憶された画像デ
ータと、音声コードイメージ格納部52に記憶された音
声コードイメージは、画像音声合成処理部60の画像・
音声コードイメージレイアウト編集部61にそれぞれ取
り込まれて画像イメージと音声コードイメージのレイア
ウト編集処理がなされる(#40)。実際のレイアウト
編集処理ではモニタ4の画面にレイアウト編集画面が表
示され、カーソルの指示により画像イメージと音声コー
ドイメージを擬似的に示すダミーボックスエリアのレイ
アウト編集が行われる。このレイアウト編集は予め選択
されたテンプレートを用いて画像イメージと音声コード
イメージを自動的に流し込む方法を採用することも可能
である。その際、例えば、音声コードイメージの長さが
印刷可能長さを越えると、これを2つに分離して2段構
成にするなどの再編集が行われる。
【0032】画像・音声コードイメージ合成処理部62
は、画像・音声コードイメージレイアウト編集部61か
らのレイアウト情報を受け取ると、画像データ格納部5
1及び音声コードイメージ格納部52にそれぞれリクエ
スト信号を送信し、対応画像データ及び音声コードイメ
ージデータを受け取る。受け取った画像イメージのデー
タと音声コードイメージのデータはレイアウト情報に基
づいて一体化され、プリントデータとして生成される
(#41)。このプリントデータがプリンタ3に送信さ
れることにより、画像イメージと音声コードイメージが
印画紙に露光され、露光印画紙が現像処理されることに
より図3で示されるような音声付き写真2が作成される
(#50)。
【0033】〔別実施形態〕図5で示された本発明の別
実施形態の機能ブロック図では、図2で示された先の実
施形態のものと比べて、音声合成部30がテキスト音声
合成部31の代わりに音声編集合成部35によって構成
されている点で異なっている。
【0034】語彙・フレーズの限定された肉声の断片か
ら文音声を生成する編集合成と呼ばれるこの方式で合成
音声データを生成するためには、予め登録された語彙や
フレーズの肉声データを格納している登録音声エレメン
ト辞書36が必要であり、音声編集合成部35は、テキ
スト入力処理部23から送られてきたテキストデータを
断片化し、その断片を登録音声エレメント辞書を用いて
音声データの断片で置き換えていく。
【0035】この実施形態では、その登録音声エレメン
ト辞書36に、個人別で登録された肉声データを格納す
ることも可能である。つまり、音声付き画像シートの顧
客に対して予め、編集合成のために最低限必要とされる
音声エレメントを顧客自身の肉声で登録・格納してお
き、音声付き画像シートの注文時には、本人の登録音声
エレメントを用いた編集合成で合成音声データが作成さ
れる。登録されていない顧客に対しては、標準で用意さ
れている音声エレメントが使用される。
【0036】また、この実施形態の音声・画像処理装置
は、図6に示すような、証明写真装置やプリクラ(登録
商標)装置のようなボックス形の外観を備えており、音
声付き写真2を作成しようとする顧客は、料金を投入し
た後、モニタ4に表示される指示メッセージに従って、
備え付けられているデジタルカメラで自分を撮影すると
ともに、音声メッセージ化したいテキストデータを備え
付けられているタッチパネル式キーボード8aを使って
入力するか、又はマイク6aを通じて肉声で入力する。
また、プリント部3として昇華型の熱転写プリンタが採
用されている。
【0037】この別実施形態の音声・画像処理装置によ
る音声付き写真2の典型的な作成手順を図7のフローチ
ャートを用いて説明する。ここでは音声付き写真2のた
めの画像ソースはデジタルカメラの撮像画像データであ
り、その音声ソースは備え付けのキーボード8aから直
接入力されたテキストデータとする。
【0038】音声付き写真2の作成を希望する顧客は、
指定された硬貨を硬貨投入口に入れることにより(#1
01)モニタ4に表示されるメニュに従って、まず装置
に備えられたデジタルカメラで証明写真装置やプリクラ
装置と同様な手順で自分を撮影する(#110)。この
デジタルカメラはI/Oインタフェース10と直接接続
されているので、デジタルカメラによって取得された画
像データは直ちに画像入力処理部21に転送される(#
111)。画像入力処理部21に転送された画像データ
は画像編集部21aの働きで、モニタ4でその画像イメ
ージを確認しながらトリミングや拡大縮小等の編集処理
を行うことができる(#112)。編集処理された画像
データは、一旦画像データ格納部51に格納される(#
113)。
【0039】続いて、今回、音声コードイメージ化する
ためのソースデータとしてキーボード入力によるテキス
トデータを選択しているので、音声付き写真に組み込み
たい音声メッセージを文としてキーボード8aから入力
する(#114)。テキスト編集部23aはテキストエ
ディタとしての機能を有するので、キーボード8aを通
じて入力されたデータから文章を作成し、最終的にこの
テキストデータを編集合成に適したフォーマットに変換
して音声合成部30に送り出す(#115)。
【0040】編集合成プロセスでは、まず、この顧客が
予め音声登録しているかどうかをチェックする(#12
1)。音声登録している場合、その顧客の登録音声エレ
メントファイルがロードされる(#122)。この登録
音声エレメントファイルのロードに関して種々の形態が
あるが、ここでは代表的な2つの形態を紹介する。
【0041】第1のものは、顧客が、予め音声エレメン
ト登録装置によって、必要な語彙・フレーズを肉声で登
録し、その登録された語彙・フレーズを編集合成に適し
たフォマットでファイル化することによって得られた音
声エレメントファイルをメモリカードに記録しておく形
態である。音声登録しているかどうかのチェック段階で
カードリーダ7aに該当メモリカードを挿入することに
より、登録音声エレメントファイルが音声合成部30の
登録音声エレメント辞書36にロードされる。第2のも
のは、予め音声エレメント登録装置によって作成された
音声エレメントファイルを顧客IDをキーとして登録音
声エレメント辞書36に格納しておく形態であり、音声
登録しているかどうかのチェック段階で顧客IDを入力
することにより、この顧客の登録音声エレメントファイ
ルが以後の編集合成作業における登録音声エレメント辞
書36として使用されるように設定される。登録音声エ
レメント辞書36は、この音声・画像処理装置に内蔵さ
れるのではなく、通信回線でつながったサーバ内に設け
られることが望ましい。つまり、顧客IDを入力する
と、通信回線を通じて該当顧客の登録音声エレメントフ
ァイルが音声合成部30の登録音声エレメント辞書36
にロードされる構成とするのである。
【0042】音声登録していない場合、登録音声エレメ
ント辞書36に格納されている標準音声エレメントファ
イルが以後の編集合成作業における登録音声エレメント
辞書36として使用されるように設定される。(#12
3)。
【0043】いずれにしても、編集合成プロセスでは、
まず処理すべきテキストデータで表されいるメッセージ
文を語彙・フレーズに分解し(#124)、それぞれ
に、登録音声エレメント辞書36としての音声エレメン
トファイルから抽出された断片的な音声エレメントを割
り当て、合成音声データを生成する(#125)。
【0044】この合成音声データに声質変形処理が要求
されている場合(#25YES 分岐)、声質変形部34に
よって周波数線形変換等が施され(#26)、要求され
ていない場合(#25NO分岐)、合成音声データはその
ままコード変換部40に送られ、以下#31〜#33で
前述したように合成音声データの音声コードイメージ化
が行われ、生成された音声コードイメージは音声コード
イメージ格納部52に一旦格納される。
【0045】画像データ格納部51に記憶された画像デ
ータと、音声コードイメージ格納部52に記憶された音
声コードイメージは、予め選択されたテンプレートを用
いて画像・音声コードイメージレイアウト編集部61に
よってレイアウト編集処理がなされる(#40)。
【0046】画像・音声コードイメージ合成処理部62
は、画像イメージのデータと音声コードイメージのデー
タをレイアウト情報に基づいて一体化し、プリントデー
タを生成する(#41)。このプリントデータがプリン
タ3に送信されることにより、画像イメージと音声コー
ドイメージが専用シートにプリントされ、図3で示され
るような音声付き写真2として、装置前面に設けられた
プリント取り出し口に排出される(#50)。
【0047】上述した実施の形態では、画像データと音
声コードイメージは画像・音声合成処理部60によって
合成されていたが、画像・音声合成処理部60を省略し
て、このプリンタ3によってプリント出力されていた
が、画像データと音声コードイメージを別々のプリンタ
でプリント出力してもよい。その際、音声コードイメー
ジのプリント出力にシールプリンタで、音声コードイメ
ージを形成したシールを画像を形成したシート、例えば
写真プリントに貼り付けるように構成するとよい。
【0048】さらに上述した全ての実施の形態では、入
力されたテキストデータは、いったん音声合成部30で
合成音声データ化され、この合成音声データが音声コー
ドイメージに変換されていたが、テキスト入力処理部2
3で処理されたテキストデータを直接音声コードイメー
ジに変換することも可能である。そのような音声・画像
処理装置は、図8で示すように、音声合成部30が省略
された代わりに、コード変換部40に、テキストデータ
を所定の要素に断片化して得られたテキストエレメント
に順次対応する音声コードイメージを割り当てていくテ
キスト/音声コードイメージ置換部44と、テキストエ
レメントに対応する音声コードイメージを登録した音声
コードイメージ辞書45を備えている。つまり、テキス
トを構成する語彙やフレーズに対応する音声コードイメ
ージを当てはめながら順次つなぎ合わせていくことによ
り最終的な音声コードイメージを作り出すのである。
【図面の簡単な説明】
【図1】本発明による音声・画像処理装置の1つの実施
形態を示す外観図
【図2】図1による音声・画像処理装置の機能ブロック
【図3】音声・画像処理装置によって作成された音声付
き写真から音声を再生する様子を示す説明図
【図4】図2に示された音声・画像処理装置を用いた音
声付き写真の作成手順を示すフローチャート
【図5】本発明による音声・画像処理装置の別実施形態
を示す機能ブロック図
【図6】図5による音声・画像処理装置の外観図
【図7】図5に示された音声・画像処理装置を用いた音
声付き写真の作成手順を示すフローチャート
【図8】本発明による音声・画像処理装置のさらに別な
実施形態を示す機能ブロック図
【符号の説明】
2 音声付き画像シート(音声付き写真) 3 プリント部(銀塩写真プリンタ、昇華型熱転写プリ
ンタ) 21 画像入力部 22 音声入力部 23 テキスト入力処理部 24 文字認識部 30 音声合成部 31 テキスト音声合成部 32 テキスト解析用辞書 33 合成音声エレメント辞書 34 声質変形部 35 音声編集合成部 36 登録音声エレメント辞書 60 画像音声合成処理部
フロントページの続き Fターム(参考) 5C052 AA11 DD06 EE08 FA02 FA03 FE01 GA02 GA05 GB07 GD03 GE08 5C062 AA05 AB17 AC02 AC29 AE02 AE07 AE08 AE11 5D045 AA20 BA01

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】音声データを光学的に読み取り可能なよう
    にコード化された音声コードイメージに変換するコード
    変換部と、音声付き画像シートを作成するために前記音
    声コードイメージと画像データに基づく画像イメージを
    プリントするプリント部を備えた音声・画像処理装置に
    おいて、 入力されたテキストデータを処理するテキスト入力処理
    部が備えられ、かつ前記テキスト入力処理部で処理され
    たテキストデータに基づいてこのテキストデータの音声
    を再生する音声コードイメージが生成されることを特徴
    とする音声・画像処理装置。
  2. 【請求項2】前記テキスト入力処理部で処理されたテキ
    ストデータに基づいて合成音声データを生成する音声合
    成部が備えられ、前記コード変換部が前記音声合成部で
    生成された合成音声データを前記音声コードイメージの
    ためのソース音声データとして使用することを特徴とす
    る請求項1に記載の音声・画像処理装置。
  3. 【請求項3】前記音声合成部は、テキスト解析用辞書を
    用いて入力テキストデータを解析することでその読みを
    同定するとともにさらにアクセントと韻律を設定して得
    られた音韻系列から合成音声エレメント辞書を用いて合
    成音声データを生成するテキスト音声合成部を備えてい
    ることを特徴とする請求項2に記載の音声・画像処理装
    置。
  4. 【請求項4】前記合成音声エレメント辞書に格納される
    合成音声エレメントは個人別で登録された肉声データに
    基づいて作製されていることを特徴とする請求項2に記
    載の音声・画像処理装置。
  5. 【請求項5】前記音声合成部は、入力テキストデータを
    予め登録された語彙やフレーズの肉声データを格納して
    いる登録音声エレメント辞書を用いて断片的に順次合成
    音声データに変換する音声編集合成部を備えていること
    を特徴とする請求項2に記載の音声・画像処理装置。
  6. 【請求項6】前記登録音声エレメント辞書は、個人別で
    登録された肉声データを格納していることを特徴とする
    請求項5に記載の音声・画像処理装置。
  7. 【請求項7】前記音声合成部は前記合成音声データの声
    質を変形させる声質変形部を備えていることを特徴とす
    る請求項2〜6のいずれかに記載の音声・画像処理装
    置。
  8. 【請求項8】文字認識装置が追加的に備えられており、
    この文字認識装置によって出力されたテキストデータが
    音声コードイメージ変換に用いられることを特徴とする
    請求項1〜7のいずれかに記載の音声・画像処理装置。
JP2000208021A 2000-07-10 2000-07-10 音声・画像処理装置 Expired - Fee Related JP4319334B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000208021A JP4319334B2 (ja) 2000-07-10 2000-07-10 音声・画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000208021A JP4319334B2 (ja) 2000-07-10 2000-07-10 音声・画像処理装置

Publications (2)

Publication Number Publication Date
JP2002027177A true JP2002027177A (ja) 2002-01-25
JP4319334B2 JP4319334B2 (ja) 2009-08-26

Family

ID=18704679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000208021A Expired - Fee Related JP4319334B2 (ja) 2000-07-10 2000-07-10 音声・画像処理装置

Country Status (1)

Country Link
JP (1) JP4319334B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007135110A (ja) * 2005-11-11 2007-05-31 Ricoh Co Ltd 画像形成装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231466A (ja) * 1992-09-28 1994-08-19 Olympus Optical Co Ltd ドットコード及びそれを記録再生するための情報記録再生システム
JPH0887289A (ja) * 1994-09-19 1996-04-02 Fujitsu Ltd 音声規則合成装置
JPH08335096A (ja) * 1995-06-07 1996-12-17 Oki Electric Ind Co Ltd テキスト音声合成装置
JP2000075874A (ja) * 1998-09-01 2000-03-14 Sharp Corp 情報処理装置および情報処理コンピュータプログラムを記録した記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231466A (ja) * 1992-09-28 1994-08-19 Olympus Optical Co Ltd ドットコード及びそれを記録再生するための情報記録再生システム
JPH0887289A (ja) * 1994-09-19 1996-04-02 Fujitsu Ltd 音声規則合成装置
JPH08335096A (ja) * 1995-06-07 1996-12-17 Oki Electric Ind Co Ltd テキスト音声合成装置
JP2000075874A (ja) * 1998-09-01 2000-03-14 Sharp Corp 情報処理装置および情報処理コンピュータプログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007135110A (ja) * 2005-11-11 2007-05-31 Ricoh Co Ltd 画像形成装置

Also Published As

Publication number Publication date
JP4319334B2 (ja) 2009-08-26

Similar Documents

Publication Publication Date Title
KR100805811B1 (ko) 영상 처리 장치 및 음성 코드화 기록 매체
US5802179A (en) Information processor having two-dimensional bar code processing function
US6873687B2 (en) Method and apparatus for capturing and retrieving voice messages
KR100313737B1 (ko) 음성코드 이미지를 가지는 기록매체 작성장치
JP2011043716A (ja) 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
US20060257827A1 (en) Method and apparatus to individualize content in an augmentative and alternative communication device
JP2002041502A (ja) ドキュメント作成システム及びドキュメント作成方法
JP4818415B2 (ja) 電子漫画製造装置及び電子漫画製造方法
US20120120446A1 (en) Method and system for generating document using speech data and image forming apparatus including the system
JP3757565B2 (ja) 音声認識画像処理装置
JPH11175092A (ja) オーディオから派生したテキストのイメージとの関連付け
JP2001075581A (ja) 電子漫画製造装置および電子漫画出力装置
JP2001333378A (ja) 画像処理機及びプリンタ
JP4042015B2 (ja) 文字合成出力装置及び方法
JP4319334B2 (ja) 音声・画像処理装置
CN113382123A (zh) 扫描系统、存储介质以及扫描系统的扫描数据生成方法
KR102709393B1 (ko) 자기주도 암기학습 장치 및 그 방법
JPH11317025A (ja) マルチメディア記録媒体の再生装置、再生方法ならびに記録媒体への記録方法
JPH07146919A (ja) 文書作成補助装置
JPH11175308A (ja) 文書読み上げ音声の声色指定方法
JP2006267934A (ja) 議事録作成装置および議事録作成処理プログラム
JPH05249995A (ja) マルチメディア処理装置
JP2001142817A (ja) ホームページ画像作成装置
JPH11344996A (ja) 発音文書作成装置、発音文書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11154151A (ja) 文書編集システム及び文書編集装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090521

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090528

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130605

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees