TW200407710A

TW200407710A - Dialog control for an electric apparatus

Info

Publication number: TW200407710A
Application number: TW092112722A
Authority: TW
Inventors: Martin Oerder
Original assignee: Koninkl Philips Electronics Nv
Priority date: 2002-05-14
Filing date: 2003-05-09
Publication date: 2004-05-16
Also published as: RU2336560C2; JP2005525597A; TWI280481B; EP1506472A1; PL372592A1; AU2003230067A1; WO2003096171A1; US20050159955A1; BR0304830A; CN100357863C; CN1653410A; RU2004136294A

Description

200407710 玖、發明說明：技術領域本發明揭示-種包括用於拾取及辨識語音訊號之構件之裝置，以及一種讓使用者與一電氣裝置通信之方法。已知之語音辨識構件可將所拾取之聲學語音訊號指定給對應語詞或對應語詞序列。語音辨識系統通常與語音合成相、'.“，作控制電氣裝置之對話系統。與使用者之對話可作為操作該電氣裝置之唯一介面。亦可將語音輸入甚至輸出作多種溝通方式當中的一種。先前技術美國專利第US-A-6，1 1 8,888號描述了一種控制裝置以及一種控制電氣裝置（譬如電腦）或娛樂電子領域所用裝置之方法。為控制該裝置，使用者有權支配複數個輸入設備。孩等設備為機械輸入設備（譬如鍵盤或滑鼠）以及語音辨識設備。此外’該控制裝置包括一攝影機，其可拾取使用者的手勢及擬態’並可將其處理後作為進一步的輸入訊號。與使用者之溝通係以對話形式實現，其中該系統具有複數個模式可供支配，以向使用者傳送資訊。其包括語音合成及吾首輸出。尤其亦包括擬人化圖像，譬如人、人臉或動物的圖像。該圖像係以電腦圖形的形式在顯示幕上顯示給使用者。儘管目前對話系統已用於各種特殊應用，譬如電話資訊系統，但在諸如家用領域内之控制電氣裝置、娛樂電子等其他領域之應用則仍然未獲廣泛認可。 85329 200407710 發明内容本發明之一項目的係提供一 — 禮包括拾取構件以用於辨識語晋訊號之裝置，以及一種和 > #作—電氣裝置之方法，該電氣裝置讓使用者可藉由注立松庄τ 一、田％曰控制輕鬆操作該裝置。藉由如申凊專利範圍第1项壯、 /、 k且以及如申請專利範圍第π項之方法可實現本目的。其定義了本發明之較佳具體實施例根據本發明之裝置包括一可機^ 他申請專利範圍附屬項則〇械地移動之擬人化元件。其為該裝置之H，該裝置係作為使用者之擬人化對話夥伴。該種擬人化元件之具體實施可能差異很大。譬如，其可為可藉由馬達相對於電氣裝置之固定外殼移動之外殼的邛刀。關键在於該擬人化元件具有一使用者可辨識無疾（A側。若此前側朝向該使用者，他將感覺到該裝置是 "注意傾聽π的，即其可接收語音指令。根據本發明，該裝置包括用於判定使用者位置之構件。此可經由諸如聲音或光學感應器來實現。該擬人化元件之運動構件係被控制以使該擬人化元件之前側朝向該使用者之位置。如此使得使用者始終感覺該裝置準備”聆聽”他講話0 根據本發明之另一項具體實施例，該擬人化元件包括_ 擬人化圖像◦此不僅可為一人或動物之圖像、亦可為一虛幻角色（譬如機器人）之圖像。較易被接受的為人臉之圖像。其可為寫實或象徵性的圖像，譬如其中僅顯示出眼、鼻、口等之輪廓。 85329 -6- 200407710 該裝置最好亦包括供給語音訊號之構件。語音辨識對於控制電氣裝置的確尤其重要，然而，回答、確認、查詢等亦可以語音輸出構件實現。語音輸出可包括再現預存的語音訊號，以及真實的語音合成。可以語音輸出構件實現一完整的對話控制。亦可與使用者對話，以實現為其提供娛樂之目的。根據本發明之另一項具體實施例，該裝置包括複數個麥克風及/或至少一個攝影機。語音訊號由一單一麥克風即可拾取。然而，當使用複數個麥克風時，一方面可達成一拾取模式，另一方面亦可藉由通過複數個麥克風接收使用者之語音訊號來查明使用者位置。可以一攝影機來觀察該裝置之環境。藉由對應的影像處理，亦可根據所拾取之影像判定使用者之位置。麥克風、攝影機及/或用於供給語音訊號之揚聲器可安排在可機械地移動之該擬人化元件上。譬如，對於一人頭形式之擬人化元件，可在眼部區域内安置兩架攝影機，在嘴部位置安置一揚聲器，以及靠近耳部位置安置兩個麥克風。最好係配備用以辨識使用者之構件。此係可藉由譬如評估所拾取之影像訊號（視覺或臉部辨識）或藉由評估所拾取之聲音訊號（語音辨識）來實現。因而該裝置可從該裝置環境内的若干人中判定當前使用者，並使該擬人化元件面向該使用者。可以多種不同方式配置該運動構件以機械地移動該擬人化元件。譬如，該等構件可為電動馬達或液壓調整構件。 85329 200407710 亦可藉由該運動構件以移動該擬人化元件。然而，該擬人化7L件最好僅可相對於一固定部分轉動。舉例而言，在本例中’其可圍繞一水平及/或垂直軸轉動。根據本發明之装置可形成電氣裝置之一部分，諸如用於娱樂電子之裝置（譬如電視、音訊及/或視訊之播放裝置，等等）°在本例中，該裝置代表該裝置之使用者介面。此外，該裝置亦可包括其他作業構件（鍵盤等）。或者，根據本發明之裝置亦可為一獨立裝置，作為控制一或多個獨立電氣裝置足控制裝置。在本例中，待控制之該等裝置具有一電氣控制終端機（譬如無線終端機或合適之控制匯流排），經由該終端機’該裝置根據所接收之使用者語音指令來控制該裝置。根據本發明之裝置可特別地作為使用者之資料存儲及/ 或查沟系統之介面。為此，該裝置包括内部資料記憶體，或該裝置係經由諸如電腦網路或網際網路與一外部資料記憶體連接。使用者可在對話時存儲資料（譬如電話號碼、備 :&錄等等）或査詢貧料（譬如時間、新聞、最新電視節目表等等）。此外，與使用者之對話亦可用於調整該裝置自身之參數，以及改變其組態。當配有提供聲音訊號之揚聲器以及拾取該等訊號之麥克風時，即可提供具有干擾抑制的訊號處理，即處理所拾取聲音訊號之方式可抑制部分來自揚聲器之聲音訊號。當揚聲器及麥克風在空間上相鄰排列，譬如排列在該擬人化元 85329 件上時，此點尤為有利。除上述利用該裝置使用者進行對話，以服=子裳置外’亦可將其用於與 ^ # ^ , 力万他目的，諸如資訊、娛樂或向使用者發出指示。根櫨、備有可藉以進行對⑽ 月之另-項具體實施例，配時，^^❹者發出指示㈣話構件。此時，對活万式最好既可給之回答。該等指示可為複又可拾取使用者物件提問，譬如外語詞彙，並卞白答（如外語中+ 一致毛 /、中扣不（如—語詞之定義）及回〜PQ D§])均相對較短。對話係在使用者與該擬化：件，間進行’且可採取視覺及/或音訊方式實施。本發明提出一種可能有件（諸如外語詞彙）存错ϋ自万法’即將一組學習物果）存储起來，其中對於每個學習物件存儲至 V —個問題（譬如定義）、一安個a衣（i如詞彙）以及最近一次 -使用者k問後或該使用者正確回答提問後所經歷時間之 -種量龍。在對話中，逐個選取並提問學習物件係向該使用者提問，而將使用者之回答與存儲之答案比較。待k出作為問題之學習物件之選取係考慮到所存儲之計時量測值，即自悬折_、A 乂丄斗丄、、目取近，人針對孩物件提問後所經過的時間經由（譬如）—適宜之學習模式來實現，該模式具有假錯料。此外，㈣時間量測值外，在選取時亦可將相關性程度納人考量，來評估每個學習物件。結合下列具體實施例’將更清楚的瞭解本發明之這些及其它方面。 85329 200407710 圖1係控制裝置10以及受此裝置控制之裝置12的方塊圖。控制裝f1G之㈣為針對使用者之擬人化元件14。麥克風揚耳1 8及針對使用者位置之位置感應器（此處為攝影機此形式）㈣在擬人化元件14上。此料件共同構成一機械罕兀22。該擬人化元件u以及機械單元22藉由馬達 24圍、'兀垂直軸轉動。—中央控制單元％經由—驅動電路 28控制該馬達24。她人化元件14係一獨立機械單元。其具有使用纟可辨識無誤之一前側。麥克風]6、揚聲器㈣及攝影機20排列在擬人化元件14上，朝向此前側之方向。孩麥克風16提供聲音訊號。此訊號由拾取系統3〇拾取，並由語首辨識單元32處理。該語音辨識結果，即指定給拾取之耸首訊號之語詞序列，被傳送至中央控制單元％。為中央控制單元26亦控制一語音合成單元34，其經由_ 發聲單元3 6及揚聲器1 8提供合成語音説號。该攝景> 機20所拾取之影像由該影像處理單元3 8處理。該象處理單元38根據攝影機20提供之影像訊號判定使用者之位且。该位置寅说被傳送至該中央控制單元2 $。忒機械單元2 2係作為一使用者介面，該中央控制單元2 6 經由該機械單元接收來自使用者之輸入（麥克風丨6、語音辨哉單元32)，並回答使用者（語音合成單元34、揚聲器18)。在本例中，該控制單元1 0係用於控制一電氣裝置1 2，璧如 —娛樂電子領域所用裝置。圖1中僅象徵性地表示出該控制裝置1 〇之功能性單元。不同單元，譬如中央控制單元26、語音辨識單元32及影像處 85329 -10 - 200407710 理單元3 8，在一且歸尚 t 、 “睹笑杈中可以獨立群組方式存在。同樣地’亦可以純粹軟體 — 卜乃式/目、她琢寺早凡，其中可藉由在一中央早兀上執行余式不㈢現禝數個或所有該等單元之功能性。该寺早兀在命門 \ -j- 二间上不必彼此或與該機械單元22相鄭。該機械單元22，亦即耘、，乂 f但並非必要排列在此元上人化元件14以及來力m r 克風16、揚聲器]8和感應器2〇，可與控制裝置]0之其餘部分分班 __ 刀開女且，且僅經由線路或無線連接與之進行訊號連接。 =作中’轉制裝置1Q不斷探查其鄰近是否有使用者曰判疋使用者位置後，該中央控制單7t26即控制馬達24 ，令擬人化元件10之前側朝向該使用者。奋亥；5^像處理早元3 8 ~ 二、亚包括面邵辨識。當該攝影機20提供複數個人之影像時，係葬由、、、 r 你稭由面邯辨識來判疋誰為系統已知之使用者。然後令兮I > 7 d k人化兀件14朝向該使用者。當配有複數個麥克風時，i以、b 、万式處理該等麥克風發出之訊號，以便祕已知使用者位置方向上之拾取模式。此外，料設定該影像處理單元38之實施方式，使其可 "理解’’攝影機2 0所於取夕遍奸口口叮心取&機械早元22附近之景象。接著，可將相應景象指定給若干預先定義之狀態。譬如，以此方式’该中央#制單元26可得知房間内是有—人或有多人。該單元亦可辨識及指認使用者的行為，即：諸如該使用者是正注視該機械軍& 9 9 > 士 & 錢早7L22m或是正與他人交談。藉由評估所辨識之狀態，可顯著改進辨識能力。譬如，可避免 85329 -11 - 200407710 將兩人間之部分對話錯誤地理解為語音指令。與使用者對話時，該中央控制單元會判定其輸入，並相應地fe制該裝置1 2。可以如下方式對話，來控制聲音再生裝置12之音量： -使用者改變其位置並面向該擬人化元件14。藉由馬達 24的不斷引導該擬人化元件14，令其前側朝向該使用者。為此，根據判定之使用者位置，藉由裝置1〇之中央控制單元26控制驅動電路28 ; 使用者發出語音指令，譬如"電視音量"。麥克風1 6拾取4 ^曰扣令，並由語音辨識單元3 2進行辨識；中央控制單元26作出反應，經由語音合成單元34以揚常器18提問：”升高或降低？，，：使用者發出浯首指令"降低"。辨識語音訊號後，中央控制單元26控制裝置12，使音量降低。圖2係具有整合式控制裝置之電氣裝置40的透視圖。該圖 ^ ^工制衣置1 0之擬人化元件14，該元件可圍繞一垂直轴相對於m裝置4Q之固定外殼42轉動。在此實例中，該擬人化元件且古、一 ’烏平矩形之形狀。攝影機20及揚聲器18 目^示' 係位y{印丨抑 ^ 4上。兩麥克風16係排列在側面。機械早元2 2係精由_1民、去 ’建（未顯示）轉動，使得前側始終指向使用者方向。 /、/、l貝施例（未顯示）中，圖1之裝置1 〇並非用於控制裝置12，而# 、… '、於進行對話，其目的在指示使用者。中央控制單元2 61彳f — 订—可供使用者學習外語之學習程式。記 85329 -12 - 200407710 =:=::_件。該等物件係個別資料組，每組 (在該語言中出現之頻率）之評估1」、“狀關聯性料紀錄φ、 ^ 里、心以及自最近提出資 3中义問畸後經過時間之時間量測值。匕時在逐個選取並提問之數據★己錄中$ 習單 ^-己塚中執行該對話之學白早兀。在此情況下，給予使 ,^ x J考一#曰不，即以光學顧示或’耳首播放資料記錄中存儲键…人么者《…拾取使用者藉由(譬如）鍵|的輪入，且較佳地由麥克 i人i 士门斤次啟動自動語晋辨識32 知取〜回谷，並將其與已存答案（詞彙告知答案是不判# A T i I存儲。使用者被。木疋口刦疋為正確。若复鸯正確答案，納曰、… 使用者會被告知咨拉、，„ & f新回合又機會。如此處理貝枓屺錄後，所存最近一次接設為零。人挺問後<計時獲得更新，即重 k後，選取並查詢下一資料記錄。藉由一記憶模型選取待杳詢 d又貝枓1己錄。以公式 P(k) = exp(-t(k)*r(c(k)))表示一筒川衣間早吕己憶模型，豆中P(k)代表 !人知曉學習物件k之機率’叫代表指數函數、，雜表自 ^迎提問以來之時間，e(k)代表物件之學習級別，轉 :係學習級別之特定錯誤率。t可表示時間。亦可在學習步 #中給疋時間t。學習級別可以 1 U 1通且万式來足義。一可仃模式係給被答對N次之物件泛|彻M σϊ 忏又母個^^〇指定一相應級別。至於錯誤率，可假設一適宜、、、〜口疋值，或選擇一通宜 I初始值，並以一種梯度演算法調整。才曰示足目的係最大化知識的度量。 ,^ 規又此知識度Τ為整 85329 -13 - 200407710 :!習Π之部分，為使用者知曉，1以相關性量測值來 ΓΓ二=髮物件k之問題令機娜)成為因而，為 I 4心’應在每—步中提問知識機率為P(k)最低模量測警刚、^ ::，可在母步後計算知識度量並顯示給使料。將該方、、、化*以邊使用者盡可能廣泛地獲取當前學習物件組 j4 11由使用良好之記憶模型，可依此達成有效之學習策略。可對上逑對活式查詢進行多種修改及進一步改良。譬如問碭（疋義）可具有複數個正確答案（詞彙）。譬如，可考慮，用所存相關性量測值來強調更為相關（更常則之語詞 :如，相應學習物件組可包括數千個語詞。該等可為譬如卞白物件’即給足用途(譬如文學、商冑、技術領域等等）之具體詞彙。、’心〜，本發明涉及一種包括用於拾取及辨識語音訊號之構件的裝置，以及一種與一電氣裝置溝通之方法。該裝置包括一可機械地移動之擬人化元件。判定使用者位置，且居擬人化元件（其可包括諸如一人臉之圖像）之移動方式可使其七側指向該使用者位置之方向。麥克風、揚聲器及/或才砰影機可排列在該擬人化元件上。使用者可與該裝置進行語音對話’其中該裝置為擬人化元件之形式。可根據使用者語晋輸入控制一電氣裝置。亦可為實現指示使用者之目的而進行使用者與該擬人化元件之對話。 85329 -14- 200407710 在圖式中。圖1係一控制裝置之元件方塊圖；圖2係包括一控制裝置之電氣裝置的透視圖。圖式代表符號說明 10 控制裝置 12 裝置 14 擬人化元件 16 麥克風 18 揚聲器 20 攝影機 22 機械早元 24 馬達 26 中央控制單元 28 驅動電路 30 拾取系統 32 語音辨 Ί线單元 34 語晋合成單元 36 發聲單元 38 影像處理口口早元 40 裝置 42 固定機殼 44 前側 -15 - 85329

Claims

200407710 拾、申請專利範圍： 1. 一種裝置，其包括： -用於拾取及辨識語音訊號（30、32)之構件，及 ‘ -具有一前側（44)之一擬人化元件（14)，以及用於機械地移動該擬人化元件（14)之運動構件（24)，其中： -配置有用於判定使用者位置之構件（3 8);及 -控制該運動構件（24)之方式使得該擬人化元件（14) 之箾側（4 4)指向該使用者位置之方向。 2·如申請專利範圍第1項之裝置，其中配置有提供語音訊籲號之構件（34、36、18)。 3.如莉述申請專利範圍中任一項之裝置，其中該擬人化元件（14)包括一擬人化圖像，尤其係一人臉之圖像。 4 ·如前述申請專利範圍中任一項之裝置，其中：配備有複數個之麥克風（16)及/或至少一個攝影機 (20); 居麥克風（16)及/或該攝影機（2 〇)較佳地配置於該擬人化元件（14)上。鲁 5. 如前述申請專利範圍中任一項之裝置，其中配備有用於識別至少一個使用者之構件。 6. 如前述申請專利範圍中任一項之裝置，其中該運動構件 (24)使該擬人化元件（14)可圍繞至少一個軸轉動。 7. 如说述申請專利範圍中任一項之裝置，其中配備有至少一個外邵電氣裝置（12)，其係由該等語音訊號所控制。 8. 如前述申請專利範圍中任一項之裝置，其中： 85329 -配備有至少—伽ra、λ 個用於提供音響訊號之揚聲哭 _配備有至少—個阳' 每耳，及及其中：個用於拾取音響訊號之麥克風（16);以 -配備有用於虛：、里所拾取之該等音響訊號之一祧_ 理單元（30)，复φ如、、處 %& /、 Q $源於該揚聲器（18)所發出聲唬（訊號係受到抑制。耳曰讯 9.如前述申請專利笳 Λ , 中j 一項之裝置，其中配備有用於為‘不使用者之目的摄及/或藉聲立m τ “义構件，對話中係以視覺或一失古、'、&予該使用者指並藉由-键盤及/ 或一 4克風拾取該使用者之回答。 1 0.如申請專利範圍第9 士甘b、 η ^ ^ 1，其中孩對話構件包括存儲一套學習物件之構件，其中·· -對於每個學f物件存儲至少—條指示、—個答案以及使用者處理該指示所用時間之一项量測值及構件之形成方式使得可藉由指示該使用者並斯^亥使用者之艾奮盒邮六 , 木舁所存儲答案比較來選擇並查詢學習物件；且其中 -在選取學習㈣時考細所㈣之量測值。 ].一種在使用者與電氣裝置叫之間通信的方法，其中包栝· -判定一使用者之位置； -移動-擬人化元件（14)，使得該擬人化元件（14)之前側（4 4)指向該使用者之方向；以及 _拾取並處理該使用者之語音訊號。 200407710 1 2.如申請專利範圍第1 1項之方法，其中係根據所拾取之該等語音訊號以控制該電氣裝置（1 2)。 85329