TWI663594B

TWI663594B - 根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器及系統

Info

Publication number: TWI663594B
Application number: TW107113355A
Authority: TW
Inventors: 陳伯豪
Original assignee: 陳伯豪
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2019-06-21
Also published as: TW201944391A

Abstract

一種根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器及系統。行動裝置接收視訊或音訊之聲音，根據聲音產生聲紋訊號。行動裝置根據聲紋訊號以及資料庫之聲紋比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據。行動裝置根據視訊或音訊數據提供相關於視訊或音訊之語言學習資訊。

Description

根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器及系統

本發明係關於根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器、系統及其方法；更具體而言，本發明之行動裝置、伺服器、系統及其方法係用於辨識視訊聲音或音訊聲音，以提供相應於視訊對白內容或音訊歌詞內容之語言學習資訊。

近年來，由於電腦及網際網之路科技的迅速發展，人們有各式各樣的管道與資源進行學習語言。其中，部分的人們喜歡藉由觀看影片(例如：戲劇、電影等)或聆聽歌曲(例如：音樂、歌劇等)之方式來學習語言，惟往往受限於本身語言程度、影片或歌曲之口音或是字幕之有無等原因，而在觀看影片或聆聽歌曲時無法同時有效率地學習語言。

而就習知之裝置觀之，並未同時具有聲音辨識以及根據聲音辨識結果提供教學內容的功能，因此，使用者無法在影片或歌曲播放之同時，即時地獲得關於影片對白內容或歌曲歌詞內容之資訊。

有鑑於此，如何在觀賞影片或聆聽歌曲之同時，藉由一個同時具有聲音辨識以及資訊提供之整合裝置，正確且有效率地提供對應於影片對白內容或歌曲歌詞內容之語言學習資訊給使用者，乃當前亟需努力之目標。

為解決前述問題，本發明提供了一種根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器、系統及其方法。

本發明所提供之根據視訊或音訊之聲音提供語言學習資訊之行動裝置，行動裝置包含聲音接收器以及處理器，聲音接收器與處理器電性連接。聲音接收器用以自影音裝置接收視訊或音訊之聲音。處理器用以：根據聲音產生聲紋訊號，根據聲紋訊號以及資料庫之聲紋比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據，以及根據視訊或音訊數據提供關於視訊或音訊之語言學習資訊。

本發明所提供之根據視訊或音訊之聲音提供語言學習資訊之伺服器，伺服器包含處理器、收發器以及儲存器，處理器電性連接於收發器以及儲存器。儲存器用以儲存資料庫。收發器用以自行動裝置接收視訊或音訊之聲音。處理器用以：根據聲音產生聲紋訊號，根據聲紋訊號以及資料庫之聲紋比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據，以及根據視訊或音訊數據提供關於視訊或音訊之語言學習資訊至行動裝置。

本發明所提供之根據視訊或音訊之聲音提供語言學習資訊之系統，系統包含行動裝置以及伺服器，行動裝置與伺服器具有網路連線，伺服器儲存資料庫。行動裝置用以：自影音裝置接收視訊或音訊之聲音，根據聲音產生聲紋訊號，以及傳送聲紋訊號至伺服器。伺服器用以：根據聲紋訊號以及資料庫之聲紋比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據，以及根據視訊或音訊數據提供關於視訊或音訊之語言學習資訊至行動裝置。

本發明所提供之根據視訊或音訊之聲音提供語言學習資訊之方法，適用於行動裝置。方法包含下列步驟：行動裝置自影音裝置接收視訊或音訊之聲音，行動裝置根據聲音產生聲紋訊號，行動裝置根據聲紋訊號以及資料庫之聲紋比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據，以及行動裝置根據視訊或音訊數據提供相關於視訊或音訊之語言學習資訊。

本發明所提供之根據視訊或音訊之聲音提供語言學習資訊之方法，適用於伺服器。方法包含下列步驟：伺服器自行動裝置接收視訊或音訊之聲音，伺服器根據聲音產生聲紋訊號，伺服器根據聲紋訊號以及資料庫之聲紋比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據，以及伺服器根據視訊或音訊數據提供相關於視訊或音訊之語言學習資訊至行動裝置。

本發明所提供之根據視訊或音訊之聲音提供語言學習資訊之方法，適用於包含行動裝置及伺服器之系統。方法包含下列步驟：行動裝置自影音裝置接收視訊或音訊之聲音，行動裝置根據聲音產生聲紋訊號以及傳送聲紋訊號至伺服器，伺服器根據聲紋訊號以及資料庫之聲紋比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據，以及伺服器根據視訊或音訊數據提供相關於視訊或音訊之語言學習資訊至行動裝置。

此外在參閱圖式及隨後描述之實施方式後，本領域技術人員便可瞭解本發明之其他目的，以及本發明之技術手段及實施態樣。

11、21、31、41、51、61‧‧‧行動裝置

13‧‧‧影音裝置

6‧‧‧系統

33、53、63‧‧‧伺服器

111‧‧‧聲音接收器

113、533‧‧‧處理器

115、535‧‧‧儲存器

117、537‧‧‧收發器

119‧‧‧顯示單元

701、702、703、704、704s、705‧‧‧步驟

1001、1002、1003、1004、1004s‧‧‧步驟

1201、1202、1203、1204、1204s‧‧‧步驟

DB‧‧‧資料庫

D1‧‧‧聲紋比對數據

D2‧‧‧視訊或音訊數據

D3‧‧‧語言學習資訊

V1‧‧‧聲音

S1‧‧‧聲紋訊號

第1A圖係第一實施方式之根據視訊或音訊之聲音提供語言學習資訊之行動裝置之方塊圖；第1B圖係第一實施方式之根據視訊或音訊之聲音提供語言學習資訊之行動裝置之操作示意圖；第2圖係第二實施方式之根據視訊或音訊之聲音提供語言學習資訊之行動裝置之方塊圖；第3圖係第三實施方式之根據視訊或音訊之聲音提供語言學習資訊之行動裝置之方塊圖；第4圖係第四實施方式之根據視訊或音訊之聲音提供語言學習資訊之行動裝置之方塊圖；第5A圖係第五實施方式之根據視訊或音訊之聲音提供語言學習資訊之伺服器之操作示意圖；第5B圖係第五實施方式之根據視訊或音訊之聲音提供語言學習資訊之伺服器之方塊圖；第6A圖係第六實施方式之根據視訊或音訊之聲音提供語言學習資訊之系統之操作示意圖；第6B圖係第六實施方式之根據視訊或音訊之聲音提供語言學習資訊之系統之方塊圖；第7圖係第七實施方式之根據視訊或音訊之聲音提供語言學習資訊之方法之流程圖；第8圖係第八實施方式之根據視訊或音訊之聲音提供語言學習資訊之方法之流程圖；第9圖係第九實施方式之根據視訊或音訊之聲音提供語言學習資訊之方法之流程圖；第10圖係第十實施方式之根據視訊或音訊之聲音提供語言學習資訊之方法之流程圖；第11圖係第十一實施方式之根據視訊或音訊之聲音提供語言學習資訊之方法之流程圖；第12圖係第十二實施方式之根據視訊或音訊之聲音提供語言學習資訊之方法之流程圖；以及第13圖係第十三實施方式之根據視訊或音訊之聲音提供語言學習資訊之方法之流程圖。

以下將透過實施方式來解釋本發明所提供之一種根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器、系統及其方法。然而，本發明的實施方式並非用以限制本發明需在如實施方式所述之任何環境、應用或方式方能實施。因此，關於實施方式之說明僅為闡釋本發明之目的，而非用以限制本發明之範圍。應理解，在以下實施方式及圖式中，與本發明非直接相關之元件已省略而未繪示，且各元件之尺寸以及元件間之尺寸比例僅為例示而已，而非用以限制本發明之範圍。

請先參考第1A以及1B圖，本發明之第一實施方式係關於一種根據視訊或音訊之聲音提供語言學習資訊之一行動裝置11。第1A圖係行動裝置11之方塊圖，行動裝置11包含一聲音接收器111以及一處理器113，且處理器113電性連接於聲音接收器111。須說明者，本領域技術人員應可理解，行動裝置11可為一智慧型手機(smart phone)、一平板(Tablet)、一筆記型電腦(notebook computer)或其他電子裝置。處理器113可為各種處理單元、中央處理單元(Central Processing Unit；CPU)、微處理器或其他具有計算能力之電路。聲音接收器111可為聲音接收電子元件或其他具有聲音接收能力之電子元件。

接著，請同時參閱第1B圖，第1B圖係行動裝置11之操作示意圖，行動裝置11之聲音接收器111可自影音裝置13接收一視訊或音訊之一聲音V1，並傳送聲音V1至處理器113。處理器113根據聲音V1產生一聲紋訊號S1，根據聲紋訊號S1以及一資料庫DB之一聲紋比對數據D1，判斷視訊或音訊係對應於資料庫DB之一視訊或音訊數據D2。隨後，處理器113可根據視訊或音訊數據D2提供關於視訊或音訊之一語言學習資訊D3。

須說明者，視訊可為一影片，音訊可為一歌曲，視訊或歌曲之聲音包含一言語表達資訊(即一語音內容)。影片可為一電影、一戲劇、一連續劇、一短劇等具有對白內容之影片，歌曲可為一音樂、一樂曲、一歌劇等具有歌詞內容之歌曲。視訊或音訊之聲音V1之接收時間長度可根據一影片對話、一歌曲歌詞或一時間區間等來決定，亦可由一使用者自行設定。此外，聲音V1之語言類別可為英文、日文、西班牙文、法文、韓文或中文等，惟非侷限於此。聲音V1可包含一或多個聲音片段，俾處理器113後續產生相對應之一或多個聲紋訊號S1。在某些實施方式中，可由聲音接收器111實現產生聲紋訊號S1之功能，而非處理器113。

資料庫DB可儲存有多個視訊或音訊之聲紋比對數據D1以及多個視訊或音訊之視訊或音訊數據D2，且各視訊或音訊數據D2與一聲紋比對數據D1具有對應關係，例如但不限於：一聲紋比對數據可對應至一視訊或音訊數據，或是一聲紋比對數據可對應至多個視訊或音訊數據。聲紋比對數據D1可包含一視訊或音訊之特定時間區間聲音之聲紋(例如：開始後的1分鐘或是第2分鐘到第3分鐘)或所有時間區間聲音之聲紋，俾與處理器113所產生之聲紋訊號S1進行聲紋辨識判斷視訊或音訊數據D2。視訊或音訊數據D2可包含影片名稱、歌曲名稱、編號、撥放時間軸、對白內容或歌詞內容等，俾後續提供相應之語言學習資訊D3。

語言學習資訊D3係儲存於資料庫DB中，或可獨立地儲存於資料庫DB中的一語言教材資料庫。語言學習資訊D3可包含單字、文法、音標、例句、片語、衍伸詞、同義詞、反義詞等其中之一者或組合，惟非侷限於此。

此外，本領域技術人員應可理解，聲紋比對數據D1、視訊或音訊數據D2以及語言學習資訊D3可以預先建立於資料庫DB中，亦可於後續對資料庫DB進行擴充、修改以及更新。

另須說明者，本領域技術人員應可理解，影音裝置13可為一電視、一桌上型電腦、一筆記型電腦、一投影機或是具有撥放視訊或音訊(例如：影片或歌曲)功能之電子裝置，且行動裝置11係接收影音裝置13之聲音。再者，關於視訊或音訊之聲音之接收、產生聲紋以及辨識聲紋技術細節，其可參酌現有技術以達成本發明之技術內容，因此，在此故不贅述對於聲音之接收、產生聲紋以及辨識聲紋的技術細節。

請參考第2圖，第2圖是本發明第二實施方式之行動裝置21之方塊圖，其中，第二實施方式之行動裝置21與第一實施方式之行動裝置11之操作流程與元件架構相似，因此符號相同之元件功能亦同，於此不再贅述。第二實施方式主要係更進一步詳述行動裝置21更包含一存儲器115，儲存器115用以存儲資料庫DB，俾處理器113直接地搜尋及使用資料庫DB中聲紋比對數據D1、視訊或音訊數據D2以及語言學習資訊D3。須說明者，本領域技術人員應可理解，儲存器115可為一記憶體或具有相同功能之任何其他儲存媒體或電路。

請參考第3圖，第3圖是本發明第三實施方式之行動裝置31之方塊圖，其中，第三實施方式之行動裝置31與第一實施方式之行動裝置11之操作流程與元件架構相似，因此符號相同之元件功能亦同，於此不再贅述。第三實施方式主要係更進一步詳述行動裝置31具有一收發器117，收發器117與一伺服器33具有一網路連線，收發器117係為可進行有線網路連線或無線網路連線的網路介面或任何其他具有網路連線功能之硬體。伺服器33包含一處理器、一收發器以及一存儲器(未繪示)，且儲存器用以儲存資料庫DB，行動裝置31與伺服器33透過兩者之收發器進行資料傳輸並存取資料庫DB。

須說明者，在某些實施態樣中，行動裝置31可發送一訊息至伺服器33以要求存取資料庫DB之聲紋比對數據D1、視訊或音訊數據D2以及語言學習資訊D3。在某些實施態樣中，行動裝置31亦可傳送聲紋訊號S1至伺服器33，由伺服器33協助進行聲紋辨識流程並傳送語言學習資訊D3至行動裝置31。

此外，在某些實施態樣中，資料庫DB可同時設置於行動裝置與伺服器，分別做為本地資料庫以及遠端資料庫。藉由遠端資料庫之使用，以彌補行動裝置中有限的儲存空間。

另須說明者，本領域技術人員應可理解，伺服器33可為一電腦、一標準伺服器、一檔案伺服器、一資料庫伺服器、一網路主機、一工作站或其他電子裝置，可與行動裝置31進行資料傳輸。處理器可為各種處理單元、中央處理單元(Central Processing Unit；CPU)、微處理器或其他具有計算能力之電路。儲存器可為一記憶體或具有相同功能之任何其他儲存媒體或電路。收發器可為進行有線或無線網路連線的網路介面或任何其他具有網路連線功能之硬體。網路連線可為各種有線或無線的連線方式(例如但不限於：電纜、光纖、Wi-Fi、藍芽、行動通訊網路等等)。

請參考第4圖，第4圖是本發明第四實施方式之行動裝置41之方塊圖，其中，第四實施方式之行動裝置41與第一實施方式之行動裝置11之操作流程與元件架構相似，因此符號相同之元件功能亦同，於此不再贅述。第四實施方式主要係更進一步詳述行動裝置41具有一顯示單元119。顯示單元119與處理器113電性連接，並且用以顯示語言學習資訊D3。

須說明者，本領域技術人員應可理解，顯示單元119可為一觸控螢幕、一液晶螢幕、一有機發光二極體螢幕或其他具有顯示功能之顯示元件。除此之外，行動裝置41更可包含一聲音產生器(未繪示)，例如：揚聲器，並用以撥放語言學習資訊D3。

另須說明者，前述各實施方式中，行動裝置11更可包含一使用者設定值(未繪示)，處理器113更可根據使用者設定值以及視訊或音訊數據D2提供語言學習資訊D3。

更具體而言，語言學習資訊D3中可包含不同類別與不同程度之語言教材，而使用者可根據自身程度或學習需求等選擇調整行動裝置11所提供之語言學習資訊D3，產生客製化的語言學習資訊。例如但不限於，使用者設定值可設定為簡單、中等以及困難三種程度之語言教學資訊，使用者設定值可設定為僅顯示單字、片語以及同義詞之語言教學資訊，使用者設定值可設定紀錄曾經顯示的語言學習資訊。因此，一使用者可藉由設定使用者設定值，取得符合自身需求之客製化語言教學資訊。

此外，聲紋比對數據D1更可包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據(未繪示)，處理器113更根據聲紋訊號S1以及資料庫DB之聲紋比對數據D1之視訊或音訊比對數據與視訊或音訊撥放位置比對數據，判斷視訊或音訊係對應於資料庫DB之視訊或音訊數據D2。

具體而言，處理器113根據聲音V1產生聲紋訊號S1後，可先比對聲紋訊號S1以及視訊或音訊比對數據，以獲得視訊或音訊之基本資訊(例如但不限於：名稱或編號等)，因此，處理器113可找出稍後用於比對之視訊或音訊撥放位置比對數據。隨後，處理器113可進一步比對聲紋訊號S1以及視訊或音訊撥放位置比對數據，以更準確地判斷視訊或音訊係對應於視訊或音訊數據D2，俾後續處理器113根據視訊或音訊數據D2提供語言學習資訊D3。

換言之，處理器113係藉由二階段式的聲紋辨識過程，以更有效率地方式判斷對應之視訊或音訊數據。在某些實施態樣中，資料庫DB更可包含一視訊或音訊辨識資料庫以及一視訊或音訊撥放位置資料庫，視訊或音訊辨識資料庫用以儲存視訊或音訊比對數據，視訊或音訊撥放位置資料庫用以儲存視訊或音訊撥放位置比對數據，以於資料庫DB中更有效率地檢索出所需要的相關數據。

再者，視訊或音訊數據D2更可包含一撥放位置數據以及一撥放內容數據(未繪示)，處理器113更根據視訊或音訊數據D2之撥放位置數據與撥放內容數據提供相關於視訊或音訊之語言學習資訊D3。

具體而言，撥放位置數據以及撥放內容數據具有對應關係。處理器113判斷影音裝置13之視訊或音訊係對應於資料庫DB之視訊或音訊數據D2後，可根據視訊或音訊數據D2之撥放位置數據得知視訊或音訊當前之撥放位置時間，並根據對應於撥放位置時間之撥放內容數據得知視訊或音訊之當前對白內容或當前歌詞內容。因此，處理器113可根據視訊或音訊之當前對白內容或當前歌詞內容，從資料庫DB中提供相關於當前對白內容或當前歌詞內容之語言教學內容D3。

須說明者，本領域技術人員應可理解，在不背離本發明主要精神之情況下，前述實施方式可結合一或多個實施態樣之技術內容，以根據使用者需要完成更有彈性之使用方式。

接著，請參考第5A以及5B圖，本發明之第五實施方式為一種根據視訊或音訊之聲音提供語言學習資訊之伺服器53。第5A圖係伺服器53之操作示意圖，第5B圖係伺服器53之方塊圖。第五實施方式中的元件符號與前述第一至四實施方式相同者具有相同意義及功能，於此不再贅述。

詳言之，伺服器53包含一處理器533、一儲存器535以及一收發器537。處理器533電性連接於收發器537及儲存器535。儲存器535儲存一資料庫DB。收發器537與一行動裝置51具有一網路連線，自行動裝置51接收聲音V1，並交由處理器533進行處理。

接著，處理器533根據聲音V1產生聲紋訊號S1，根據聲紋訊號S1以及資料庫DB之聲紋比對數據D1，判斷視訊或音訊係對應於資料庫DB之視訊或音訊數據D2，根據視訊或音訊數據D2提供相關於視訊或音訊之語言學習資訊D3至行動裝置51。

換言之，相較於前述第一至四實施例中行動裝置完成主要比對動作，第五實施例中主要由伺服器53產生聲紋訊號S1、根據聲紋比對數據D1辨識聲紋、判斷視訊或音訊數據D2以及提供語言學習資訊D3等功能。行動裝置51僅傳送聲音V1至伺服器53，並從伺服器53接收語言學習資訊D3。

須說明者，在第五實施方式中，伺服器53同樣可包含一使用者設定值(未繪示)，處理器533亦可根據使用者設定值以及視訊或音訊數據D2提供語言學習資訊D3。

此外，聲紋比對數據D1更可包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據(未繪示)，處理器533更根據聲紋訊號S1以及資料庫DB之聲紋比對數據D1之視訊或音訊比對數據與視訊或音訊撥放位置比對數據，判斷視訊或音訊係對應於資料庫DB之視訊或音訊數據D2。

再者，視訊或音訊數據D2更可包含一撥放位置數據以及一撥放內容數據(未繪示)，處理器533更根據視訊或音訊數據D2之撥放位置數據與撥放內容數據提供相關於視訊或音訊之語言學習資訊D3。

另須說明者，本領域技術人員應可理解，第五實施方式之處理器533可為各種處理單元、中央處理單元(Central Processing Unit；CPU)、微處理器或其他具有計算能力之電路。儲存器535可為一記憶體或具有相同功能之任何其他儲存媒體或電路。收發器537可為進行有線或無線網路連線的網路介面或任何其他具有網路連線功能之硬體。此外，行動裝置51係具有接收聲音V1以及進行網路連線功能之一智慧型手機、一平板、一筆記型電腦或其他電子裝置，亦可為前述實施方式之行動裝置。

接著，請參考第6A以及6B圖，本發明之第六實施方式為一種根據視訊或音訊之聲音提供語言學習資訊之系統6。第6A圖係系統6之操作示意圖，第6B圖係系統6之方塊圖，系統6包含一行動裝置61以及一伺服器63。第六實施方式中的元件符號與前述第一至五實施方式相同者具有相同意義及功能，於此不再贅述。

詳言之，行動裝置61包含如同前述實施方式之一聲音接收器111、一處理器113以及一收發器117。伺服器63包含如前述實施方式之一處理器533、一儲存器535以及一收發器537。行動裝置61與伺服器63具有一網路連線。伺服器63之儲存器535儲存有一資料庫DB。將於下文中予以進一步闡述行動裝置61與伺服器63之互動。

首先，行動裝置61可自一影音裝置接收一視訊或音訊之一聲音V1，根據聲V1音產生一聲紋訊號S1，以及將聲紋訊號S1傳送至伺服器63。隨後，伺服器63根據聲紋訊號S1以及資料庫DB之一聲紋比對數據D1，判斷視訊或音訊係對應於資料庫DB之一視訊或音訊數據D2，以及根據視訊或音訊數據D2提供相關於視訊或音訊之一語言學習資訊D3至行動裝置61。

相較於前述第一至五實施例，第六實施例中主要由行動裝置61產生聲紋訊號S1並且傳送聲紋訊號S1至伺服器63，由伺服器63根據聲紋比對數據D1辨識聲紋、判斷視訊或音訊數據D2以及提供語言學習資訊D3等功能。換言之，在第六實施方式中，行動裝置61係傳送聲紋訊號S1至伺服器63，並從伺服器63接收語言學習資訊D3。

須說明者，在第六實施方式中，伺服器63同樣可包含一使用者設定值(未繪示)，處理器533亦可根據使用者設定值以及視訊或音訊數據D2提供語言學習資訊D3至行動裝置61。

此外，聲紋比對數據D1更可包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據(未繪示)，伺服器63之處理器533更根據聲紋訊號S1以及資料庫DB之聲紋比對數據D1之視訊或音訊比對數據與視訊或音訊撥放位置比對數據，判斷視訊或音訊係對應於資料庫DB之視訊或音訊數據D2。

再者，視訊或音訊數據D2更可包含一撥放位置數據以及一撥放內容數據(未繪示)，伺服器63之處理器533更根據視訊或音訊數據D2之撥放位置數據與撥放內容數據提供相關於視訊或音訊之語言學習資訊D3至行動裝置61。

本發明之第七實施方式為一種根據視訊或音訊之聲音提供語言學習資訊之方法(以下簡稱「提供語言學習資訊方法」)，其流程圖請參考第7圖。提供語言學習資訊方法適用於一電子裝置，例如第一實施方式所述之行動裝置11。提供語言學習資訊方法將於下文中予以進一步闡述。

首先，於步驟701，行動裝置自一影音裝置接收一視訊或音訊之一聲音。於步驟702，行動裝置根據聲音產生一聲紋訊號。接著，於步驟703，行動裝置根據聲紋訊號以及一資料庫之一聲紋比對數據，判斷視訊或音訊係對應於資料庫之一視訊或音訊數據。隨後，於步驟704，行動裝置根據視訊或音訊數據提供相關於視訊或音訊之一語言學習資訊。

須說明者，在某些實施態樣中，資料庫係可儲存於行動裝置。換言之，行動裝置具有資料庫，並可直接地搜尋資料庫中的聲紋比對數據、視訊或音訊數據以及語言學習資訊。

此外，在某些實施態樣中，資料庫係儲存於一伺服器，伺服器與行動裝置具有一網路連線。換言之，伺服器具有資料庫，行動裝置經由網路連線至伺服器以存取資料庫之聲紋比對數據、視訊或音訊數據以及語言學習資訊。

本發明之第八實施方式係基於第七實施方式之流程，相同之步驟於此不重複贅述，其差異在於，第八實施方式主要係更進一步詳述於步驟704後，更包含一步驟705(如第8圖所示)。於步驟705中，行動裝置顯示語言學習資訊於行動裝置之一顯示單元。

本發明之第九實施方式係基於第七實施方式之流程，相同之步驟於此不重複贅述，其差異在於，第九實施方式主要係更進一步詳述步驟704中，更包含一步驟704s(如第9圖所示)。於步驟704s中，行動裝置更根據一使用者設定值以及視訊或音訊數據提供相關於視訊或音訊之語言學習資訊。

另須說明者，前述第七至九實施方式中，聲紋比對數據更可包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據。其中，步驟703更包含：行動裝置根據聲紋訊號以及資料庫之聲紋比對數據之視訊或音訊比對數據與視訊或音訊撥放位置比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據。

此外，視訊或音訊數據更可包含一撥放位置數據以及一撥放內容數據。其中，步驟704更包含：行動裝置根據視訊或音訊數據之撥放位置數據與撥放內容數據提供相關於視訊或音訊之語言學習資訊。

本發明之第十實施方式為一種根據視訊或音訊之聲音提供語言學習資訊之方法(以下簡稱「提供語言學習資訊方法」)，其流程圖請參考第10圖。提供語言學習資訊方法適用於一伺服器，例如第五實施方式所述之伺服器53。提供語言學習資訊方法將於下文中予以進一步闡述。

首先，於步驟1001，伺服器自一行動裝置接收一視訊或音訊之一聲音。於步驟1002，伺服器根據聲音產生一聲紋訊號。接著，於步驟1003，伺服器根據聲紋訊號以及一資料庫之一聲紋比對數據，判斷視訊或音訊係對應於資料庫之一視訊或音訊數據。隨後，於步驟1004，伺服器根據視訊或音訊數據提供相關於視訊或音訊之一語言學習資訊至行動裝置。

本發明之第十一實施方式係基於第十實施方式之流程，相同之步驟於此不重複贅述，其差異在於，第十一實施方式主要係更進一步詳述步驟1004中，更包含一步驟1004s(如第11圖所示)。於步驟1004s中，伺服器更根據一使用者設定值以及視訊或音訊數據提供相關於視訊或音訊之語言學習資訊至行動裝置。

另須說明者，前述第十至十一實施方式中，聲紋比對數據更可包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據。其中，步驟1003更包含：伺服器根據聲紋訊號以及資料庫之聲紋比對數據之視訊或音訊比對數據與視訊或音訊撥放位置比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據。

此外，視訊或音訊數據更可包含一撥放位置數據以及一撥放內容數據。其中，步驟1004更包含：伺服器根據視訊或音訊數據之撥放位置數據與撥放內容數據提供相關於視訊或音訊之語言學習資訊至行動裝置。

本發明之第十二實施方式為一種根據視訊或音訊之聲音提供語言學習資訊之方法(以下簡稱「提供語言學習資訊方法」)，其流程圖請參考第12圖。提供語言學習資訊方法適用於一系統，例如第六實施方式所述之系統6。提供語言學習資訊方法將於下文中予以進一步闡述。

首先，於步驟1201，一行動裝置自一影音裝置接收一視訊或音訊之一聲音。於步驟1202，行動裝置根據聲音產生一聲紋訊號並且傳送聲紋訊號至一伺服器。接著，於步驟1203，伺服器根據聲紋訊號以及一資料庫之一聲紋比對數據，判斷視訊或音訊係對應於資料庫之一視訊或音訊數據。隨後，於步驟1204，伺服器根據視訊或音訊數據提供相關於視訊或音訊之一語言學習資訊至行動裝置。

本發明之第十三實施方式係基於第十二實施方式之流程，相同之步驟於此不重複贅述，其差異在於，第十三實施方式主要係更進一步詳述步驟1204中，更包含一步驟1204s(如第13圖所示)。於步驟1204s中，伺服器更根據一使用者設定值以及視訊或音訊數據提供相關於視訊或音訊之語言學習資訊至行動裝置。

另須說明者，前述第十二至十三實施方式中，聲紋比對數據更可包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據。其中，步驟1203更包含：伺服器根據聲紋訊號以及資料庫之聲紋比對數據之視訊或音訊比對數據與視訊或音訊撥放位置比對數據，判斷視訊或音訊係對應於資料庫之視訊或音訊數據。

此外，視訊或音訊數據更可包含一撥放位置數據以及一撥放內容數據。其中，步驟1204更包含：伺服器根據視訊或音訊數據之撥放位置數據與撥放內容數據提供相關於視訊或音訊之語言學習資訊至行動裝置。

除了上述步驟，第七至十三實施方式亦能執行第一至六實施方式所描述之根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器或系統之所有運作及步驟，具有同樣之功能，且達到同樣之技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第七至十三實施方式如何基於上述第一至六實施方式以執行此等運作及步驟，具有同樣之功能，並達到同樣之技術效果，故不贅述。

由上述說明可知，本發明所提供之根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器、系統及其方法，接收視訊或音訊之聲音並且根據聲音產生聲紋訊號，根據聲紋訊號以及資料庫之聲紋比對數據進行聲紋辨識，根據辨識結果判斷視訊或音訊對應於資料庫之視訊或音訊數據，隨後，可根據視訊或音訊數據提供相關於視訊或音訊之語言學習資訊。因此，藉由本發明之具有整合功能之行動裝置或伺服器，使用者能在觀看一影片或聆聽一歌曲之同時，即時地從行動裝置獲取關於影片對白或歌曲歌詞之語言學習資訊。

上述實施方式僅用來例舉本發明之部分實施態樣，以及闡釋本發明之技術特徵，而非用來限制本發明之保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍，而本發明之權利保護範圍以申請專利範圍為準。

Claims

一種根據視訊或音訊之聲音提供語言學習資訊之行動裝置，該行動裝置包含：一聲音接收器，用以自一影音裝置接收一視訊或音訊之一聲音；以及一處理器，電性連接於該聲音接收器，用以：根據該聲音產生一聲紋訊號，根據該聲紋訊號以及一資料庫之一聲紋比對數據，判斷該視訊或音訊係對應於該資料庫之一視訊或音訊數據，以及根據該視訊或音訊數據提供相關於該視訊或音訊之一語言學習資訊。
如請求項1所述之行動裝置，其中，該資料庫係儲存於該行動裝置之一儲存器。
如請求項1所述之行動裝置，其中，該資料庫係儲存於一伺服器之一儲存器，該行動裝置與該伺服器具有一網路連線。
如請求項1所述之行動裝置，其中，該行動裝置更包含一顯示單元，該顯示單元與該處理器電性連接，用以顯示該語言學習資訊。
如請求項1所述之行動裝置，其中，該處理器更根據一使用者設定值以及該視訊或音訊數據提供該語言學習資訊。
如請求項1所述之行動裝置，其中，該聲紋比對數據更包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據，該處理器更根據該聲紋訊號以及該資料庫之該聲紋比對數據之該視訊或音訊比對數據與該視訊或音訊撥放位置比對數據，判斷該視訊或音訊係對應於該資料庫之該視訊或音訊數據。
如請求項1所述之行動裝置，其中，該視訊或音訊數據更包含一撥放位置數據以及一撥放內容數據，該處理器更根據該視訊或音訊數據之該撥放位置數據與該撥放內容數據提供相關於該視訊或音訊之該語言學習資訊。
一種根據視訊或音訊之聲音提供語言學習資訊之伺服器，該伺服器與一行動裝置具有一網路連線，該伺服器包含：一收發器，用以自該行動裝置接收一視訊或音訊之一聲音；一儲存器，用以儲存一資料庫；以及一處理器，電性連接於該收發器以及該儲存器，用以：根據該聲音產生一聲紋訊號，根據該聲紋訊號以及該資料庫之一聲紋比對數據，判斷該視訊或音訊係對應於該資料庫之一視訊或音訊數據，以及根據該視訊或音訊數據提供相關於該視訊或音訊之一語言學習資訊至該行動裝置。
如請求項8所述之伺服器，其中，該處理器更根據一使用者設定值以及該視訊或音訊數據提供該語言學習資訊至該行動裝置。
如請求項8所述之伺服器，其中，該聲紋比對數據更包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據，該處理器更根據該聲紋訊號以及該資料庫之該聲紋比對數據之該視訊或音訊比對數據與該視訊或音訊撥放位置比對數據，判斷該視訊或音訊係對應於該資料庫之該視訊或音訊數據。
如請求項8所述之伺服器，其中，該視訊或音訊數據更包含一撥放位置數據以及一撥放內容數據，該處理器更根據該視訊或音訊數據之該撥放位置數據與該撥放內容數據提供相關於該視訊或音訊之該語言學習資訊至該行動裝置。
一種根據視訊或音訊之聲音提供語言學習資訊之系統，包含：一行動裝置；以及一伺服器，與該行動裝置具有一網路連線，儲存有一資料庫；其中，該行動裝置用以：自一影音裝置接收一視訊或音訊之一聲音，以及根據該聲音產生一聲紋訊號並且傳送該聲紋訊號至該伺服器；其中，該伺服器用以：根據該聲紋訊號以及該資料庫之一聲紋比對數據，判斷該視訊或音訊係對應於該資料庫之一視訊或音訊數據，以及根據該視訊或音訊數據提供相關於該視訊或音訊之一語言學習資訊至該行動裝置。
如請求項12所述之系統，其中，該伺服器更根據一使用者設定值以及該視訊或音訊數據提供該語言學習資訊至該行動裝置。
如請求項12所述之系統，其中，該聲紋比對數據更包含一視訊或音訊比對數據以及一視訊或音訊撥放位置比對數據，該伺服器更根據該聲紋訊號以及該資料庫之該聲紋比對數據之該視訊或音訊比對數據與該視訊或音訊撥放位置比對數據，判斷該視訊或音訊係對應於該資料庫之該視訊或音訊數據。
如請求項12所述之系統，其中，該視訊或音訊數據更包含一撥放位置數據以及一撥放內容數據，該伺服器更根據該視訊或音訊數據之該撥放位置數據與該撥放內容數據提供相關於該視訊或音訊之該語言學習資訊至該行動裝置。