TW201706916A

TW201706916A - 媒體內容分析系統與方法

Info

Publication number: TW201706916A
Application number: TW105122177A
Authority: TW
Inventors: 西蒙奥森德羅
Original assignee: 雅虎股份有限公司
Priority date: 2015-08-12
Filing date: 2016-07-14
Publication date: 2017-02-16
Also published as: US20170154245A1; TWI601077B; US20170046598A1; WO2017027429A1; US20180225549A1; US9940547B2; US9569696B1; US10534981B2

Abstract

在此揭示的是一種用於分析媒體物件的智能代理。該代理包括一經訓練模型，其包括許多狀態層，用以儲存在由該代理分析一媒體物件時所實行之許多先前迭代時的每一次迭代中，由該代理所採取之動作歷程。該經儲存狀態可由該代理於目前迭代中使用，以決定是否要建立或避免從由該模型所產生之輸出建立預測、辨別該媒體物件的另一部分以進行分析，以及終止分析。來自該代理模型的輸出可以包括一語義向量，其可被映射至一語義向量空間，以辨識許多代表一媒體物件的標籤。

Description

媒體內容分析系統與方法

本發明揭示內容與分析媒體內容有關，像是分析照片、音頻紀錄、視頻等等，但不限制於此，舉例而言，媒體內容分析可被用於標記或標籤該媒體內容，以估計該媒體內容的美學性質、以辨識(多數)重要元素及智能地剪輯或調整一影像大小以保存該(等)重要元素以及多數其他應用。

存在有能以數位形式取得的大量媒體物件。媒體物件一般被儲存在一或多個媒體檔案中。雖然該等媒體檔案已經可由電腦使用者所存取，但對該使用者而言係難以分辨該等媒體檔案的內容及/或找出其所感興趣的數位媒體。此外，所述數位媒體內容的品質與多樣性也各有不同，這使得對於該等電腦使用者而言更加難以找出其所感興趣的數位媒體物件。

本揭示發明尋求解決該領域中的缺點，並以針對性及有效性的方法分析一媒體物件。做為一非限制性實例，具有3000像素乘3000像素的輸入影像對於目前技術而言係過大而難以處理。根據本發明之一或多個具體實施例，可以辨識、分析該大輸入影像的子窗口，像是300像素乘300像素的區域或是其他的媒體物件，並可以利用子窗口對於該大影像進行一或多個語義預測。相較於使輸入影像解析度降階並嘗試在與輸入影像實際解析度相比為十分低的解析度下進行感興趣物件的辨識，本揭示發明之具體實施例可以使用許多子視窗於該輸入影像實際解析度下分析該原始影像。根據一或多個具體實施例，使用低解析度、次採樣掃瞄、顯著性圖或多數區域的其他低解析度指示器以辨識在一媒體物件中所感興趣的區域或範圍，且該經辨識區域可以在原始解析度下分析，因此改進該媒體的分析品質，並改進搜尋能力與搜尋結果，舉例而言，能夠提供較高的品質、被分析媒體的更相關背景資訊。這改進了使用者滿意度，並使得媒體服務能夠改進供應至使用者的服務品質。

雖然本發明具體實施例係參考一輸入影像進行敘述，但應該顯而易見的是，任何形式的媒體物件都適用於所述的一或多個具體實施例。做為某些非限制性實例，媒體物件可為一音頻媒體物件，而多數片段的集合可被分析以辨識該音頻媒體物件的一部分，媒體物件可為一視頻媒體物件，而來自該視頻的多數低解析度畫面的選擇可被用於辨識該視頻媒體物件的一部分，媒體物件可為音頻與視頻的組合等等。

本揭示發明與分析媒體物件有關，像是相片、音頻紀錄、視頻等等，但不限制於此，舉例而言，媒體內容分析可用於標記或標籤該媒體內容，以估計該媒體內容的美學性質、以辨識(多數)重要元素及智能地剪輯或調整一影像大小以保存該(等)重要元素以及多數其他應用。

根據一或多個具體實施例，一媒體物件分析代理或媒體分析器，係包括經訓練以建立與一媒體物件多數態樣有關的決定，以執行一詳細分析，做為一非限制性實例，可以在不產生分析一大影像之所有高解析度像素的成本下，分析該影像；該媒體分析器可以辨識以該媒體物件何者(哪些)部分，像是在該影像中的小物件，建構其於該媒體物件的分析。在這種方式中，該媒體分析器可以忽略該媒體物件的其他部分，其決定這些部分對於分析無用，藉此使分析更有效率。根據一或多個具體實施例，可以定義一計算預算並用於使該代理於該定義預算中的實行最佳化。

根據一或多個具體實施例，提供一種方法，該方法包括由一計算裝置使用一經訓練模型做為一代理，以使用許多次分析回合分析一媒體物件，該經訓練模型包括許多狀態層，用以儲存來自由該代理進行該媒體物件之每一分析回合的成果；由該計算裝置使用該代理，於目前分析回合中，決定於該媒體物件分析中要採取的次一動作，該決定係使用來自該許多狀態層的經儲存狀態，以及由該代理所進行之目前分析回合的結果所建立；及由該計算裝置並使用該代理，提供來自該媒體物件的許多次分析回合的一輸出，該輸出包括複數個與該媒體物件內容相對應的標籤。

根據一或多個具體實施例，提供一種系統，該系統包括至少一計算裝置，每一計算裝置都包括一處理器與一儲存介質，用以在其上有形儲存由該處理器所執行之程式邏輯，該經儲存程式邏輯包括使用邏輯、建立邏輯及提供邏輯，該使用邏輯由該處理器所執行，以使用一經訓練模型做為一代理，利用許多次分析回合分析一媒體物件，該經訓練模型包括許多狀態層，用以儲存來自在由該代理所進行之該媒體物件每一分析回合的成果；該建立邏輯由該處理器所執行，使用該代理於的目前分析回合中，決定於該媒體物件分析中要採取的次一動作，該決定係使用來自該許多狀態層的經儲存狀態，以及由該代理所進行之目前分析回合的結果所建立；而該提供邏輯由該處理器所執行，使用該代理以提供來自該媒體物件的許多次分析回合的一輸出，該輸出包括複數個與該媒體物件內容相對應的標籤。

而又根據本揭示發明之另一態樣，提供一種電腦可讀非暫存性儲存介質，用以在其上有形儲存多數電腦可讀指令，當該等電腦可讀指令被執行時造成至少一處理器使用一經訓練模型做為一代理，以使用許多次分析回合分析一媒體物件，該經訓練模型包括許多狀態層，用以儲存來自由該代理進行該媒體物件之每一分析回合的成果；使用該代理於目前分析回合中，決定於該媒體物件分析中要採取的次一動作，該決定係使用來自該許多狀態層的經儲存狀態，以及由該代理所進行之目前分析回合的結果所建立；及使用該代理提供來自該媒體物件的許多次分析回合的一輸出，該輸出包括複數個與該媒體物件內容相對應的標籤。

根據一或多個具體實施例，提供一系統，該系統包括一或多個計算裝置，經配置以提供根據所述具體實施例之功能。根據一或多個具體實施例，功能係體現於由至少一計算裝置所實行之方法的步驟中。根據一或多個具體實施例，用於實作根據一或多個所述具體實施例之功能的程式編碼係體現於一電腦可讀介質中、由該電腦可讀介質體現及/或體現於該電腦可讀介質上。

102‧‧‧步驟

104‧‧‧步驟

106‧‧‧步驟

108‧‧‧步驟

204‧‧‧類神經網路

206‧‧‧輸入層/影像資料

208‧‧‧內部層

210A‧‧‧內部層

210B‧‧‧內部層

210C‧‧‧內部層

210D‧‧‧層

212‧‧‧輸出層

304‧‧‧擴張模型

306‧‧‧輸入層

308‧‧‧內部層

312‧‧‧輸出層

314‧‧‧狀態層

316‧‧‧顯著性圖

318‧‧‧語義向量空間

320‧‧‧輸入

322‧‧‧輸出

324‧‧‧輸入

326‧‧‧輸出

328‧‧‧輸入

402‧‧‧步驟

404‧‧‧步驟

406‧‧‧步驟

408‧‧‧步驟

410‧‧‧步驟

412‧‧‧步驟

414‧‧‧步驟

416‧‧‧步驟

502‧‧‧計算裝置/伺服器

504‧‧‧使用者計算裝置

506‧‧‧網路

508‧‧‧資料儲存器

600‧‧‧內部結構

602‧‧‧電腦匯流排

604‧‧‧記憶體

606‧‧‧電腦可讀儲存介質/媒體

608‧‧‧媒體碟片介面

610‧‧‧顯示介面

612‧‧‧處理單元

614‧‧‧網路介面

616‧‧‧鍵盤介面

618‧‧‧指向裝置介面

620‧‧‧媒體碟片驅動介面

622‧‧‧其他雜項介面

本揭示發明之上述特徵與物件，在參考結合附圖之以下敘述後將變的顯而易見，其中相同的元件符號係標示相同的元件，且其中：第一圖提供根據本揭示發明一或多個具體實施例之一處理流程實例。

第二圖提供一示例迴旋類神經網路之多層的實例，該迴旋類神經網路可由監督式學習加以訓練。

第三圖提供根據本揭示發明一或多個具體實施例使用之一擴張模型的實例。

第四圖提供根據本揭示發明一或多個具體實施例使用之一代理處理流程實例。

第五圖描述可連結本發明揭示之一或多個具體實施例所使用的某些組件。

第六圖為根據本揭示發明一或多個具體實施例，描述一計算裝置內部架構的詳細區塊圖式。

現在將參考附圖而於此後對該主題內容進行更完整的敘述，該等附圖形成本發明之一部分，而其以示例方式說明特定示例具體實施例。然而，該等主題內容可以各種不同方式體現，因此預期所涵蓋或主張的主題內容的建構，並不以在此說明之任何示例具體實施例所限制；示例具體實施例只是用於做為示例。同樣的，預期所主張或涵蓋的主題內容具有合理的廣泛範圍。舉例而言，在其他事情之外，該主題內容可被體現為方法、裝置、組件或系統。據此，舉例而言，具體實施例可具有硬體、軟體、韌體或其任意組合的形式(不同於軟體本身)。因此，以下詳細敘述並不預期具有限制的想法。

在該規格說明書與該等申請專利範圍中，用詞可具有超過其明顯陳述意義，而具有隱含或建議於文字中的細微意義。同樣的，在此使用之片語「在一具體實施例中」並不需要參指相同具體實施例，而在此使用之片語「在另一具體實施例中」並不需要參指一不同具體實施例。例如，預期所主張之主題內容係包含完整或部分之示例具體實施例的組合。

一般而言，可從上下文的使用至少部分瞭解術語。例如，像是在此使用之「及」、「或」或「及/或」的用詞，可以至少部分根據於所述用詞使用的上下文，包含各種意義。一般而言，如果「或」是關聯於像是清單使用時，像是A、B或C，係預期於包含意涵中使用時，意指A、B及C，而在互斥意涵時係意指A、B或C。此外，在此使用之術語「一或多個」係至少部分根據上下文於單數意涵中用於敘述任何特徵、結構或特性，或用於複數意涵中用於敘述多數特徵、結構或特性的組合。同樣的，可以了解像是用詞「一」、「一個」或「該」也可至少部分根據上下文在單數使用或複數使用。此外，應該瞭解該用詞「根據」並不需要意指多數因子的互斥集合，取而代之的是，可允許存在不需要被明顯敘述之其他因子，同樣的其係部分根據於上下文而定。

在此提供之詳細敘述並不預期做為對已知概念的強化或詳細討論，而因此，相關領域一般技術人員所概為知悉的細節係被省略，或以總結形式處理。現在將參考前述圖式討論本揭示發明之某些具體實施例，其中相同的參考元件符號係指類似的組件。

一般而言，本揭示發明包含一媒體內容分析系統、方法與架構。根據一或多個具體實施例，一動作決定選擇代理係包括一種模型，該模型係經訓練以決定在一目前狀態下將採取何種動作或哪些動作。做為非限制性實例，該代理可用於為一輸入影像預測一或多個標籤或標記，而該代理可以決定採取的可能動作包含建立一標籤預測、放棄進行標籤預測、選擇該影像新或次一位置進行分析、以相較於一或多次其他的前次分析影像部分為較高或較低的解析度，分析該影像之新或次一部份，終止該分析等等，但不限制於此。

根據一或多個具體實施例，該代理使用一內部狀態，該內部狀態可以包括其觀察的歷程，例如在目前一次之前所進行的觀察，以及其動作與預測的歷程。在輸入影像的分析中，該代理可以使用其內部狀態以決定採取何種動作或哪些動作，例如，該代理可以建立是否繼續分析該影像的決定，且建立該決定後，應該採取何種動作以繼續分析，例如，在該分析的次一迭代中要採取何種動作。除了該代理的內部狀態以及根據本揭示發明之一或多個具體實施例以外，該代理可以使用在該輸入影像中感興趣之潛在區域的一指示器或多數指示器。做為一非限制性實例，該代理可以使用可能感興趣之區域的顯著性圖或其他低解析度指示器，以辨識該輸入影像進行分析的次一部分或區域。做為一進一步非限制性實例，該模型可經訓練以辨識該輸入影像進行分析的次一部分或區域。

第一圖提供根據本揭示發明之一或多個具體實施例的處理流程實例。在步驟102處，使用訓練資料以訓練一標籤預測模型，並將多數符號標籤映射至一語義向量空間，該訓練資料包括複數個例如影像的媒體物件以及與該等媒體物件相關聯的詮釋資料。做為一非限制性實例，一符號標簽可以對應於一或多個字符、文字等等，並可以包括許多特徵，其表現例如該(等)字符、文字等等的意義。做為一非限制性實例，用於標註一影像的文字，像是天空、狗、車等等，係可以表示為表現該文字意義的數值向量。

根據一或多個具體實施例，該標籤預測模型可以包括類神經網路，例如迴旋類神經網路，其係在步驟102處利用監督式學習方式所訓練，例如，利用包括複數個媒體物件與相關聯詮釋資料的訓練資料進行訓練。做為一非限制性實例，該迴旋類時經網路可使用梯度下降法加以訓練，以學習該網路的多數參數及倒傳遞，該等參數則像是與每一節點相關聯的權重以及偏權，而倒傳遞可用於決定該梯度下降法的梯度。迴旋類神經網路可以包括多數連接節點的網路以及一組參數，該組參數包括在每一節點對之間的連接強度或權重以及與每一節點相關聯的偏權。做為一非限制性實例，對一節點的每一輸入都可以具有一相關聯權重，而節點的輸出可以使用每一經加權輸入及與該節點相關聯的偏權所決定。

第二圖提供一示例迴旋類神經網路之多層的實例，該迴旋類神經網路可由監督式學習加以訓練。根據至少一具體實施例，迴旋類神經網路204包括一輸入層206、包括一或多層的內部層208與輸出層212。做為一非限制性實例，像是影像的媒體物件係透過層206輸入至該類神經網路204，並使用(多)層208進行分析，其提供輸入至輸出層212，該輸出層212辨識多個標籤預測。根據一或多個具體實施例，輸出層212可以包括對於許多標籤之每一標籤的預測，而每一標籤預測都可以包括該標籤能代表該影像內容之概率或可能性的測量。做為一非限制性實例，假設該影像資料206係為包含天空中雲朵的影像，類神經網路204可以辨識標籤「天空」及「雲朵」做為可由該影像所使用的兩個標籤。根據一或多個具體實施例，輸出層212可以輸出一或多個符號標籤，其每一個都包括一向量，該向量則包括代表一標籤或多數標籤的許多語義特徵。

根據一或多個具體實施例，可以在第一圖步驟102處利用語料庫產生語義向量空間，像是與該訓練資料中該等媒體物件相關聯的標籤。其他資料像是來自維基百科或其他來源的字也可包含於該語料庫中，但不限制於此。一種工具，像是word2vec可以使用該語料庫建構字彙並學習代表文字、字符等等的向量，但並不限制於使用word2vec。做為一非限制性實例，代表與一媒體物件相關聯之每一標籤的向量，以及其他文字、字符等等，都可以為該語義向量空間而產生。

做為一非限制性實例，每一標籤都可以利用其向量表現映射至該語義向量空間中的一點，並可以使用一決定距離，例如餘弦距離做為該兩標籤之間語義相似性的測量。

根據一或多個具體實施例，在步驟102處訓練的類神經網路204為一種前餽式類神經網路，因此來自一層的輸出係被餽入做為另一層的輸入。參考類神經網路204，在該類神經網路204中的層可以使用來自另一層的資訊。做為某些非限制性實例，內部層208可以使用由輸入層206所提供的資訊，而輸出層212可以使用由內部層208所提供的資訊。做為進一步非限制性實例，內部層208的內部層210B可以使用由內部層210A所提供的資訊，內部層210C可以使用由內部層210B所提供的資訊等等。

在第二圖繪示的實例中，類神經網路204的每一內部層208都可以包括許多節點，其可用於擷取該輸入的多數特徵，例如一輸入影像的多數特徵。做為某些非限制性實例，層210A可以包括許多節點，經配置以擷取該輸入影像資料中描繪的多數物件部分以及與該等描繪物件相關聯的圖案，層210B可以包括許多節點，經配置以擷取曲線，層210C可以包括許多節點，經配置以辨識邊緣與對比特徵，層210D可以包括許多節點，經配置以擷取並辨識元素特徵，像是顏色特徵但並不限制於此。在該等層210A-210D之每一層中的該等節點都可以使用由另一層所擷取的特徵資訊。

根據一或多個具體實施例，輸出212可以將一標籤表現為多數特徵的向量，而該向量可用於辨識在語義上與該標籤相似的其他標籤。根據一或多個具體實施例，每一標籤都可以利用其向量表現映射至一語義向量空間，在該語義向量空間中的相鄰標籤可被視做為用於決定其在語義上是否與另一標籤相似。根據一或多個具體實施例，在該語義向量空間中兩標籤之語義向量之間的決定距離可做為該兩標籤之間語義相似性的測量，該決定距離像是餘弦距離，但不限制於此。

再次參考第1圖，步驟102預先訓練該模型，例如訓練該迴旋類神經網路。在步驟104，該經預先訓練模型係被擴展，以包含許多其他層，該等其他層提供該網路的內部狀態或背景。根據一或多個具體實施例，該擴展模型可利用來自步驟102的輸出進行訓練，像是該類神經網路204與多數標籤向量對一語義向量空間的映射，但不限制於此。根據一或多個具體實施例，該擴展模型可為一遞迴類神經網路，其使用時間上的倒傳遞與政策梯度法的組合進行訓練。

用於該擴展模型的訓練資料可以進一步包含對於用於訓練類神經網路204所使用之該等媒體物件而言，用於辨識每一媒體物件中多數顯著區域的顯著性圖。做為一非限制性實例，從描繪亮紅色車輛、綠樹與相對難以區別背景之影像所產生的顯著性圖可以用於辨識該影像描繪該亮紅色車輛與綠樹的多數區域。換句話說，顯著性圖可用於辨識該影像中對應於車輛與樹木的該(等)區域以做為該影像的(多數)視覺顯著區域。做為一非限制性實例，可利用計算局部影像熵值的方法估計一影像的顯著性圖。根據一或多個具體實施例，顯著性圖可用於預測顯著性，例如，預測一媒體物件的顯著區域。

根據一或多個具體實施例，在步驟104產生的擴展模型可以包含一組新的，或經修改的參數，其包括節點之間的權重或連接強度與偏權。根據一或多個具體實施例，該擴展類神經網路可為像是遞迴類神經網路的模型，其允許一或多個節點的輸出在由該模型所實行的後續分析迭代中，被餽入成為該相同或其他節點的輸入。在步驟106，使用該擴展模型分析媒體物件輸入，以建立許多標籤預測與媒體物件分析決定。在步驟108，該擴展模型產生來自該媒體物件分析的輸出。根據一或多個具體實施例，該輸出包括許多個語義概念，像是許多語義向量，但不限制於此，每一語義向量都代表一或多個標籤。根據一或多個所述具體實施例，語義向量可以映射至一語義向量空間的一區域，並可用於辨識與該向量相對應的一或多個標籤，以及在該語義向量空間中該向量附近的許多個語義相似標籤。

第三圖提供根據本揭示發明一或多個具體實施例使用之一擴張模型的實例。在第三圖繪示的實例中，該擴張模型304包括一輸入層306、許多內部或隱藏層308與一輸出層312。此外，該擴張模型304包含許多狀態或背景層314。根據一或多個具體實施例，該(等)狀態層314可以接收來自(多數)內部層308及/或輸出層312之一節點或多數節點的輸出，並可以使用該輸出決定接著要採取的動作。

在第三圖繪示的實例中，線段322與326分別代表來自該(等)內部層308的輸出與來自該輸出層312的輸出，而線段320、324及328分別代表來自(多數)狀態層314對該輸入層306、(多數)內部層308及輸出層312的輸入。做為某些非限制性實例，輸入320可以包括為使該擴張模型304進行分析而由該(等)狀態層314所辨識之一影像區域的影像像素資料，輸入324可以包括在該(等)內部層308及/或該輸出層312中許多節點之每一節點的修改權重。權重係可以與輸入324及/或輸入328相關聯。

根據一或多個具體實施例，模型304可以做為執行一連串動作、決定與預測的代理。根據一或多個所述具體實施例，該代理係知道在目前迭代之先前迭代中所建立的觀測，以及其動作與預測的歷程。所述知悉情形可被表現為該代理的內部狀態，例如使用模型304的多層314。做為一非限制性實例，來自該模型304做為代理而進行之目前分析迭代或目前回合的輸出322及/或326可以利用該(等)狀態層314儲存為狀態資訊，而所保存的狀態資訊可用於決定由該模型304於後續進行之迭代或多數迭代中所採取之動作或多數動作。在每一回合或迭代中，模型304可以決定接著要檢查哪裡。做為一非限制性實例，在影像的情況中，所述決定可以包括決定在一原始高解析度影像之中的邊界框，而由該邊界框所辨識的區域接著可由該模型304於由該模型304所執行之分析回合中進行處理。分析結果可用於更新狀態，並建立接著要採取何種動作的決定。做為某些非限制性實例，動作可以包括辨識另一分析區域、預測新標籤、放棄預測新標籤及/或建立終止分析的決定。

根據一或多個具體實施例，模型304可以針對性及有效性的方式，為一媒體片段建立多數預測。做為一非限制性實例，多數大的輸入影像可被進行迭代處理，例如處理該原始影像的一或多個300x300的子窗口，否則該等影像係為過大而無法處理。在所述情況中，相較於使原始影像解析度降階並嘗試在該經降尺寸影像細小區域中辨識感興趣物件的方式，模型304可用於專注在感興趣之區域或多數區域上，並對其聚焦以使用較高解析度，該影像的原始解析度建立預測或多數預測。本揭示發明之具體實施例訓練模型304以建立針對該影像哪些態樣實行詳細分析的決定。藉由專注在(多數)感興趣區域上，分析影像的成本，特別是分析大張高解析度影像的成本，可藉由消除需要分析該影像所有高解析度像素的方式而避免。根據一或多個具體實施例，模型304可經最佳化以根據一計算預算實行其分析。

根據一或多個具體實施例，模型304可使用由該模型304正在分析之影像的顯著性圖316，以決定該模型304欲分析之該影像的區域或多數區域。根據一或多個具體實施例，來自層312的輸出可具有語義概念的形式，像是映射至與標籤相對應之語義向量空間318中的一位置，但並不限制於此。根據一或多個具體實施例，該語義向量空間318可在第一圖步驟102處產生。

根據一或多個具體實施例，模型或代理304取得一媒體物件，像是影像、照片、視頻畫面等等，但不以此為限，或是其某些部分以做為對其輸入層的輸入，並執行許多次迭代或回合以為該輸入影像辨識許多標籤。做為一非限制性實例，該輸入可為利用顯著性圖316所辨識之一影像的NxN個像素區塊。根據一或多個具體實施例，顯著性圖316可用於辨識被輸入至模型304之該媒體物件的顯著部分。當顯著性圖316係用於第三圖所示之實例中以協助模型304辨識輸入，根據本揭示發明之一或多個具體實施例，模型304可經訓練以辨識一媒體物件的多數顯著區域。

根據一或多個具體實施例，模型304透過該(等)狀態層314保有該代理狀態、整合藉由該訓練資料所提供的完整知識，並建立預測與動作決定兩者。藉由該保持狀態的方式，該代理係能知道在先前迭代中所建立的觀察以及在目前迭代之前多數迭代中所建立的動作與預測歷程。

第四圖提供根據本揭示發明一或多個具體實施例使用之一代理處理流程實例。做為一非限制性實例，該代理程序流程係由實作於軟體、硬體、或軟體與硬體某些組合中的模型304所實行。做為進一步非限制性實例，某些或所有的代理，包含該經訓練模型，係可以使用像是C++、Java®等等的程式語言實作，但不限制於此。影像係被使用做為在第四圖所示之實例中的媒體物件。應該顯而易見的是，任何媒體物件或任何輸入都可以連結本揭示發明之具體實施例使用。

在步驟402，該代理辨識於目前回合中一輸入影像欲被分析的區域。該區域可以包括該輸入影像的某些或全部像素。根據一或多個具體實施例，該代理可以使用顯著性圖316或其他指示器，以辨識該輸入影像感興趣的區域。做為一非限制性實例，顯著性圖316可以辨識局部的影像熵值，例如像素變化，其可用於辨識該影像潛在感興趣的區域以進行分析。

在步驟404，該輸入，例如該經辨識區域的像素資料變成為對輸入層306的輸入，該輸入層306根據於來自該模型304訓練所學習的權重與偏權，將該輸入餽入至該(等)內部層308。對該(等)內部層308的輸入係經處理，例如，該(等)內部層308處理所接收的輸入以擷取多數特徵，並利用許多迴旋核心在該(等)內部層308的許多節點處分析該等特徵，而來自該(等)內部層308的輸出則前餽至該輸出層312。該輸出可以包括映射至語義向量空間318的許多語義向量。

該(等)狀態層314可根據來自該(等)內部層308及/或該輸出層312的輸出而更新，而在步驟306，該代理使用其狀態以辨識要採取的動作或多數動作，像是是否終止或繼續分析、是否建立或放棄建立標籤預測、是否選擇新的分析區域等等，但不限制於此。

在步驟408，該代理建立是否建立標籤預測或多數標籤預測的決定。做為某些非限制性實例，該代理可以決定在目前回合中由該輸出層312所提供的輸出是否重複於前次回合中由該輸出層312所提供的輸出，該代理可以決定無法使用由該輸出層312所提供的輸出辨識標籤等等。做為進一步非限制性實例，該代理可以決定放棄利用由第一圖步驟102所決定之語義向量空間以及由輸出層312所輸出之語義向量或多數語義向量，建立標籤預測。

如果該代理建立從目前回合中由該輸出層312所提供之輸出建立標籤預測的決定，該代理可以使用該輸出，例如具有語義向量的形式，做為對該語義向量空間318的映射圖，以辨識一或多個標籤，像是最接近於由該輸出層312輸出之語義向量所辨識之向量空間318中之一點、區域、範圍等等的一給定距離或落於其內的一或多個標籤，但並不限制於此。

在步驟412，該代理使用由該類神經網路之許多層所提供的狀態資訊，以決定是否終止分析。做為某些非限制性實例，該代理可以在該影像沒有其他欲被分析的範圍時、在已經辨識足夠的標籤數量時、在已經實行一定次數的迭代或回合時等等，終止該分析。如果該代理建立終止分析的決定，處理於步驟416終止。

如果該代理於步驟412建立實行分析之另一回合或迭代以進一步分析該輸入影像的決定，處理便繼續步驟414，以決定是否選擇該影像新區域進行分析。做為某些非限制性實例，該代理可以選擇以進一步分析該目前區域，例如，以該區域較高解析度版本分析該區域、為該(等)輸入層308及/或輸出層312的許多節點指定不同的權重等等。如果該代理選擇進一步分析該目前區域，處理於步驟404繼續。如果該代理選擇辨識該影像另一區域以做為該模型的輸入，處理便於步驟402繼續。

第五圖描述可連結本揭示發明一或多個具體實施例所使用的某些組件。根據本揭示發明的一或多個具體實施例，一或多個計算裝置，例如一或多個伺服器、使用者裝置或其他計算裝置，係經配置以包括於此敘述的功能。舉例而言，一計算裝置502可經配置以執行程式編碼、指令等等，以提供根據本揭示發明一或多個具體實施例的功能。該相同或另一計算裝置502可經配置以執行程式編碼以實作根據本揭示發明一或多個具體實施例的功能。

計算裝置502可以利用瀏覽器應用程式透過網路506提供內容至使用者計算裝置504。資料儲存器508可用於儲存程式編碼以配置一伺服器502具有根據本揭示發明一或多個具體實施例的功能。

該使用者計算裝置504可為任何計算裝置，包含個人電腦、個人數位助理(PDA)、無線裝置、手機、網際網路設備、媒體播放器、家庭劇院系統及媒體中心等等，但不限制於此。為了本揭示發明的目的，計算裝置包含處理器以及用於儲存及執行程式編碼、資料及軟體的記憶體，並可以具備一操作系統，以允許軟體應用程式為了操縱資料而執行。像是伺服器502與該使用者計算裝置504的計算裝置舉例而言可以包含一或多個處理器、記憶體、可移除式媒體讀取器、網路介面、顯示器與介面，以及一或多個像是鍵盤、小鍵盤、滑鼠等等的輸入裝置，以及輸入裝置介面。該領域技術人員將可瞭解該伺服器502與該使用者計算裝置504可以許多不同方式配置，並使用硬體、軟體或韌體的許多不同組合而實作。

根據一或多個具體實施例，一計算裝置502可以建立可由一使用者計算裝置504透過該網路506利用的使用者介面。該使用者計算裝置504所能利用的使用者介面可以包含多數內容項目，或根據本揭示發明一或多個具體實施例為該使用者介面所選擇的識別符(例如，網址)。根據一或多個具體實施例，計算裝置502藉由將一使用者介面的定義透過網路506傳送至一使用者計算裝置504的方式，建立可由該使用者裝置504所可利用的使用者介面。該使用者介面定義可以利用各種任意語言所具體指定，包含像是超文本標記語言的標記語言、腳本、小應用程序等等，但不限制於此。該使用者介面定義可由在該使用者計算裝置504上執行的應用程式處理，像是瀏覽器應用程式，以將該使用者介面輸出至與該使用者計算裝置504耦接的顯示器上，例如以直接或間接方式連接的顯示器。

在一具體實施例中，該網路506可為網際網路、內部網路(網際網路的私有版本)，或任何其他形式的網路。內部網路是一種允許資料於該網路上多數計算裝置之間傳送的電腦網路。所述網路可以包括個人電腦、主機、伺服器、網路致能硬碟，以及可以透過內部網路連接至其他計算裝置的任何其他計算裝置。內部網路使用相同於網際網路的網際網路協定套件。在該套件中最重要的兩個元件為傳輸控制協定(TCP)與網際網路協定(IP)。

如同所討論的，網路可以耦接多數裝置，因此可以交換通訊，像是在一伺服器計算裝置與一客戶端計算裝置或其他形式裝置之間交換通訊，舉例而言，包含在多數透過無線網路耦接之無線裝置之間交換通訊。網路也可以包含大量儲存器，舉例而言，像是網路附加儲存器(NAS)、儲存區域網路(SAN)、或其他電腦形式或機器可讀媒體。網路可以包含網際網路、一或多個區域網路(LANs)、一或多個廣域網路(WANs)、有線形式連接、無線形式連接、或其任意組合。同樣的，像是可運用不同結構或可以符合或相容不同協定的子網路，可以於較大的網路之中進行相互操作。舉例而言，各種形式的裝置便可用於提供對於多種不同架構或協定的相互操作能力。做為一例證實例，路由器可以提供多數分離及獨立LAN之間的鏈結。通訊鏈結或通道可包括，舉例而言，像是絞線對的類比電話線路、同軸電纜、包含T1、T2、T3或T4形式線路的完全或部分數位線路、整體服務數位網路(ISDNs)、數位用戶迴路(DSLs)、包含衛星鏈結的無線鏈結或其他通訊鏈結或通道，像是由該領域技術人員所已經知悉。此外，計算裝置或其他相關的電子裝置可以遠端耦接至網路，舉例而言，像是透過電話線路或鏈結。

一無線網路可以將多數客戶端裝置與一網路耦接。一無線網路可以運用單機隨意網路、網狀網路、無線區域網路(WLAN)、蜂巢式網路或其他類似網路。一無線網路可以進一步包含具有多數終端機、閘道、路由器或其他，其由無線電鏈結或類似所耦接的系統，其可以自由、隨機移動，並自我本身任意組織，因此網路拓撲可以改變，有時甚至是迅速地。無線網路可以進一步運用多種網路存取技術，包含長期演進(LTE)、WLAN、無線路由(WR)網，或是第二代、第三代或第四代(2G、3G或4G)蜂巢式技術或是其他技術，或是其他類似技術。網路存取技術可以達成大範圍的裝置覆蓋，例如像是對於具有不同程度移動性的客戶端裝置。舉例而言，網路可以啟用透過一或多個網路存取技術的無線電頻率或無線形式通訊，像是全球移動通訊系統(GSM)、通用行動通訊系統(UTMS)、通用封包無線服務技術(GPRS)、增強數據GSM環境(EDGE)、3GPP長期演進(LTE)、進化LTE、寬頻多重分碼存取(WCDMA)、藍芽、802.11b/g/n、或其他技術，或是其他類似技術。無線網路幾乎可以包含任何形式的無線通訊機制，藉此訊號可以在像是客戶端裝置或計算裝置的多數裝置之間，於網路或其類似之間或之內等等進行通訊。

透過網路通訊的訊號封包，像是參與數位通訊網路之網路，可以相容於一或多種協定。所運用的訊號發送格式或協定例如可以包含，舉例而言，TCP/IP、UDP、DECnet、NetBEUI、IPX、Appletalk或其他類似。網際網路協定(IP)的版本可以包含IPv4或IPv6。網際網路意指一種多數網路的分散全球網路。網際網路例如包含區域網路(LANs)、廣域網路(WANs)、無線網路或長途公共網路，其舉例而言允許訊號封包於LANs之間進行通訊。訊號封包可以在一網路的多數節點之間通訊，像是舉例而言，傳送至運用一本地網路位址的一或多個站點。訊號封包例如可以在網際網路上從一使用者站點透過耦接至該網際網路的存取點進行通訊。同樣的，舉例而言，訊號封包可以透過多數網路節點傳遞至透過一網路存取點耦接至該網路的目標站點。透過網際網路通訊的訊號封包係例如透過閘道、伺服器等等的路徑所路由，其可以根據一目標位址及對該目標位址之網路路徑可利用性進行訊號封包的路由。

應該顯而易見的是，本揭示發明之具體實施例可於像是第五圖所示之客戶端-伺服器環境中實作。替代的，本揭示發明之具體實施例可以其他環境實作。做為一非限制性實例，與運用例如像是專用伺服器之專用裝置的網路相比之下，點對點(或P2P)網路可以運用網路參與者的計算能力與頻寬；然而，某些網路可以運用此兩者以及其他的方案。P2P網路一般係用於透過隨機佈置或配置的多數連接節點。點對點網路可以運用某些具有操作成為「客戶端」及「伺服器」兩方之能力的節點。

第六圖為根據本揭示發明一或多個具體實施例，描述一計算裝置內部架構的詳細區塊圖式，例如像是伺服器502或是使用者計算裝置504的計算裝置。如第六圖所示，內部結構600包含一或多個處理單元、處理器或處理核心(在此也稱做為CPUs)612，其與至少一電腦匯流排602介接。同樣與該電腦匯流排602介接的有電腦可讀介質606、網路介面614、記憶體604、媒體碟片驅動介面620、顯示介面610、鍵盤介面616、指向裝置介面618以及其他並未獨立圖示之雜項介面，該記憶體604係例如為隨機存取記憶體(RAM)、運行暫存記憶體、唯讀記憶體(ROM)等等，媒體碟片驅動介面620做為用於可以讀取及/或寫入媒體之一裝置的介面，該媒體包含像是軟碟、CD-ROM、DVD等等的可移除式媒體，該顯示介面610做為一監視器或其他展示裝置的介面，該鍵盤介面616做為一鍵盤的介面，該指向裝置介面618則做為一滑鼠或其他指向裝置之介面，而該其他雜項介面則像是平行及串列埠口介面、通用串列匯流排(USB)介面與其他類似介面，其並不被個別繪示。

記憶體604與電腦匯流排602介接，以在軟體程式執行期間提供儲存於該記憶體604中之資訊至CPU 612，像是一操作系統、應用程式、裝置驅動程式及軟體模組，該等軟體程式包含程式碼及/或電腦可執行處理步驟，其整合在此敘述的功能，例如在此敘述的一或多個處理流程。CPU 612首先從儲存器載入電腦可執行程序步驟，像是從記憶體604、電腦可讀儲存介質/媒體606、可移除式媒體裝置及/或其他儲存裝置載入。接著CPU 612可以執行該等儲存程序步驟以執行該等載入之電腦可執行程序步驟。儲存資料，例如由一儲存裝置所儲存之資料係可由CPU 612於該電腦可執行程序步驟執行期間進行存取。

持續性儲存器，介質/媒體606可用於儲存操作系統與一或多個應用程式。持續性儲存器也可用於儲存裝置驅動程式，像是數位相機驅動程式、監視器驅動程式、印表機驅動程式、掃瞄器驅動程式、或其他裝置驅動程式的一或多者、網頁、內容檔案、播放清單及其他檔案。持續性儲存器可進一步包含程式模組與資料檔案，用於實作本揭示發明之一或多個具體實施例，例如，(多數)清單選擇模組、(多數)目標資訊收集模組及(多數)清單通知模組，在本揭示發明實作中這些模組的功能與使用係於此詳細討論。

為了本揭示發明的目的，利用一電腦可讀介質儲存電腦資料，該資料可包含由一電腦所執行，為機器可讀形式之電腦程式碼。做為示例，電腦可讀介質可以包含電腦可讀儲存媒體，用以有形或固定儲存資料，或用以與包含編碼之訊號暫時詮釋的通訊媒體，但並不限制於此。當在此使用時，電腦可讀儲存媒體係指實體或有形儲存(相對於訊號而言)，且並不限制於包含以任何方法或技術實作之揮發及非揮發、可移除或不可移除式媒介，以進行像是電腦可讀指令、資料結構、程式模組或其他資料的資訊有形儲存。電腦可讀儲存媒體包含RAM、ROM、EPROM、EEPROM、快閃記憶體或其他固態記憶體技術、CD-ROM、DVD或其他光學儲存器、磁匣、磁帶、磁碟儲存器或他磁性儲存器裝置，或任何其他可用於有形儲存所需要之資訊或資料或指令，並可由一電腦或處理器所存取之實體或素材介質，但並不限制於此。

該領域技術人員將可認可本揭示發明之方法與系統係可以許多方式實作，因此並不由前述示例具體實施例及示例所限制。換句話說，由單一或複數元件所執行、以硬體及軟體或韌體各種組合之功能元件，或各種個別功能係可散佈於該客戶端或伺服器端或兩方之軟體應用程式之中。就此觀點而言，在此敘述之該等不同具體實施例之任何種類之特徵，可以被組合於單一或複數具體實施例之中，而其他具有較少或較多於在此敘述之該等所有特徵之具體實施例也是可行的。功能性也可以目前已知或未來已知之方法完全或部分地散佈在複數元件之中。因此，有無數的軟體/硬體/韌體組合係可以達成在此敘述之該等功能、特徵、介面及偏好。此外，本揭示發明的範圍係涵蓋傳統上已知用於進行所敘述特徵及功能及介面的方法，而可對於在此敘述之硬體或軟體或韌體元件可進行的那些變化與修改係可於目前與之後由相關領域技術人員所知悉。

雖然該系統與方法已經針對一或多個具體實施例所敘述，但要瞭解到本揭示發明不需要被限制於所揭示之具體實施例中。預期其涵蓋包含於該等申請專利範圍之精神與範圍內的各種修改與類似的佈置，其範圍應被賦予有最寬廣的解釋，以涵蓋所有所述修改與類似的結構。本揭示發明包含以下申請專利範圍之任何與所有的實施方案。

Claims

一種方法，包括：由一計算裝置使用一經訓練模型做為一代理，以使用許多次分析回合分析一媒體物件，該經訓練模型包括許多狀態層，用以儲存來自由該代理進行該媒體物件之每一分析回合的成果；由該計算裝置並使用該代理，於目前分析回合中，決定於該媒體物件分析中要採取的次一動作，該決定係使用來自該許多狀態層的經儲存狀態，以及由該代理所進行之目前分析回合的結果所建立；及由該計算裝置並使用該代理，提供來自該媒體物件的許多次分析回合的一輸出，該輸出包括複數個與該媒體物件內容相對應的標籤。
如申請專利範圍第1項之方法，該代理的經訓練模型係為一遞迴類神經網路，其包括一輸入層、許多內部層、一輸出層與許多狀態層。
如申請專利範圍第2項之方法，該遞迴類神經網路係訓練自一迴旋類神經網路，該迴旋類神經網路包括該輸入層、該許多內部層與該輸出層，並使用包括複數個媒體物件及與該複數個媒體物件相關聯之詮釋資料的訓練資料，該遞迴類神經網路包括從該迴旋類神經網路所學習的參數組所更新的一組參數。
如申請專利範圍第3項之方法，該訓練資料進一步包括許多顯著性圖，每一顯著性圖都與該複數個媒體物件之一媒體物件相對應，該等顯著性圖係用於訓練該代理辨識該媒體物件用於分析的一部分。
如申請專利範圍第1項之方法，從該媒體物件的許多次分析回合提供一輸出，係進一步包括：由該計算裝置並使用該代理，利用映射至一語義向量空間之許多語義向量，辨識該複數個標籤，該許多語義向量係由該模型於該媒體物件的許多次分析回合所辨識。
如申請專利範圍第1項之方法，於目前分析回合中決定於該媒體物件分析中要採取的次一動作，係進一步包括：由該計算裝置並使用該代理，決定是否建立一標籤預測；由該計算裝置並使用該代理，決定是否辨識該媒體物件的一新區域，以於該媒體物件的次一分析回合中分析；及由該計算裝置並使用該代理，決定是否終止該媒體物件的分析。
如申請專利範圍第6項之方法，決定是否辨識該媒體物件的一新區域，以於該媒體物件的次一分析回合中分析，係進一步包括：由該計算裝置並使用該代理，利用使用該媒體物件所產生之一顯著性圖，決定在該媒體物件的次一分析回合中，被分析之該媒體物件的新區域。
一種系統，包括：至少一計算裝置，每一計算裝置都包括一處理器與一儲存介質，用以在其上有形儲存由該處理器所執行之程式邏輯，該經儲存程式邏輯包括：使用邏輯，其由該處理器所執行，以使用一經訓練模型做為一代理，利用許多次分析回合分析一媒體物件，該經訓練模型包括許多狀態層，用以儲存來自在由該代理所進行之該媒體物件每一分析回合的成果；建立邏輯，其由該處理器所執行，使用該代理於目前分析回合中，決定於該媒體物件分析中要採取的次一動作，該決定係使用來自該許多狀態層的經儲存狀態，以及由該代理所進行之目前分析回合的結果所建立；及提供邏輯，其由該處理器所執行，使用該代理以提供來自該媒體物件的許多次分析回合的一輸出，該輸出包括複數個與該媒體物件內容相對應的標籤。
如申請專利範圍第8項之系統，該代理的經訓練模型係為一遞迴類神經網路，其包括一輸入層、許多內部層、一輸出層與許多狀態層。
如申請專利範圍第9項之系統，該遞迴類神經網路係訓練自一迴旋類神經網路，該迴旋類神經網路包括該輸入層、該許多內部層與該輸出層，並使用包括複數個媒體物件及與該複數個媒體物件相關聯之詮釋資料的訓練資料，該遞迴類神經網路包括從該迴旋類神經網路所學習的參數組所更新的一組參數。
如申請專利範圍第10項之系統，該訓練資料進一步包括許多顯著性圖，每一顯著性圖都與該複數個媒體物件之一媒體物件相對應，該等顯著性圖係用於訓練該代理辨識該媒體物件用於分析的一部分。
如申請專利範圍第8項之系統，由該處理器所執行用以從該媒體物件的許多次分析回合提供一輸出之該提供邏輯，係進一步包括：辨識邏輯，其由該處理器所執行，使用該代理以利用映射至一語義向量空間之許多語義向量，辨識該複數個標籤，該許多語義向量係由該模型於該媒體物件的許多次分析回合所辨識。
如申請專利範圍第8項之系統，由該處理器所執行以於目前分析回合中決定於該媒體物件分析中要採取的次一動作之建立邏輯，係進一步包括：決定邏輯，其由該處理器所執行，使用該代理以決定是否建立一標籤預測；決定邏輯，其由該處理器所執行，使用該代理以決定是否辨識該媒體物件的一新區域，以於該媒體物件的次一分析回合中分析；及決定邏輯，其由該處理器所執行，使用該代理以決定是否終止該媒體物件的分析。
如申請專利範圍第13項之系統，由該處理器所執行以決定是否辨識該媒體物件的一新區域，以於次一分析回合中分析，是否辨識欲被分析之該媒體物件的新區域之決定邏輯，係進一步包括：決定邏輯，其由該處理器所執行，使用該代理以利用使用該媒體物件所產生之一顯著性圖，決定在該媒體物件的次一分析回合中，被分析之該媒體物件的新區域。
一種電腦可讀非暫存性儲存介質，用以在其上有形儲存多數電腦可讀指令，當該等電腦可讀指令被執行時造成至少一處理器進行：使用一經訓練模型做為一代理，以使用許多次分析回合分析一媒體物件，該經訓練模型包括許多狀態層，用以儲存來自由該代理進行該媒體物件之每一分析回合的成果；使用該代理於目前分析回合中，決定於該媒體物件分析中要採取的次一動作，該決定係使用來自該許多狀態層的經儲存狀態，以及由該代理所進行之目前分析回合的結果所建立；及使用該代理提供來自該媒體物件的許多次分析回合的一輸出，該輸出包括複數個與該媒體物件內容相對應的標籤。
如申請專利範圍第15項之電腦可讀非暫存性儲存介質，該代理的經訓練模型係為一遞迴類神經網路，其包括一輸入層、許多內部層、一輸出層與許多狀態層。
如申請專利範圍第16項之電腦可讀非暫存性儲存介質，該遞迴類神經網路係訓練自一迴旋類神經網路，該迴旋類神經網路包括該輸入層、該許多內部層與該輸出層，並使用包括複數個媒體物件及與該複數個媒體物件相關聯之詮釋資料的訓練資料，該遞迴類神經網路包括從該迴旋類神經網路所學習的參數組所更新的一組參數。
如申請專利範圍第17項之電腦可讀非暫存性儲存介質，該訓練資料進一步包括許多顯著性圖，每一顯著性圖都與該複數個媒體物件之一媒體物件相對應，該等顯著性圖係用於訓練該代理辨識該媒體物件用於分析的一部分。
如申請專利範圍第15項之電腦可讀非暫存性儲存介質，當該等電腦可讀指令被執行時進一步造成至少一處理器從該媒體物件的許多次分析回合提供一輸出，係進一步包括當執行該等電腦可讀指令時進一步造成至少一處理器：使用該代理利用映射至一語義向量空間之許多語義向量，辨識該複數個標籤，該許多語義向量係由該模型於該媒體物件的許多次分析回合所辨識。
如申請專利範圍第15項之電腦可讀非暫存性儲存介質，當該等電腦可讀指令被執行時進一步造成至少一處理器於目前分析回合中決定該媒體物件分析中要採取的次一動作，係進一步包括當執行該等電腦可讀指令時進一步造成至少一處理器：使用該代理決定是否建立一標籤預測；使用該代理決定是否辨識該媒體物件的一新區域，以於該媒體物件的次一分析回合中分析；及使用該代理決定是否終止該媒體物件的分析。
如申請專利範圍第20項之電腦可讀非暫存性儲存介質，當該等電腦可讀指令被執行時進一步造成至少一處理器決定是否辨識該媒體物件的一新區域，以於次一分析回合中分析，係進一步包括：使用該代理利用使用該媒體物件所產生之一顯著性圖，決定在該媒體物件的次一分析回合中，被分析之該媒體物件的新區域。