TWI559242B

TWI559242B - 視覺化服飾檢索

Info

Publication number: TWI559242B
Application number: TW103113196A
Authority: TW
Inventors: 林登甘迺迪; 佳李; 隆尼司卡藍提迪斯
Original assignee: 雅虎股份有限公司
Priority date: 2013-04-17
Filing date: 2014-04-10
Publication date: 2016-11-21
Also published as: TW201443807A; US20140314313A1; US9460518B2; WO2014172506A1

Description

視覺化服飾檢索

本發明關於影像擷取，且更具體地，關於擷取有關一查詢影像的產品影像。

此段落內描述的方式為所要追求的方式，但不必然為先前所構思或追求的一些方式。因此除非另有只是，否則不應僅憑藉包括在本段落內，就假設本段落內描述的任何方式符合先前技術。

例如新聞網站、部落格以及社交網站這許多網站通常將許多關聯於一或多個影像顯示的內容形式呈現給使用者，例如，名人新聞網站可包括顯示有關許多名人新聞與相關影像的網頁；社交網站可包括內有社交網站使用者所張貼影像的使用者產生內容之網頁。

上述網站的經營者可能時常想要從網站的網頁當中獲利，網頁的一種獲利方式就是在網頁之內顯示廣告。為了提高使用者觀看特定網頁對於所顯示廣告產生興趣的概率，網站經營者及/或廣告主可嘗試呈現與該網頁內容相關的廣告，例如，名人新聞網站的經營者可能想要與顯示給使用者的名人新聞內容相關之廣告。

針對網頁內容部分包括影像的網站，相關廣告的顯示方式為顯示與該影像內容相關的廣告，不過單獨根據影像資料，還無法做到呈現影像內容來搜尋相關廣告的目標。決定用於選擇相關廣告的影像內容之一種方法為使用人工手動識別影像內描述的元素，並且根據已識別元素選擇廣告。不過，影像內容人工辨識以及手動選擇相關廣告相當耗時並且耗費人力，並且隨著要處理的影像數量增加而無法有效擴展。

100‧‧‧處理

202‧‧‧主題人物

204‧‧‧方塊區

206‧‧‧方塊區

300‧‧‧影像

302‧‧‧方塊區

400A‧‧‧影像

402‧‧‧遮蓋區

404‧‧‧未遮蓋區

400B‧‧‧查詢影像

406‧‧‧叢集的影像區段

500‧‧‧結果顯示

502‧‧‧查詢影像

504‧‧‧產品影像結果

506‧‧‧產品影像結果

600‧‧‧電腦系統

602‧‧‧匯流排

604‧‧‧硬體處理器

606‧‧‧主記憶體

608‧‧‧唯讀記憶體

610‧‧‧儲存裝置

612‧‧‧顯示器

614‧‧‧輸入裝置

616‧‧‧游標控制器

618‧‧‧通訊介面

620‧‧‧網路連結

622‧‧‧區域網路

624‧‧‧主機電腦

626‧‧‧網際網路服務商

628‧‧‧網際網路

630‧‧‧伺服器

圖式中：第一圖為在一具體實施例中，描述根據一查詢影像識別相關產品影像的一般處理之流程圖；第二圖為在一具體實施例中，呈現為成查詢影像上圖形重疊的明確姿勢評估之圖式；第三圖為在一具體實施例中，呈現為查詢影像上圖形重疊的全體產品概率圖之圖式；第四A圖為在一具體實施例中，由概率型影像遮罩所遮蓋的一範例查詢影像圖式；第四B圖為在一具體實施例中，第四A圖中該查詢影像分成多重影像區段及影像區段叢集的圖式；第五圖為在一具體實施例中，產品影像結果顯示之圖式；第六圖為例示可實施本發明具體實施例的一電腦系統之方塊圖。

在下列說明中，用於解釋說明，將公佈許多設定細節以提供對本發明通盤的了解。不過，吾人可瞭解到，在沒有這些特定細節的情況下也可實施本發明。在其他實例中，已知的結構與裝置使用方塊圖來顯示，以避免模糊本發明。

概觀

本說明書內描述的技術係根據查詢影像內偵測到的產品項目，有效識別相關產品影像。一般而言，查詢影像可為任何格式的數位影像，描述一人體及一或多個產品項目，例如，一查詢影像可為顯示在網頁上的影像、使用者使用相機裝置拍攝的影像或屬於媒體內容項目一部分的影像，例如來自視訊的訊框。查詢影像內描述的產品項目一般可包括有關該查詢影像內主題人物描述的任何有形物體。產品項目的非限制範例包括服飾項目、服飾配店及其他非服飾項目，例如手提包、雨傘及電子裝置。

在一方式當中，利用將一查詢影像分成複數個影像區段，並且將該等複數個影像區段之一或多者叢集成一或多個影像區段叢集，以偵測該查詢影像內的產品項目。一影像區段通常可代表根據該影像區域之內一或多個共享特性，例如該影像區域的共享顏色及/或紋理，所定義的一查詢影像之一連續區域。因為描述特定產品項目的影像區域通常會展現出類似顏色與紋理特性(例如藍色襯衫可描述為具有類似紋理的藍色像素連續區域)，所以產生的影像區段可對應特定產品項目或產品項目一部分的查詢影像內概略位置。

查詢影像內描繪的某些產品項目可能沒有佔用連續影像區域。例如，描繪一位模特兒穿著一件開襟外套的一查詢影像包括兩視覺上分開的影像區域，對應模特兒身體兩邊開襟外套的每一半。如此，針對上述影像分區處理的結果，查詢影像內描繪的某些產品項目最初可分成兩或多個別影像區段。不過，為了識別相關產品影像，有需要將描繪單一產品項目的多個影像區段識別成為單一合併的影像區段。如此，在一具體實施例中，產生用於查詢影像的一或多個影像區段可叢集成為一或多個影像區段叢集。例如藉由識別兩或多個視覺相似影像區段，及將該等影像區段合併成由單一影像區段叢集來表示，以產生影像區段叢集。

在一具體實施例中，該等結果影像區段與影像區段叢集可用來搜尋視覺相似產品影像。在一方式中，為了縮小類似產品影像的搜尋，針對一或多個影像區段和影像區段叢集來決定一產品等級。產品等級可從產品項目呈現分類當中選擇，例如特定類型服飾(例如襯衫、裙子、靴子)及其他類型配件和產品項目(例如手提包、雨傘、髮型、電子裝置)。在一具體實施例中，利用比較影像區段至影像訓練集合的空間呈現與已加上標籤的產品等級區域，可決定特定影像區段或影像區段叢集的產品等級。

在一方式中，已分類的影像區段與影像區段叢集可用來搜尋相關產品項目的產品影像資料庫。因為該產品影像代表已知的產品項目，所以每一產品影像可關聯於來自於用於區分影像區段的相同分類法的一或多個產品等級。如此，有關已分類影像區段或影像區段叢集的產品影像搜尋可將焦點放在有關該相同產品等級的產品影像集合上。在一具體實施例中，根據一或多個產品影像與特定影像區段及/或影像區段叢集之間的視覺相似度，可從該資料庫當中選擇與擷取產品影像。

實施範例

第一圖為在一具體實施例中，描述根據一查詢影像識別相關產品影像的一處理100之流程圖。在步驟102，接收一查詢影像。一般而言，查詢影像代表任何數位影像，其要根據該查詢影像內偵測到的產品項目，找出相關產品影像。具體實施例並不受限於該查詢影像的特定來源或格式，例如，可從網路開發工程師或想要使用該查詢影像當成網頁上要顯示內容一部分的其他使用者，接收一查詢影像。針對其他範例，一查詢影像可接收自數位相機、行動電話、平板電腦或可擷取影像的其他裝置。處理100的步驟一般可由任何計算裝置執行，或由可接收查詢影像，包括伺服器電腦、桌上型電腦、膝上型電腦、智慧型手機、平板電腦等等的組合來執行。

在一具體實施例中，一查詢影像通常包括人的穿著、拿的物品或與一或多個產品項目相關聯的東西。如一範例，查詢影像可包括要顯示在網頁上的數位影像，描繪穿著一或多個特定有興趣服飾項目的名人、模特兒或其他人。如另一範例，查詢影像可包括使用者行動電話拍攝的數位相片，並且描繪人在一般環境當中，例如住家或街上，穿著許多服飾項目。如仍舊另一範例，查詢影像可包括來自特定媒體內容的訊框，描繪有關許多產品項目的男演員或女演員。

明確的姿勢評估

在步驟104，針對一已接收的查詢影像產生一明確的姿勢評估。明確的姿勢評估通常代表有關影像內所描繪人體的特定姿勢之資料呈現。例如，為了描繪人以特定姿勢站立的查詢影像所產生之明確姿勢評估可包括該影像內對應人身體許多部位的適當位置呈現，例如人的頭部、頸、手臂、軀幹等等。

在一具體實施例中，針對一查詢影像產生的明確姿勢評估包括產生一組該查詢影像的方塊區，其中該等方塊區之每一者定義該查詢影像的一區域，對應人體特定部分的大約位置。例如，該等已產生方塊區之一者可定義對應該查詢影像內主題人物頭部概略位置的一區域；該等方塊區的另一者可定義對應該人手部概略位置的一區域。所產生的方塊區數量完全取決於人體偵測部分當中所要的細膩程度，具體實施例並不受限於特定明確姿勢評估演算法，任何合適的明確姿勢評估演算法可用來產生該查詢影像的該方塊區。

產生一明確姿勢評估的範例說明由Y.Yang和D.Ramanan於2011年美國科羅拉多泉電腦視覺與模式辨識(CVPR，Computer Vision and Pattern Recognition)IEEE會議所提出的「Articulated pose estimation with flexible mixture-of-parts」，其內容在此併入本文供參考。

第二圖例示具一明確姿勢評估重疊該查詢影像的視覺呈現之一查詢影像範例。第二圖包括一影像200，描繪以特定姿勢在一背景前站立的主題人物202。

第二圖更包括許多方塊區，例示為重疊主題人物202的接鄰方塊，包括範例方塊區204、206。該等方塊區重疊影像200可代表例如，方塊區由一明確姿勢評估針對影像200內描繪的主題人物202所產生。例如，方塊區204例示成重疊影像200的一區域，對應主題人物202頭頂的位置。方塊區206例示成重疊影像200的一區域，對應主題人物202手部的位置。同樣地，其餘的方塊區例示成重疊身體的許多其他部位。如第二圖內方塊區所例示，由一明確姿勢評估產生的該等方塊區可重疊一或多個其他方塊區。

第二圖的方塊區僅供例示；其他合適的明確姿勢評估演算法可產生更多或更少區域，並且該等區域可具有不同大小與形狀。此外，呈現一明確姿勢評估的資料可個別儲存在該查詢影像內用於產生該明確姿勢評估，並且不需要產生例如第二圖內所例示的一視覺呈現來執行本說明書內說明的其他處理步驟。

產品概率圖

請即重新參考第一圖，在步驟106，根據該明確姿勢評估產生一產品概率圖。一般而言，產品概率圖可用來識別該查詢影像當中最可能描繪一產品項目的區域。在一具體實施例中，一查詢影像特定區域描繪產品項目的概率可根據影像的訓練集合來決定，其具有標示特定產品等級的影像區域。在一具體實施例中，產品概率圖可用來產生一影像遮罩，可用來將決定可能不會描繪產品項目的查詢影像部分遮罩，藉此可讓後續處理步驟將焦點放在可能描繪產品項目的影像區域上。

在一具體實施例中，產品概率圖係根據由該明確姿勢評估產生的方塊區空間量化成多重子區域，在此稱為色塊。例如，明確姿勢評估產生的該等方塊區之每一者可縮放成統一的像素寬度，並且分成N x N非重疊網格，其中每一網格位置對應一獨立色塊。因為該明確姿勢評估區域可重疊在該查詢影像上的區域上，所以由相對於該影像的x和y座標所定義之一特定影像像素可佔用一或多個該明確姿勢評估區域的一或多個色塊覆蓋之位置。如此，影像的每一像素可由一函數表示，指出該明確姿勢評估區域的色塊覆蓋該像素所在的位置。

在一具體實施例中，根據具有標註產品等級的影像訓練集合，可產生產品概率圖，例如，影像訓練集合內的每一影像可包括標示特定產品等級的一或多個影像區段。在一具體實施例中，產生個別產品概率圖給該影像訓練集合內含的每一產品等級，並且合併在一起來產生一全體產品概率圖。為了建立特定產品等級的概率圖，該訓練集合內標註該特定產品等級的每一影像像素，針對該量化明確姿勢評估區域中覆蓋該像素所在位置的每一色塊上該特定產品等級投出「選票」，其中投票給一色塊會增加儲存在與該色塊相關聯的值上。在一具體實施例中，特定產品等級像素的「選票」可累積給含有該特定產品等級的該訓練集合影像並正規化，導致該明確姿勢評估區域的每一色塊介於0與1之值。在針對個別產品等級之每一者產生產品概率圖之後，全體產品概率圖可定義為每一產品等級的該產品概率等級的合併，其中每一色塊係與指出概率的值有關聯，該概率即該色塊描繪來自該影像訓練集合內所描繪任何產品等級的一產品項目。

上述用於產生產品概率圖的處理假設，特定產品項目通常描繪在該影像訓練集合內人體上類似的位置，例如，假設標示「帽子」產品等級的影像訓練集合區域一般可位於類似位置(即是接近影像內主題人物的頭部)，而個別查詢影像可類似的假設。不過，某些產品項目相對於人體來說通常位於許多位置，例如；女人的錢包通常背在女人身體兩側，並且手錶通常戴在其中一隻手腕上。在一具體實施例中，為了說明這種產品項目的不同可能位置，則影像訓練集合的影像可垂直分成兩個影像半邊。該影像的一半可根據上述票選程序來處理，而影像的另一半可用鏡像方式複製，並且該鏡像影像可用於上述票選程序，而非使用該原始影像。在此方式中，通常描繪成對稱身體左右兩側的產品項目在該影像訓練集合當中，只會呈現在身體一側，以便改善該票選程序的準確度。

第三圖為呈現為查詢影像上圖形重疊的全體產品概率圖之圖式。第三圖包括影像300，其例示重疊該影像的許多明確姿勢評估區域，包括方塊區302。

第三圖的方塊區302之例示包括該區域內的色塊網格，用變化灰色陰影的方形子區域表示。方塊區302的色塊網格對應該等明確姿勢評估區域的範例空間量化，如上述。在第三圖的範例中，該等明確姿勢評估區域之每一者分成6 x 6網格的36色塊。該等色塊之每一者例示的陰影可代表一概率位準，其中每一色塊描繪依照相關聯全體產品概率圖所決定的一產品項目。例如，方塊區302左上角與右上角的暗色塊可代表由任何產品等級相對較少投票的色塊，如此不可能描繪一產品項目。相對的，方塊區302中間底部的亮色塊可代表由一或多個產品等級票選的色塊，指出該等色塊比較有可能描繪一產品項目。

第三圖描述的該概率圖僅供例示，一般來說，全體產品概率圖可用任意資料格式儲存，並且並不需要產生如第三圖內的概率圖之圖示，就可執行本說明書內描述的其他處理步驟。

在一具體實施例中，全體產品概率圖可用來產生一概率型影像遮罩。在此關聯當中，一概率型影像遮罩為一影像遮罩，當套用至一查詢影像時，產生只有在可能描繪一產品項目的影像區域內非零之新影像，這由特定概率臨界來決定。在一範例中，可選擇概率臨界值為0.5，如此只有該明確姿勢評估區域當中比較有可能描繪出產品項目的色塊會維持在遮蓋影像內；在其他具體實施例中，根據特定使用情況，可選擇其他概率臨界值。

第四A圖為由概率型影像遮罩所遮蓋的一範例查詢影像圖式。在第四A圖，影像400A包括遮蓋區402及未遮蓋區404。例如，假設已經產生影像400A的明確姿勢評估與全體產品概率圖，然後針對影像400A產生的該全體產品概率圖可用來產生一概率型影像遮罩，用來遮蓋影像400A上，已決定可能描繪產品項目的一明確姿勢評估區域色塊以外之區域。例如，遮蓋區402可代表影像400A的這種遮蓋區域。相反地，未遮蓋區404可代表影像400A上，已根據該全體產品概率產品決定可能描繪產品項目之區域。在一具體實施例中，影像400A的後續處理步驟可集中在非遮蓋區404。

影像分段與叢集

請即重新參考第一圖，在步驟108，該查詢影像區分成一或多個影像區段，並且該等影像區段之兩或多者叢集成一或多個影像區段叢集。在一具體實施例中，查詢影像的分段通常包括套用一分段演算法至該查詢影像，藉此使該查詢影像劃分成兩或多個非重疊影像區段。

在一具體實施例中，一影像分段演算法所產生的每一影像區段代表該查詢影像邊界內的任意形狀與大小的連續區域。該查詢影像的連續區域所對應的一特定影像區段通常包括根據該等像素共享的一或多個特性(例如，類似顏色及/或紋理)所組群的影像像素。利用將查詢影像分段，該查詢影像所描繪的產品項目及其他主題可分隔成分散的影像區段，然後在後續處理步驟當中個別處理。

一般而言，任何合適的影像分段演算法可用來將該查詢影像分段。在一具體實施例中，可使用參數化的分段演算法，其中指定參數值來指出該分段的「深度」。當將像素組群成個別影像區段時，該參數值通常對應如何區分該分段演算法，且因此，通常對應至所產生的整體區段數量。若要更多有關範例參數化影像分段演算法的資訊，請參閱以下：P.F.Felzenszwalb、D.P.Huttenlocher於2004年9月發表於電腦視界國際期刊第59卷第2號的「Efficient graph-based image segmentation」，其內容在此併入本文供參考。

不管所使用的影像分段演算法，查詢影像的分段典型可導致一些「過度分段」。在此關聯當中，過度分段表示產生該查詢影像的兩或多個影像區段，其對應該影像內描繪的單一產品項目或其他主題。例如，描繪主題人物穿著未拉拉練外套正面照的查詢影像可「過度分段」成兩個分開的影像區域，其對應開襟外套的兩半。為了對類似產品項目規劃更精準的搜尋公式，可根據該等影像區段的視覺相似度，叢集兩或多個初始產生的影像區段，以形成可用來搜尋類似產品影像的單一影像區段叢集。

在一具體實施例中，根據視覺特色空間內該等影像區段的一向量型呈現，叢集初始產生的影像區段集合。該等影像區段的視覺特色空間可根據等影像區段的一或多個特性，包括顏色、紋理或該等影像區段內含影像像素的任何其他特性。該等影像特性可用來產生每一影像區段的n維度特徵向量，其可使用任何合適的叢集演算法加以叢集。可用來叢集特徵向量的叢集演算法之一範例如下：Y.Avrithis、Y.Kalantidis於2012年10月發表於歐洲電腦視界會議的「Approximate Gaussian Mixtures for Large Scale Vocabularies」，其內容在此併入本文供參考。

第四B圖為第四A圖中該查詢影像分成多重影像區段及影像區段叢集的圖式。第四B圖包括查詢影像400B及許多例示影像區段，由變化陰影的連續影像區域所表示。例如，第四B圖內例示的該等影像區段可代表，將影像分段演算法套用至影像400A所產生的影像區段。第四圖更包括一叢集的影像區段406，由相同顏色與紋理並且由虛線分隔的兩個別影像區段所例示。在第四A圖、第四B圖的範例中，叢集的影像區段406代表兩視覺分隔影像區段，對應影像400A內所描繪女人穿著的外套兩半。因為影像400A描繪該外套的區域大致上展現出類似顏色與紋理特性，則針對該外套兩半產生的該等個別影像區段可在一叢集步驟中合併成單一影像區段，如上述。

影像區段區分

在第一圖的步驟110，步驟108產生的該等影像區段與影像區段之一或多者之每一者分類成一產品等級。在一具體實施例中，一產品等可定義為產品等級分類的一部分，例如，產品等級分類可包括許多產品等級，代表不同類型服飾(例如襯衫、裙子、靴子)、服飾配件(例如手提包、領巾、手錶)及其他非服飾項目(例如雨傘、運動設備)。利用將一影像區段或影像區段叢集分類成特定產品等級，如此可對該特定產品等級之內類似產品項目影像進行更集中的搜尋，如以下進一步描述。

在一具體實施例中，利用相對於人體產生該影像區段空間位置的呈現，並將產生的呈現與來自訓練影像集合中標示區域的已儲存空間呈現集合做比較，可將影像區段或影像區段叢集分成一產品等級。例如，該等訓練影像可與用來產生產品概率圖的訓練影像相同或類似，如上述。該儲存的空間呈現可指出，人體上的特定產品等級通常位於該等訓練影像內何處。在一具體實施例中，查詢影像的影像區段空間位置及訓練影像的影像區段由二進位向量表示。該等二進位向量可由票選程序產生，類似於用來產生一產品概率圖的票選程序，指出內含該影像區段像素的一正規化明確姿勢評估之色塊。

在一具體實施例中，為了決定特定影像區段的產品等級，在該影像訓練集合內量測針對該特定影像區段產生的該二進位向量與針對該已標示服飾區段產生的該等二進位向量之相似度。可用於二進位向量的相似度測量之一範例為Jaccard相似度係數，用該等二進位向量的交叉大小除以該等二進位向量的統一大小，以定義兩二進位向量的相似度。該結果相似度測量值可針對一相似度臨界值來測量，決定該候選影像區段是否足夠類似於該訓練集合內特定產品等級影像的該等已標示影像區段。在一具體實施例中，可將有關該最高相似度測量值的產品等級指派給候選影像區段。

在一具體實施例中，用於該等訓練向量的該等二進位向量可加入索引，以增加搜尋效率。如一非限制的索引範例可用來檢索該等訓練影像中該等二進位向量，可使用多探測局部敏感雜奏(LSH，Locality-Sensitive Hashing)索引來索引該等訓練向量。

產品影像擷取

請即重新參考第一圖，在步驟112，對於一或多個該等影像區段及/或影像區段叢集而言，針對相關產品影像執行搜尋，例如，根據一或多個上述該等處理步驟產生的影像區段叢集之屬性可用來搜尋產品影像集合，以識別出描繪與該影像區段叢集視覺相似的特定產品項目之產品影像。在一具體實施例中，一或多個該等已識別產品影像可呈現為一組搜尋結果，或供更進一步的處理步驟使用，例如，該等已識別產品影像可用來產生一或多個產品廣告，用於顯示在網頁或其他畫面當中。

一般而言，該等可搜尋產品影像可獲自於任意來源數，例如，產品影像可獲自於一或多個產品項目型錄，用來在網頁上顯示產品項目。因為該等產品影像主要獲自於要顯示該等產品項目的影像，所以該等產品影像通常會針對最中性的背景來描繪特定產品項目。在一具體實施例中，每一該等產品影像可關聯於一或多個該等產品等級來儲存，其中該等產品等級來自於上述對應該產品影像所描繪產品項目的該產品等級分類，並且使用指定給一影像區段或一影像區段叢集的該產品等級來選擇產品影像。

在一具體實施例中，針對可產生哪種搜尋要求的產品影像可預先處理及編入索引，以促成更有效率的搜尋。產品影像的預先處理可包括將該產品影像分成一產品影像區段及一非產品影像區段，例如，產品影像的分段可用來移除背景資訊，及保留只含該影像內描繪的該產品項目之影像區段。在一特定具體實施例中，例如GrabCut演算法的這類分段演算法可用來將該等產品影像分成一產品影像區段及一非產品影像區段。若要更多有關GrabCut演算法的資訊，請參閱以下：C.Rother、V.Kolmogorov、A.Blake於2004年8月1日在計算機協會ACM圖形交易(TOG，Transactions on Graphics)第23(3)卷內「GrabCut：Interactive foreground extraction using iterated graph cuts」，其內容在此併入本文供參考。

若所描繪的產品影像之產品項目由模特兒或其他人穿著，則所產生的產品項目區段部分可包括描繪人物皮膚的一或多個區域。描繪人物皮膚的這些區域會導致精準度低的產品項目影像，因此利用從該影像區段篩選出該等皮膚區域而移除掉。在一具體實施例中，使用人類皮膚的影像樣本當成遮罩，篩選出該等皮膚區域，將對應皮膚的影像區段區域篩選出來，隔離出該影像區段內的該產品項目。

在一具體實施例中，一產品項目影像區段可用來產生一特徵向量，用於比較查詢影像區段。在一具體實施例中，根據顏色、紋理或任何其他影像特性擷取出產品項目影像區段的一特徵向量，將一特定影像區段特徵化。在一具體實施例中，該等產品影像與相關特徵向量可儲存在一資料庫內並索引。在一特定具體實施例中，一k最近相鄰索引可用做相關特徵向量的索引。一索引可建立用於整個特徵向量集合，或個別索引可建立用於每一產品等級。若針對每一產品等級建立個別索引，在特定影像區段的查詢次數上，只搜尋對應有關該影像區段的該產品等級之該索引。

在一具體實施例中，在該查詢影像內識別並且關聯於一產品等級的每一影像區段或影像區段叢集，可用來搜尋視覺相似的產品項目，例如，與「外套」產品等級相關聯的查詢影像之影像區段叢集可用來搜尋與「外套」產品等級相關聯的產品項目影像之索引集合，根據產生給該影像區段叢集的該特徵向量與該結果產品項目影像的該等特徵向量間之相似度，選擇該等結果產品項目影像。

第五圖為一範例產品影像結果顯示500的圖式。結果顯示500包括一範例查詢影像502及產品影像結果504、506。查詢影像502描繪一人穿著許多種服飾，包括褲子與襯衫或短衫。查詢影像502可根據上述第一圖所示步驟102-112的一或多者進行處理，產生產品影像結果504、506。產品影像結果504、506只提供當成兩個範例；在實際具體實施例中，根據偵測的產品項目等級數量及其他使用者偏好，可產生任意數量的產品影像結果顯示。

產品影像結果504、506之每一者包括描繪產品項目的許多產品影像，該等項目視覺相似於查詢影像502內描繪的產品項目，例如，產品影像結果504包括褲子的許多產品影像，這些褲子視覺相似於查詢影像502內描繪的人所穿著的褲子，同樣地，產品影像結果506包括短衫的許多產品影像，這些短衫視覺相似於查詢影像502內描繪的人所穿著的短衫。

在一具體實施例中，該等產品影像結果可用來產生一或多個產品廣告，用於顯示在網頁中，例如，針對要顯示在網頁上當成網頁內容一部分的查詢影像，可使用該查詢影像的該等結果產品影像之一或多者，產生關於該查詢影像顯示的廣告。該等廣告可例如提供連結其他網站，使用者可在此購買該等產品影像內描繪的該等產品項目。在另一具體實施例中，可將產品影像結果呈現給使用者，讓該使用者選擇視覺相似的產品項目。上述由該處理所產生產品項目影像的使用者協助選擇可用來產生更正確的廣告顯示。

硬體概觀

根據一具體實施例，本說明書內描述的該等技術可由一或多個特殊用途計算裝置來實施。該等特殊用途計算裝置可為執行該等技術的硬體，或可包括數位電子裝置，例如一或多個專用積體電路(ASIC，Application-specific Integrated Circuit)或可程式邏輯閘陣列(FPGA，Field Programmable Gate Array)，其可持續程式編輯來執行該等技術，或可包括一或多個一般用途硬體處理器，程式編輯來執行屬於韌體、記憶體、其他儲存體或組合內程式指令之該等技術。這種特殊用途計算裝置也可將客製化硬線邏輯、專用積體電路或可程式邏輯閘陣列與客製程式編輯結合，來達成該等技術。該特殊用途計算裝置可為桌上型電腦系統、可攜式電腦系統、手持裝置、網路裝置或併入硬線及/或程式邏輯來實施該等技術的任何其他裝置。

例如，第六圖為例示其上可實施本發明具體實施例的一電腦系統600之方塊圖。電腦系統600包括一匯流排602或其他通訊機構，用於通訊資訊；及一硬體處理器604，其與匯流排602耦合用於處理資訊。硬體處理器604可例如為一般用途微處理器。

電腦系統600也包括主記憶體606，像是隨機存取記憶體(RAM，Random Access Memory)或其他動態儲存裝置，耦合至匯流排602，用於儲存該處理器604要執行的資訊與指令。主記憶體606也可用於儲存暫時變數或處理器604執行指令期間的其他中間資訊。當這種指令儲存在處理器604可存取的非暫態儲存媒體內，其讓電腦系統600變成一般用途機器，可客製化成執行該等指令內指定的操作。

電腦系統600同樣可包括唯讀記憶體(ROM，Read Only Memory)608或連接至匯流排602的其他靜態儲存裝置，用於儲存處理器604所使用的靜態資訊及指令。同時提供儲存裝置610，像是磁碟或光碟，並耦合至匯流排602，用於儲存資訊與指令。

電腦系統600可透過匯流排602耦合至一顯示器612，像是陰極射線管(CRT，Cathode Ray Tube)，來顯示資訊給電腦使用者。一輸入裝置614，包括文數字與其他按鍵，可耦合至匯流排602，用於對處理器604進行方向資訊及命令選擇的通訊。其他種使用者輸入裝置為游標控制器616，例如滑鼠、軌跡球或游標指引鍵，用於將方向資訊及命令選擇通訊給該處理器604，並且用於控制顯示器612上游標動作。此輸入裝置通常在第一軸(例如x)及第二軸(例如y)兩軸上具有兩自由度，允許該裝置指定在一平面的位置。

電腦系統600可使用客製化硬體佈線邏輯、一或多個專用積體電路或可程式邏輯閘陣列、與電腦系統結合導致或程式編輯電腦系統600成為一般用途機器的硬體極/或程式邏輯，來實施本說明書內描述的該等技術。根據一具體實施例，本說明書內的該等技術由電腦系統600執行，以回應處理器604執行主記憶體606內含一或多個指令的一或多個程序。這種指令可從其他儲存媒體讀入主記憶體606，像是儲存裝置610。執行主記憶體606內含的指令程序，導致處理器604執行本說明書內描述的該等處理步驟。在替代具體實施例中，硬線電路可用於取代或結合軟體指令。

本說明書內使用「儲存媒體」代表任何非暫態媒體，其中儲存導致一機器以特殊方式運作的資料及/或指令。這種儲存媒體可包括非揮發性媒體及/或揮發性媒體。非揮發性媒體包括例如光碟或磁碟，像是儲存裝置610。揮發性媒體包括動態記憶體，像是主記憶體606。儲存媒體的常見形式包括例如，軟碟、彈性磁碟、硬碟、固態硬碟、磁帶或任何其他磁性媒體、CD-ROM、任何其他光學資料儲存媒體、打孔卡這類實體媒體、RAM、PROM、EPROM、FLASH-EPROM、NVRAM、任何其他記憶體晶片或卡匣。

儲存媒體即使不同也可用於與傳輸媒體結合。傳輸媒體參與在儲存媒體之間傳輸資料，例如，傳輸媒體包括同軸纜線、銅線以及光纖，包括其中內含匯流排602的線路。傳輸媒體也可採用像是在無線電波與紅外線資料通訊期間所產生的聲音或光波。

媒體的許多形式可牽涉到攜帶一或多個指令的一或多個程序給一處理器來執行，例如，該等指令一開始可在遠端電腦的磁碟或固態硬碟上執行，該遠端電腦將指令載入其動態記憶體內，並使用數據機透過電話線傳送該等指令。電腦系統600上的數據機可接收電話線上的資料，並且使用紅外線發射器將該資料轉換成紅外線信號，而紅外線偵測器可接收紅外線信號內攜帶的該資料，且適當的電路可將該資料置於匯流排602上，匯流排602將該資料攜帶至主記憶體606，然後處理器604就可從此擷取並執行該等指令。主記憶體606所接收的該等指令可在由處理器604執行之前或之後，選擇性儲存在儲存裝置610上。

電腦系統600也包括耦合至匯流排602的一通訊介面618。通訊介面618提供雙向通訊耦合至一網路連結620，其連接區域網路622，例如，通訊介面618可為整合式服務數位網路(ISDN，Integrated Services Digital network)卡、纜線數據機、衛星數據機或提供資料通訊連接至對應電話線種類的數據機。如另一範例，通訊介面618可為區域網路(LAN，Local Area Network)卡，提供一資料通訊連線至相容的區域網路。另外可實施無線連結。在任何這種實施當中，通訊介面618傳送並接收電子、電磁或光學信號，用以攜帶代表許多種資訊的數位資料串流。

網路連結620通常透過一或多個網路將資料通訊提供給其他資料裝置，例如，網路連結620可透過區域網路622提供連線一主機電腦 624，或連線由網際網路服務商(ISP，Internet Service Provider)626所運作的資料設備。網際網路服務商626接著透過全球封包資料通訊網路，現今稱為「網際網路」628，提供資料通訊服務。區域網路622及網際網路628使用電子、電磁或光學信號攜帶數位資料串流，通過許多網路的該等信號，及位於網路連結620且通過通訊介面618的該等信號，其中該介面攜帶數位資料來或回於電腦系統600，為傳輸媒體的範例形式。

電腦系統600可透過網路、網路連結620及通訊介面618，傳送資訊與接收資料，包括程式碼。在網際網路範例中，伺服器630可透過網際網路628、網際網路服務商626、區域網路622及通訊介面618傳送應用程式的要求程式碼。

該已接收的程式碼可由接收的處理器604執行，及/或儲存在儲存裝置610或其他非揮發性儲存裝置內，供稍後執行。

在上述說明書中，本發明的具體實施例已經參考可隨實施改變的許多特定細節來說明。因此本說明書與圖式僅供參考而不做限制。本發明範疇的唯一排他性指標、及專利申請人所要求的發明範疇，在本說明書的申請專利範圍的字面與同等範疇內、本申請專利範圍的特定形式內，包括任何後續修正。

100‧‧‧處理

102-112‧‧‧步驟

Claims

一種應用電腦實施之方法，包括：產生顯示在一影像內一人物的一姿勢評估；基於該姿勢評估決定該影像所不可能描繪一產品項目的一或多個區域；產生遮罩該一或多個區域的一遮罩影像；基於包括該遮罩影像之像素共享的多個特性將該遮罩影像分成複數個影像區段，每一影像區段包含複數個像素，該複數個像素：形成該遮罩影像的一連續區域，以及分享一特性；將該等複數個影像區段中的一或多個影像區段叢集成一或多個影像區段叢集，其中該等一或多個影像區段叢集之至少一者包括兩或多個視覺相似的影像區段；針對該等一或多個影像區段叢集的一特定影像區段叢集：針對該特定影像區段叢集，決定複數個產品等級的一特定產品等級；從一影像資料庫擷取一或多個產品影像，該等一或多個產品影像與該特定產品等級相關聯，並且根據該等一或多個產品影像與該特定影像區段叢集之間一視覺相似度來選擇；其中該方法由一或多個計算裝置執行。
如申請專利範圍第1項之方法，更包括：針對該特定影像區段叢集，產生該特定影像區段叢集的一空間位置呈現；根據一影像訓練集合，其中包括複數個特定空間位址與複數個特定產品等級之間的一或多個圖，以決定該特定影像區段叢集的該特定產品等級。
如申請專利範圍第2項之方法，其中以相對於一人體上的一位置來定義該空間位置。
如申請專利範圍第1項之方法，其中根據包括影像顏色與影像紋理的該等兩或多個視覺相似影像區段的特性，決定該等兩或多個視覺相似影像區段的視覺相似度。
如申請專利範圍第1項之方法，其中該等兩或多個視覺相似影像區段在該遮罩影像內為空間分開。
如申請專利範圍第1項之方法，針對該等一或多個產品影像之每一者，更包括：將該產品影像分成一產品影像區段及一非產品影像區段；將該產品影像區段儲存在有關一產品等級的一影像資料庫內。
如申請專利範圍第1項之方法，更包括：其中該姿勢評估包括對應至一人體上一位置的一或多個影像區域；根據該姿勢評估，產生一產品概率圖，其包括一或多個值，指出該影像的該特定區域描繪一產品項目的概率。
如申請專利範圍第1項之方法，其中該等複數個產品等級的一產品等級代表服飾項目的一類型。
如申請專利範圍第1項之方法，其中該影像包括一人物及一或多個服飾項目的一描繪。
一種攜帶指令的非暫態電腦可讀取媒體，該等指令由一或多個處理器執行時導致：產生顯示在一影像內一人物的一姿勢評估；基於該姿勢評估決定該影像所不可能描繪一產品項目的一或多個區域；產生遮罩該一或多個區域的一遮罩影像；基於包括該遮罩影像之像素共享的多個特性將該遮罩影像分成複數個影像區段，每一影像區段包含複數個像素，該複數個像素：形成該遮罩影像的一連續區域，以及分享一特性；將該等複數個影像區段中的一或多個影像區段叢集成一或多個影像區段叢集，其中該等一或多個影像區段叢集之至少一者包括兩或多個視覺相似影像區段；針對該等一或多個影像區段叢集的一特定影像區段叢集：針對該特定影像區段叢集，決定複數個產品等級的一特定產品等級；從一影像資料庫擷取一或多個產品影像，該等一或多個產品影像與該特定產品等級相關聯，並且根據該等一或多個產品影像與該特定影像區段叢集之間一視覺相似度來選擇。
如申請專利範圍第10項之非暫態電腦可讀取媒體，更包括額外指令，當由該等一或多個處理器執行時，導致：針對該特定影像區段叢集，產生該特定影像區段叢集的一空間位置呈現；根據一影像訓練集合，其中包括複數個特定空間位址與複數個特定產品等級之間一或多個圖，以決定該特定影像區段叢集的該特定產品等級。
如申請專利範圍第11項之非暫態電腦可讀取媒體，其中相對於一人體上的一位置來定義該空間位置。
如申請專利範圍第10項之非暫態電腦可讀取媒體，其中根據包括影像顏色與影像紋理的該等兩或多個視覺相似影像區段的特性，以決定該等兩或多個視覺相似影像區段的視覺相似度。
如申請專利範圍第10項之非暫態電腦可讀取媒體，其中該等兩或多個視覺相似影像區段在該遮罩影像內為空間分開。
如申請專利範圍第10項之非暫態電腦可讀取媒體，更包括複數個額外指令，當由該等一或多個處理器執行時，針對該等一或多個產品影像之每一者，導致：將該產品影像分成一產品影像區段及一非產品影像區段；將該產品影像區段儲存在有關一產品等級的一影像資料庫內。
如申請專利範圍第10項之非暫態電腦可讀取媒體，更包括複數個額外指令，當由該等一或多個處理器執行時，導致：其中該姿勢評估包括對應一人體上一位置的一或多個影像區域；根據該明確姿勢評估，產生一產品概率圖，其包括一或多個值，指出該影像的該特定區域描繪一產品項目的概率。
如申請專利範圍第10項之非暫態電腦可讀取媒體，其中該等複數個產品等級的一產品等級代表服飾項目的一類型。
如申請專利範圍第10項之非暫態電腦可讀取媒體，其中該影像包括一人物及一或多個服飾項目的描繪。