[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

TW201941078A - 機器於迴路、圖像至視訊之電腦視覺自助抽樣 - Google Patents

機器於迴路、圖像至視訊之電腦視覺自助抽樣 Download PDF

Info

Publication number
TW201941078A
TW201941078A TW108100466A TW108100466A TW201941078A TW 201941078 A TW201941078 A TW 201941078A TW 108100466 A TW108100466 A TW 108100466A TW 108100466 A TW108100466 A TW 108100466A TW 201941078 A TW201941078 A TW 201941078A
Authority
TW
Taiwan
Prior art keywords
video
group
search
video frame
content
Prior art date
Application number
TW108100466A
Other languages
English (en)
Other versions
TWI716798B (zh
Inventor
宋耶魯
蓋伊 達薩
珉鎬 李
傑弗瑞 史可茲
喬阿夭 維特爾 巴爾迪尼 索瑞斯
Original Assignee
美商奧誓公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商奧誓公司 filed Critical 美商奧誓公司
Publication of TW201941078A publication Critical patent/TW201941078A/zh
Application granted granted Critical
Publication of TWI716798B publication Critical patent/TWI716798B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

此揭露為在內容搜尋、託管和/或供給系統中用以改善與電腦及其之間互動的系統與方法,該等內容搜尋、託管及/或供給系統係藉由裝置、伺服器及/或平台所支援或設置。該所揭露的系統與方法提供了一種新穎的機器於迴路、圖像至視訊之自助抽樣架構,其利用構建在一圖像資料集與一視訊資料集上的一訓練集,以便有效地產生要應用在視訊框的準確訓練集。該所揭露的系統與方法減少了構建該訓練資料集所需的時間量,並且亦提供了機制將該訓練資料集應用於任何類型的內容及用在任何類型的辨識任務上。

Description

機器於迴路、圖像至視訊之電腦視覺自助抽樣
本揭露係大致上有關於改善內容託管及供給裝置、系統及/或平台,其係藉由通過一新穎且改良的架構來修改多個性能並向該些裝置、系統及/或平台提供非原生功能(non-native functionality)而達成上述改善,該新穎且改良的架構係用以訓練並應用一電腦視覺自助抽樣(bootstrapping)模型到視訊上。
現代電腦視覺系統可應用於數位內容,以執行視覺辨識工作,其包括例如:臉部辨識、醫學成像、自動駕駛場景理解等。應用此系統的主要瓶頸是需要大規模標註的資料集。為了在一指定的任務上正常運作,此系統必須以數百萬個標註的樣本來進行訓練。在現今的產品中訓練和配置電腦視覺需要大量精力來標註資料集(例如:其無論藉由人員或機器都一樣),從而降低此系統受訓練並準備實現的速度,並大幅延遲了上市時間。
在現今世界,視訊理解是整個媒體行業中最重要的研究和開發領域之一。不幸的是,與圖像資料集相比,視訊資料集由於標記者需要檢查的視訊框數量龐大,因此很難進行標註。例如:為視訊的每一視訊框繪製圍繞某些物件的界限框的任務需要大量的時間和精力、及電腦和網路資源的高使用率,並且未必都是準確的。
因此,這促使若干現有工作去使用一變通解決方案,其中一視覺辨識器在一圖像資料集上被訓練,然後應用至視訊領域。然而,這在實務上表現並不佳,因為視訊框未能表現出與圖像相同的視覺特性。這是由於它們被擷取和編碼的方式。視訊擷取動態移動物件,而圖像擷取靜態物件,且視訊框內/跨視訊框的物件位置可以在一圖像內的位置保持相同時發生變化。此外,大多數視訊編解碼器應用壓縮演算法使檔案變更小,這可能導致模糊的框,並且圖像檔案通常不受壓縮。因此,為了應用此種傳統技術,必須針對每個視訊框來重新調整在圖像資料集上訓練的視覺辨識器,其進一步限制了可構建和應用的系統之速度和準確度。
所揭露的系統和方法藉由提供一改良的處理架構來針對現有技術問題,尤其是上面強調的技術問題,提供了一技術解決方案,該改良的處理架構減少了用在標註大規模視訊資料集及從其訓練一視覺辨識系統所需的時間和計算資源。經過在此揭露的先進訓練和應用,實施此一視覺辨識架構的系統可實現在偵測視訊內容方式中改善準確度,減少在此訓練期間對人類編輯者之依賴,以及當應用該受訓練的系統時,減少在訓練和隨後的偵測/辨識期間之計算資源的使用。換言之,例如:當應用該受訓練的系統來識別在一視訊的視訊框內哪些物件正被辨識時,在訓練系統方式中的效率可以達到減少所需的搜尋疊代量和中央處理器週期數-即一更準確和有效受訓練的系統產生更準確和有效的結果,從而改善產生令人滿意結果所需的計算和網路資源之效率。
根據本揭露的具體實施例,所揭露的架構體現為一新穎的機器於迴路、圖像至視訊之自助抽樣技術。該技術/架構的基礎是相較於視訊,獲得圖像資料集相對容易:任何人可以藉由使用圖像搜尋引擎而輕易獲得包含一特定概念(例如:貓)的數百個圖像。所揭露的系統和方法從該些圖像(其具有潛在噪聲的標記)自助抽樣資料並經過多個標註步驟將其「轉換」為一視訊資料集,從而產生所揭露的圖像至視訊之自助抽樣技術。該疊代過程中的關鍵是所揭露系統的機器於迴路層面。在每次疊代中,所揭露的架構在由「直至該疊代」結果產生的受標註樣本上訓練一視覺辨識模型,然後從一未標記的視訊資料集中偵測和辨識相關的視覺概念。
在一些具體實施例中,在每次疊代之後,可以向標記者呈現該視覺辨識器何時/如何已產生不準確結果的一些樣本,藉此該標記者可以提供所需的校正。提供標記(例如:標籤)至該些樣本提高了下一次疊代中該視覺辨識器的準確性,從而提高了整體標記的品質。就如同任何訓練模型,該視覺辨識器可能會預期在初期疊代中出錯,但隨著疊代次數的增加,該辨識器變得越準確,因此標記的品質和速度也會增進。
作為所揭露系統的副產物,所揭露的視覺辨識架構/模型通過其疊代設計和自助抽樣而具有優於現有辨識模型的關鍵技術優勢。如下更詳細討論,所揭露的架構及其應用提供了先進機制,其降低了執行視訊辨識訓練和處理所需的處理能力,從而使得即使是最適度設置並具能力的裝置也能夠執行所揭露的辨識處理。此外,對於標註、人力參與和干預的需求明顯地減少,其導致在所揭露系統處理視訊上增加處理速度並增進效率,以識別在此描述的物件/元素。
如下詳細討論,此種對呈現視訊的疊代訓練過程與自動應用導致了更容易使用/實現和更有效的比較性訓練集,其明顯地減少訓練分類器所需的時間(稱為視覺辨識器)。因此,有了更準確和有效的訓練模型,此種訓練模型的實現導致了一有效結果,因為偵測到的物件之分類是基於一更準確的訓練集,其減少了執行分類所需的計算週期之數量。(例如:在應用該訓練集時,一準確的訓練集導致一有效的結果)。
根據一個或多個具體實施例,本揭露提供了電腦化方法,用以執行在此所討論到的視訊訓練和處理架構,以及一非暫態電腦可讀儲存媒體,用以執行上述視訊訓練和處理架構的技術步驟。該非暫態電腦可讀儲存媒體有形地在其上儲存、或者有形地在其上編碼電腦可讀指令,當該指令由一裝置(例如:內容伺服器、客戶裝置等)執行時,致使至少一個處理器去執行用於一新穎且改良的架構之方法,以訓練並應用一電腦視覺模型至視訊上。
根據一個或多個具體實施例,本揭露提供了包括一個或多個計算裝置的一系統,該計算裝置被設置以提供根據該些具體實施例的功能。根據一個或多個具體實施例,功能係體現在由至少一個計算裝置執行的方法之步驟中。根據一個或多個具體實施例,由一計算裝置的處理器所執行的程式碼(或程式邏輯)係用來實現根據一個或多個該些具體實施例的功能,並體現於一非暫態電腦可讀媒體中、藉由及/或在該非暫態電腦可讀媒體體現。
本揭露現在將在下文中參考附圖更完整地描述,該附圖形成本揭露的一部分,並藉由圖示的方式顯示了某些範例性具體實施例。然而,標的可以以各種不同的形式體現,因此所涵蓋或所要求保護的標的之意圖解釋並未被限制於此所述的任何範例性具體實施例;在此所提供的範例性具體實施例僅用於說明。同樣地,所要求保護或所涵蓋的標的之一合理廣泛範圍為所預期。此外,例如:標的可以體現為方法、裝置、組件或系統。因此,具體實施例可以例如:使用硬體、軟體、韌體或其任何組合的形式(除軟體本身外)。因此,以下詳細描述並未有意圖視為具有限制的意義。
在整個說明書與申請專利範圍中,術語可能具有明確說明的含義之外在上下文中所建議或暗示的細微差別含義。同樣地,在此使用的用詞「在一個具體實施例中」不一定是指相同的具體實施例,並且在此使用的用詞「在另一個具體實施例中」不一定是指不同的具體實施例。所預期的是,例如:所要求保護的標的包括整個或部分範例性具體實施例的組合。
一般而言,術語可以至少部分從上下文中的使用來理解。例如:在此所使用的術語諸如「和」、「或」或「及/或」可能包含各種含義,該些含義至少部分取決於使用該等術語的上下文而定。通常,「或」若用於關聯一列表(諸如A、B或C),則意指A、B和C,此處用在包含意義上,以及A、B或C,此處用在排他意義上。另外,如在此所使用的術語「一個或多個」,其至少部分取決於上下文而定,可以用於以單數意義描述任何特徵、結構或特性,或者可以用於以複數意義描述多個特徵,多個結構或多個特性的多個組合。同樣地,諸如「一(a)」、「一(an)」或「該」的術語可以理解為傳達單數用法或傳達一複數用法,其至少部分取決於上下文而定。另外,該術語「基於」可以理解為不一定旨在傳達一組排他性的因素,反而可能允許存在不一定明確描述的其他因素,其同樣至少部分取決於上下文而定。
本揭露於下將參考方法和裝置的方塊圖和操作圖式來描述。應當理解,方塊圖或操作圖式中的每個方塊,以及方塊圖或操作圖式中多個方塊的組合可以藉由類比或數位硬體和電腦程式指令來實現。該些電腦程式指令可以提供給一通用電腦的處理器以改變其在此詳述的功能、一專用電腦、專用積體電路(ASIC)或其他可程式化的資料處理設備,使得經由電腦的處理器或其他可程式化的資料處理設備所執行的指令實現指定在方塊圖或操作方塊或多個方塊中的功能/動作。在一些替代實施方式中,方塊中提到的功能/動作可以不按照操作圖示中註記的順序發生。例如:連續顯示的兩個方塊實際上可以大體上同時執行,或者該些方塊有時可以以相反的順序執行,其取決於所涉及的功能/動作。
為了本揭露的目的,一非暫態電腦可讀媒體(或電腦可讀儲存媒體/多個媒體)儲存電腦資料,該資料可包括以機器可讀形式存在並可藉由一電腦執行的電腦程式碼(或電腦可執行指令)。藉由範例而非限制方式,一電腦可讀媒體可以包括電腦可讀儲存媒體,其用於有形或固定的資料儲存,或通信媒體,其用於對含碼信號進行暫態解譯(transient interpretation)。在此所使用的電腦可讀儲存媒體是指實體或有形的儲存(與信號相對),並且包括、但不限於以有形儲存資訊(諸如電腦可讀指令、資料結構、程式模組或其他資料)的任何方法或技術實現的揮發性和非揮發性、可移除和不可移除媒體。電腦可讀儲存媒體包括、但不限於隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式唯讀記憶體(EPROM)、電子可抹除程式唯讀記憶體(EEPROM)、閃存記憶體或其他固態記憶體技術、唯讀記憶光碟(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存器、雲端儲存器、磁帶盒、磁帶、磁性盤儲存器或其他磁性儲存裝置,或可用於有形地儲存所需資訊或資料或指令並且可由一電腦或處理器存取的任何其他實體或材料媒體。
為了本揭露的目的,該術語「伺服器」應該理解為指提供處理、資料庫和通信設施的一服務點。藉由範例而非限制方式,該術語「伺服器」可以指具有相關通信和資料儲存與資料庫設施的單一實體處理器,或者其可以指處理器與相關網路和儲存裝置的一網路或集群複合體,此外,該伺服器可具有支援其所提供服務的操作軟體與一個或多個資料庫系統和應用軟體。雲端伺服器就是個例子。伺服器的設置或功能可以有很大的不同,但大致上伺服器可以包括一個或多個中央處理單元和記憶體。一伺服器還可以包括一個或多個大容量儲存裝置、一個或多個電源、一個或多個有線或無線網路介面、一個或多個輸入/輸出介面、或一個或多個作業系統。
為了本揭露的目的,一「網路」應該理解為指可以耦接多個裝置以便可以諸如在一伺服器和一客戶端裝置之間或者其他類型的裝置之間交換通信的一網路,其包括例如:在多個經由一無線網路耦接的無線裝置之間交換通信的一網路。一網路可以還包括大容量儲存,諸如網路附加儲存(NAS)、儲存區域網路(SAN)或例如:其他形式的電腦或機器可讀媒體。一網路可以包括網際網路、一個或多個區域網路(LAN)、一個或多個廣域網路(WAN)、有線類型連接、無線類型連接、行動通信網路或其任何組合。同樣地,多個子網路可以使用不同架構,或可以符合不同協定或與不同協定兼容,並可以在一較大的網路內相互操作。例如:各種類型的裝置可以提供用於不同架構或協定之一可共同協作的能力。如在一個說明性範例中,一路由器可以在不同的分離並獨立的多個區域網路之間提供一連結。
為了本揭露的目的,一「無線網路」應理解為將客戶端裝置與一網路耦接。一無線網路可以使用獨立的隨意(ad-hoc)網路、網狀網路、無線區域網路(WLAN)、行動通信網路、或其類似者。一無線網路還可以包括藉由無線電連結或其類似者耦接的終端、閘道器(gateway)、路由器等所形成的一系統,其可以自由地、隨機地移動或任意地自組,使得網路拓撲可以改變,有時甚至可快速改變。
一無線網路還可以使用複數個網路存取技術,其包括Wi-Fi、長期演進(LTE)、無線區域網路、無線路由器網(WR mesh)、或者第2代、第3代、第4代或第5代(2G、3G、4G或5G)行動通信技術或其類似者。網路存取技術可以實現多個裝置(例如:具有不同移動性的客戶端裝置)的廣大區域覆蓋。
例如:一網路可以經由一種或多種網路存取技術實現射頻或無線類型通信,該網路存取技術諸如全球移動通信系統(GSM)、通用移動電信系統(UMTS)、通用封包無線電服務(GPRS)、增強型資料GSM環境(EDGE)、3GPP長期演進(LTE),先進長期演進(LTE advanced)、寬頻碼分多工存取(WCDMA)、藍牙、802.11b/g/n或其類似者。一無線網路實質上可以包括任何類型的無線通信機制,藉由該機制,信號可以在網路之間或一網路之內的多個裝置(諸如客戶端裝置或計算裝置)之間傳送。
一計算裝置可以有能力發送或接收信號,例如經由一有線或無線網路發送或接收信號,或者有能力處理或儲存信號,例如儲存信號在記憶體中成為實體儲存狀態,並且可以因此運作為一台伺服器。因此,有能力運作為伺服器的裝置可以包括例如:專用的機架式伺服器、桌上型電腦、膝上型電腦、機上盒、結合各種特徵(諸如前述裝置或其類似者的兩個或更多個特徵)的集成裝置。伺服器在其設置或功能上可以有很大的不同,但大致上一伺服器可以包括一個或多個中央處理單元和記憶體。一伺服器還可以包括一個或多個大容量儲存裝置、一個或多個電源、一個或多個有線或無線網路介面、一個或多個輸入/輸出介面、或一個或多個作業系統。
為了本揭露的目的,一客戶端(或消費者或使用者)裝置可以包括一計算裝置,其有能力發送或接收信號,例如經由一有線或無線網路發送或接收信號。一客戶端裝置可以包括例如:一桌上型電腦或一可攜式裝置,諸如一行動電話、一智慧型手機、一顯示呼叫器、一射頻裝置、一紅外線裝置、一近場通信(NFC)裝置、一個人數位助理、一手持式電腦、一平板電腦、一平板手機(phablet)、一膝上型電腦、一機上盒、一可穿戴電腦、智慧型手錶、結合各種特徵(諸如前述裝置的多個特徵)的一集成或分佈式裝置、或其類似者。
一客戶端裝置可以在能力或特徵方面做改變。所要求保護的標的旨在涵蓋一具潛在變化的廣泛範圍。例如:一簡單的智慧型手機、平板手機或平板電腦可以是一客戶端裝置。在另一個例子中,一網上啟用(web-enabled)的客戶端裝置或先前提到的裝置可以包括一高解析度螢幕(例如:高畫質或4K螢幕)、一個或多個實體或虛擬鍵盤、大容量儲存器、一個或多個加速度計、一個或多個陀螺儀、全球定位系統(GPS)或其他位置識別類型能力系統、或具有高度功能的顯示器,例如一觸控式彩色二維(2D)或三維(3D)顯示器。
一客戶端裝置可以包括或可以執行各種可能的應用程式,諸如能夠與其他裝置通信的一客戶端軟體應用程式。一客戶端裝置還可以包括或執行一應用程式,以傳送內容,例如:文字內容、多媒體內容或其類似者。一客戶端裝置還可以包括或執行一應用程式,以執行各種可能的任務,例如:瀏覽、搜尋、播放、串流傳輸或顯示各種形式的內容,其包括本地儲存或上傳的圖像及/或視訊、或遊戲(諸如專業體育賽事的現場直播)。前述內容之提供是為了說明所要求保護的標的旨在包括可能的特徵或能力之一廣泛範圍。
如在此所討論,對一「廣告」的提述應理解為包括、但不限於數位媒體內容,該數位媒體內容體現為提供資訊的一媒體項目,其是由另一使用者、服務、第三方、主體(entity)和其類似者所提供。此類數位廣告內容可以包括可由一計算裝置呈現的任何類型的已知或即將知道的媒體,其包括、但不限於視訊、文字、音訊、圖像及/或任何其他類型的已知或即將知道的多媒體項目或物件。在一些具體實施例中,該數位廣告內容可以被格式化為超連結多媒體內容,其提供深度連結特徵及/或能力。因此,雖然某些內容被稱為一廣告,但其仍然是可由一計算裝置呈現的數位媒體項目,而此種數位媒體項目包括由網路關聯方提供的轉發促銷內容之內容。
在此描述的原理可以由許多不同的形式體現。所揭露的系統和方法提供先進機制,用於訓練和應用一視覺辨識模型,以便更準確和有效地偵測、識別或以其他方式識別一視訊檔案的視訊框內之特定物件。
如上所述,傳統辨識技術在視訊上實現圖像處理機制,以識別特定物件。然而,該些技術不僅效率低,而且產生不準確的結果。換言之,如上所述,由於視訊框未表現出與圖像相同的視覺特性(例如:視訊框具有動態物件而不是靜態物件,並且經過編碼),因此將圖像識別技術應用於視訊會產生需要大量「事後(after-the-fact)」處理的結果,以便理解及/或糾正該些結果。除了低效和不準確結果的明顯缺點之外,此種傳統應用需要大量資料處理,因而導致裝置和網路資源的浪費,因為系統必須執行額外的計算步驟以確保結果是準確的。
所揭露的系統和方法提供了一種新穎的圖像至視訊之自助抽樣架構,其減少了產生視訊訓練資料集的時間量,從而實現在資料集創立與最終應用上提高準確性和效率。例如:傳統系統需要大約三週的時間在資料集中的典型大量資訊(例如:數百萬個圖像)上來訓練一系統;而所揭露的系統和方法可以在相同數量的資料上以更短的時間來訓練一系統(例如:三天)。如在此所討論,所揭露的系統和方法利用圖像搜尋和視訊搜尋(例如:圖像和視訊的自助抽樣)的結果來提供一主動學習系統,該主動學習系統經過每次的學習疊代來提高其準確性和效率。因此,當分析一視訊的視訊框時,所揭露的架構當下正在執行一系統,該系統利用自助抽樣之圖像和視訊並以一計算有效的方式輸出準確結果,從而節省系統資源,用於輸出高品質的檔案,而不是分析/辨識哪個物件正在顯示。
在此討論的改良處理架構之應用可以分析任何已知格式或即將知道的格式的視訊(例如:任何類型的檔案格式及/或呈現格式)。為了本揭露的目的,在此的討論集中於視訊內的物件辨識;然而,不應將其解釋為限制,因為在不脫離本揭露的保護範圍之情況下,任何類型的已知或即將知道的媒體之格式,例如:不論是圖像或其他形式的多媒體,都可以被利用。
如下至少關於第八圖更詳細的討論,根據一些具體實施例,當提供、傳遞或使裝置能夠在該網路上存取內容時,與一視訊檔案的辨識處理的結果相關的資訊、從該結果衍生的資訊、或以其他方式從該結果識別的資訊、在辨識處理期間的資訊或作為該結果的資訊(如在此所討論)可以用於貨幣化目的和鎖定性廣告(targeted advertising)。將該鎖定性廣告提供給與該些發現的內容相關聯的使用者可以導致此種廣告的點擊率(CTR)增加及/或廣告者對於提供第三方的此類內容之投資回報率(ROI)增加(例如:廣告者所提供的數位廣告內容,其中廣告者可以是一第三方廣告者,或直接與在此討論的系統和方法相關聯、或擁有該系統和該方法的一主體)。
某些具體實施例現在將參考附圖更詳細地描述。一般而言,參考第一圖,其顯示了根據本揭露的一具體實施例的一系統100。第一圖顯示了可以實現在此所討論的系統和方法的一般環境組件。並非所有組件都需要用來實現本揭露,並且在不脫離本揭露的精神或保護範圍的情況下,可以在組件的設置和類型上進行變化。如圖所示,第一圖的系統100包括區域網路(「LAN」)/廣域網路(「WAN」)-網路105、無線網路110、行動裝置(客戶端裝置)102-104和客戶端裝置101。第一圖另外包括各種伺服器,諸如內容伺服器106、應用程式(或「App」)伺服器108和廣告(「ad」)伺服器130。
以下更詳細地描述行動裝置102-104的一個具體實施例。然而,一般而言,行動裝置102-104實際上可以包括任何可攜式計算裝置,其有能力在一網路(諸如網路105、無線網路110、或其類似者)上接收和發送一信息。行動裝置102-104一般也可以被描述為設置成可攜式的客戶端裝置。因此,行動裝置102-104實際上可以包括任何可攜式計算裝置,其有能力連接到另一計算裝置並接收資訊,如上所討論。依此,行動裝置102-104通常在能力和特徵方面範圍廣泛。例如:一手機可以具有一數字小鍵盤和僅能顯示文字的幾行單色液晶顯示器。在另一範例中,一網上啟用的行動裝置可以具有一觸控螢幕、一觸控筆和一可顯示文字和圖形的高畫質顯示器。
行動裝置102-104還可以包括至少一個客戶端應用程式,其被設置以從另一計算裝置接收內容。在一些具體實施例中,行動裝置102-104還可以與非行動客戶端裝置(諸如客戶端裝置101或其類似者)通信。在一個具體實施例中,此種通信可以包括發送及/或接收信息、搜尋、檢視及/或分享照片、音訊剪輯、視訊剪輯或任何各種其他形式的通信。因此,客戶端裝置101還可以具有用於顯示可導航資訊視圖的不同能力。
客戶端裝置101-104可以有能力發送或接收信號,例如經由一有線或無線網路發送或接收信號,或者有能力處理或儲存信號,例如儲存信號在記憶體中成為實體儲存狀態,並且可以因此運作為一台伺服器。
無線網路110被設置以將行動裝置102-104及其組件耦接至網路105。無線網路110可以包括各種無線子網路中的任何一個,其可以進一步覆蓋獨立的隨意網路和其類似者,以為行動裝置102-104提供基礎設施導向的連接。此種子網路可以包括網狀網路、無線區域網路、行動通信網路或其類似者。
網路105被配置以將內容伺服器106、應用程式伺服器108或其類似者與其他計算裝置(包括客戶端裝置101)耦接,並通過無線網路110耦接到行動裝置102-104。網路105能夠使用任何形式的電腦可讀媒體或網路,將資訊從一個電子裝置傳送到另一個電子裝置。
在一些具體實施例中,所揭露的網路110及/或105可以包括一內容配送網路。一「內容傳遞網路」或「內容配送網路」(CDN)一般是指一分散式內容傳遞系統,其包括藉由一個或多個網路所連結的多個電腦或多個計算裝置的一集合。一內容配送網路可以使用軟體、系統、協定或技術來促進各種服務,例如:儲存、快取(caching)、內容通信、或串流媒體或應用。一內容配送網路還可以使一主體全部或部分地操作或管理另一個站點的基礎設施。
內容伺服器106可以包括一裝置,該裝置包括一配置(configuration),用以經由一網路向另一裝置提供任何類型或形式的內容。裝置可以運作為內容伺服器106,且包括個人電腦、桌上型電腦、多處理器系統、以微處理器為基礎或可程式化的消費性電子產品、網路電腦、伺服器、和其類似者。內容伺服器106還可以提供各種服務,其包括、但不限於串流媒體及/或下載媒體服務、搜尋服務、電子郵件服務、照片服務、網頁服務、社交網路服務、新聞服務、第三方服務、音訊服務、視訊服務、即時信息(IM)服務、SMS服務、MMS服務、FTP服務、IP語音(VOIP)服務、或其類似者。
一廣告伺服器130包括一伺服器,其儲存用於呈現給使用者的線上廣告。「廣告服務」是指在網站、應用程式或其他使用者較容易看到廣告的地方放置線上廣告的方法(例如在一線上交流(session)期間或在計算平台使用期間)。各種貨幣化技術或模型可以用來與贊助廣告結合,其包括與使用者資料相關聯的廣告。此種贊助廣告包括貨幣化技術,其包括贊助搜尋廣告、非贊助搜尋廣告、保證和非保證遞送廣告、廣告網路/交換、廣告鎖定、廣告服務和廣告分析。此類系統可以結合在網頁創建期間的廣告放置機會之近乎即時拍賣(在某些情況下在不到500毫秒內)和更高品質的廣告放置機會,從而產生其本身更高的收入。換言之,當廣告者認為他們的廣告被放置在正在呈現給使用者的高度相關內容或與該內容一起時,他們將支付更高的廣告費率。減少量化一高品質廣告置放所需的時間可為廣告平台帶來競爭優勢。因此,更高的速度和更相關的內文偵測改善了這些技術領域。
例如:購買或銷售線上廣告的一過程可能涉及許多不同的主體,其包括廣告者、發佈者、仲介者、網路或開發者。為了簡化該過程,稱為「廣告交換」的組織系統可以關聯廣告者或發佈者,例如經由一平台來促進從多個廣告網路購買或銷售線上廣告庫存。「廣告網路」是指來自發佈者的廣告空間供應的彙總(aggregation),例如用於將廣告集體提供給廣告者。對於像Yahoo!®如此的入口網站,廣告可以顯示在網頁或應用程式中,而該廣告是由至少部分基於一個或多個搜尋項目的一使用者定義搜尋所產生。如果顯示的廣告與一個或多個使用者的興趣相關,則廣告可能對使用者、廣告者或入口網站有益。因此,已經開發了各種技術來推測使用者興趣、使用者意圖或隨後將鎖定相關廣告給使用者。呈現鎖定性廣告的一種方法包括使用人口統計特徵(例如:年齡、收入、性別、職業等)來預測使用者行為(例如:藉由群組)。廣告可以至少部分基於所預測的使用者行為而向鎖定的觀眾中之使用者呈現。
另一種方法包括輪廓類型(profile-type)的廣告鎖定。在此方法中,可產生特定給一使用者的使用者輪廓資料,以對使用者行為進行建模(例如:藉由追蹤使用者經過網站或網站網路的路徑,以及至少部分基於最終傳送的網頁或廣告來編輯一輪廓資料)。例如:一相關性可以被識別,如:用於使用者的購買。藉由將內容或廣告鎖定給特定使用者,所識別的相關性可以用來鎖定潛在購買者。在呈現廣告期間,一呈現系統可以收集關於呈現給使用者的廣告類型之描述性內容。廣泛的描述性內容可以被收集,其包括特定於一廣告呈現系統的內容。所收集的廣告分析可以被發送到遠離一廣告呈現系統的位置以便儲存或進一步評估。在廣告分析傳送不能立即可用的情況下,所收集的廣告分析可以藉由一廣告呈現系統儲存,直到該些廣告分析的傳輸變為可用。
在一些具體實施例中,使用者能夠存取由伺服器106、108及/或130提供的服務。在非限制性範例中,其可以包括認證伺服器、搜尋伺服器、電子郵件伺服器、社交網路服務伺服器、SMS伺服器、IM伺服器、MMS伺服器、交換伺服器、照片分享服務伺服器、和旅行服務伺服器,其經由網路105來使用它們的各種裝置101-104。在一些具體實施例中,應用程式例如一視訊應用程式(例如:Netflix®、Hulu®、iTunes®、Amazon Prime®、HBO Go®、和其類似者)例如可以由應用程式伺服器108(或內容伺服器106和其類似者)託管。因此,應用程式伺服器108可以儲存各種類型的應用程式和應用程式相關資訊,包括應用程式資料和使用者輪廓資訊(例如:與使用者相關聯的識別資訊和行為資訊)。也應該理解,內容伺服器106還可以在一關聯的內容資料庫107中儲存與內容伺服器106所提供內容和服務有關的各種類型資料,如下將更詳細地討論。在存在的具體實施例中,網路105還與一可信搜尋伺服器(TSS)耦接/連接,該可信搜尋伺服器可用於根據在此所討論的具體實施例來呈現內容。在存在的具體實施例中,可信搜尋伺服器的功能可以體現在伺服器106、108及/或130內。
此外,儘管第一圖分別將伺服器106、108和130示為單一個計算裝置,但是本揭露不限於此。例如:伺服器106、108及/或130的一個或多個功能可以分佈在一個或多個不同的計算裝置上。此外,在一個具體實施例中,伺服器106、108及/或130可以在不脫離本揭露的保護範圍之情況下集成到單一個計算裝置中。
第二圖為用以說明一客戶端裝置的一示意圖,其顯示了可以用在本揭露內的一客戶端裝置之一示範具體實施例。客戶端裝置200可以包括比第二圖中所示的組件更多或更少的組件。然而,所示組件足以揭露用於實現本揭露的說明性具體實施例。客戶端裝置200可以表示例如以上關於第一圖所討論的客戶端裝置。
如圖所示,客戶端裝置200包括一中央處理單元(CPU)222,其經由一匯流排224而與一大容量記憶體230通信。客戶端裝置200還包括一電源供應器226、一個或多個網路介面250、一音訊介面252、一顯示器254、一小鍵盤256、一發光器258、一輸入/輸出介面260、一觸覺介面262、一選擇性的全球定位系統(GPS)接收器264和一相機或其他光學、熱學或電磁感測器266。如本領域的技術人員所理解,裝置200可包括一個相機/感測器266,或複數個相機/感測器266。相機/感測器266在裝置200上的位置可以根據每裝置200型號、每裝置200能力等或其某種組合而改變。電源供應器226向客戶端裝置200提供電力。
客戶端裝置200可以可選擇性地與基站(未顯示)通信,或者直接與另一計算裝置通信。網路介面250有時被稱為一收發器,一收發裝置或網路介面卡(NIC)。
音訊介面252被設置以產生和接收音訊信號,諸如人類的聲音。例如:音訊介面252可以耦接到一揚聲器和一麥克風(未顯示)以實現與其他人的通信及/或為某些動作產生一音訊確認。顯示器254可以是一液晶顯示器(LCD)、氣體電漿顯示器、發光二極管(LED)、或與計算裝置一起使用的任何其他類型顯示器。顯示器254還可以包括觸控螢幕,該觸控螢幕被設置以接收來自諸如觸控筆或人手指的物件之輸入。
小鍵盤256可以包括任何輸入裝置,其被設置以從一使用者接收輸入。發光器258可以提供一狀態指示及/或提供光線。
客戶端裝置200還包括輸入/輸出介面260,用於與外部通信。輸入/輸出介面260可以使用一個或多個通信技術,例如:USB、紅外線、藍牙™、或其類似者。觸覺介面262被設置以向客戶端裝置的使用者提供觸覺反饋。
選擇性的GPS收發器264可以決定地球表面上的客戶端裝置200的物理坐標,其通常輸出一位置為緯度值和經度值。GPS收發器264還可以使用其他地理定位機制,其包括、但不限於三角測量、輔助GPS(AGPS)、E-OTD、CI、SAI、ETA、BSS、或其類似者,以進一步決定客戶端裝置200位於地球表面的物理位置。然而,在一個具體實施例中,客戶端裝置可以通過其他組件提供其他資訊,用來決定裝置的一物理位置,包括例如一MAC位址、一網際網路協定(IP)位址、或其類似者。
大容量記憶體230包括一隨機存取記憶體232、一唯讀記憶體234和其他儲存裝置。大容量記憶體230示出了用於儲存資訊的電腦儲存媒體的另一範例,所儲存的資訊諸如:電腦可讀指令、資料結構、程式模組或其他資料。大容量記憶體230儲存一基本輸入/輸出系統(「BIOS」)240,用於控制客戶端裝置200的低階操作。大容量記憶體還儲存一作業系統241,用於控制客戶端裝置200的操作。
記憶體230還包括一個或多個資料儲存部,客戶端裝置200可以利用該資料儲存部來儲存應用程式242及/或其他資訊或資料等。例如:該資料儲存部可以用來儲存描述客戶端裝置200的各種能力之資訊。然後,該資訊可以基於各種事件中的任何事件而提供給另一裝置,其包括在通信期間、根據要求或類似者作為一標頭(header)的一部分被發送(例如:HTTP即時串流(HLS)的索引檔案)。至少一部分能力的資訊也可以儲存在客戶端裝置200內的一磁碟機或其他儲存媒體(未顯示)上。
應用程式242可以包括電腦可執行指令,當由客戶端裝置200執行時,該電腦可執行指令發送、接收及/或以其他方式處理音訊、視訊、圖像,並且致使與一伺服器及/或另一客戶端裝置的另一使用者通信。應用程式242還可以包括搜尋客戶端245,其被配置以發送、接收及/或以其他方式處理一搜尋查詢及/或搜尋結果。
已經描述了在所揭露的系統和方法內使用的一般架構的組件,現將在下面參考第三圖至第八圖描述與所揭露的系統和方法相關組件的一般操作。
第三圖為用以說明用於執行在此所討論的系統和方法的組件之一方塊圖。第三圖包括一視覺辨識器引擎300、網路315和資料庫320。該視覺辨識器引擎300可以是一專用機器或處理器,並且可以由應用程式伺服器、內容伺服器、社交網路伺服器、網頁伺服器、搜尋伺服器、內容提供者、第三方伺服器、使用者的計算裝置、和其類似者、或其任何組合託管。
根據一些具體實施例,視覺辨識器引擎300可以體現為在使用者裝置上執行的一獨立應用程式。在一些具體實施例中,該視覺辨識器引擎300可以作為安裝在使用者裝置上的應用程式,並且在一些具體實施例中,此應用程式可以是由使用者裝置在一網路上存取的一網上(web-based)應用程式。在一些具體實施例中,該視覺辨識器引擎300可以作為一增強指令碼(augmenting script)、程式或應用程式(例如:一插件或擴充)被安裝到另一個媒體內容託管/服務應用程式(例如:Yahoo!Sports®、Yahoo!Video®、NFL®視訊、NHL®視訊、MLB®視訊、Hulu®、YouTube®、Verizon®視訊、和其類似者)。
資料庫320可以是任何類型的資料庫或記憶體,並且可以與一網路上的內容伺服器(例如:內容伺服器、搜尋伺服器或應用程式伺服器)或使用者的裝置(例如:裝置101-104或第一圖至第二圖的裝置200)相關聯。資料庫320包括與本地及/或網路資訊相關聯的資料和中繼資料(metadata)的資料集,該本地及/或網路資訊係與使用者、服務、應用程式、內容(例如:視訊)和其類似者相關。此資訊可以獨立地儲存和索引在資料庫320中及/或作為一連結的或關聯的資料集。如上所述,應當理解,資料庫320中的資料(和中繼資料)可以是任何資訊的類型和不脫離本揭露的保護範圍之類型,無論其是已知的還是即將知道的。
根據一些具體實施例,資料庫320可以儲存使用者的資料,例如:使用者資料。根據一些具體實施例,所儲存的使用者資料可以包括、但不限於與使用者的輪廓資料、使用者興趣、使用者行為資訊、使用者屬性、使用者偏好或設定、使用者人口統計資訊、使用者位置資訊、使用者傳記資訊、和其類似者或其某些組合相關聯的資訊。在一些具體實施例中,為了創建、串流傳輸、推薦、呈現及/或傳遞視訊,使用者資料還可以包括使用者裝置資訊,其包括、但不限於裝置識別資訊、裝置能力資訊、語音/資料載體資訊、網際網路協定(IP)位址、安裝在此裝置或能夠在此裝置上安裝或執行的應用程式、及/或其中的任何組合或其某種組合。應當理解,資料庫320中的資料(和中繼資料)在沒有脫離本揭露的保護範圍情況下,其可以是與一使用者、內容、一裝置、一應用程式、一服務提供者、一內容提供者有關的任何類型之資訊,無論其是已知的還是即將知道的。
根據一些具體實施例,資料庫320可以儲存與來自各種媒體及/或服務提供者及/或平台的視訊內容相關聯的資料和中繼資料。例如:該資訊可以相關於、但不限於視訊的內容類型、與視訊相關聯的一類別、與視訊的像素和視訊框相關聯的資訊、與視訊提供者相關聯的資訊、與參與視訊的玩家相關聯的資訊、與視訊中描述的活動相關聯的資訊、以及與一視訊檔案相關聯的任何其他類型的已知或即將知道的屬性或特徵、或其某種組合。另外,在資料庫320中的每個視訊的視訊資訊可以包括、但不限於屬性,該屬性包括、但不限於視訊的受歡迎程度、視訊的品質、視訊的新舊程度(當它被發佈、分享、編輯等時)、和其類似者。該些因素可以導自於使用者、服務提供者(即Verizon®)、提供視訊內容的內容/服務提供者(例如:Verizon®、ESPN®、ABC Sports®、Netflix®、Hulu®、YouTube®)或其他第三方服務(例如:rottentomatoes.com、IMDB™、Facebook®、Twitter®和其類似者)或其某些組合所提供的資訊。
根據一些具體實施例,當此種視訊資訊被接收或分析時,其可以儲存在資料庫320中作為每個視訊及/或視訊框的n維向量(或特徵向量)表示,其中與該視訊相關聯的資訊可以被解譯為在該n維向量上的節點(node)。在一些具體實施例中,當在一視訊中的數位物件被識別、偵測及/或追蹤時,與其對應的資訊也可以以類似的方式儲存在資料庫320中。資料庫320可以儲存和索引資料庫320中的視訊資訊作為視訊資料和中繼資料的連結組(linked set),其中該資料和中繼資料的關係可以儲存為該n維向量。此種儲存可以通過任何已知的或即將知道的向量或陣列儲存來實現,其包括、但不限於一散列樹(hash tree)、佇列、堆疊、串列(VList)、或任何其他類型的已知或即將知道的動態記憶體分配技巧或技術。雖然上面的儲存討論涉及與其相關聯的視訊和視訊資訊的向量分析,但是所儲存的視訊資訊可以根據任何已知的或即將知道的計算分析技術或演算法來分析、儲存和索引,該技術或演算法可以例如是、但不限於叢集(cluster)分析、資料挖掘、貝葉斯(Bayesian)網路分析、亥登馬爾可夫(Hidden Markov)模型、人工神經網路分析、邏輯模型及/或樹狀分析、和其類似者。
為了本揭露的目的,如上所述,整個視訊(儲存和位於資料庫320中)將在一些具體實施例中討論;然而,不應將其解釋為限制在此所討論的系統和方法之應用。換言之,雖然在整個揭露內容中參考視訊(例如:串流視訊、可下載視訊或隨選視訊),但是其他形式的使用者所產生內容和相關資訊包括例如:文字、音訊、多媒體、RSS饋送資訊可以是在不脫離本申請的保護範圍的情況下使用,其可以藉由該視覺辨識器引擎300根據在此討論的系統和方法進行傳送及/或存取和處理。
如上所述,參考第一圖,該網路315可以是任何類型的網路,例如是、但不限於一無線網路、一區域網路、一廣域網路、網際網路或其組合。該網路315有利於該視覺辨識器引擎300和儲存資源資料庫320之連線。實際上,如第三圖所示,該視覺辨識器引擎300和資料庫320可以藉由任何已知的或即將知道的連接方法及/或致能此等裝置和資源之間的通信方法而直接連接。
該主處理器、伺服器或多個裝置的組合包括根據所述專用功能的程式化硬體,其為了方便起見被稱為視覺辨識器引擎300,並且包括訓練模組302、推測模組304、標註模組306和應用程式模組308。應當理解,在此討論的引擎和模組是未詳盡臚列的(non-exhaustive),因為附加的或更少的引擎及/或模組(或子模組)可以應用於所討論的系統和方法之具體實施例。下面將討論每個模組的操作、設置和功能,以及它們在本揭露的具體實施例中之作用。
參考至第四圖,其顯示了圖像至視訊之自助抽樣的訓練架構的一整體資料流程400。資料流程400提供了視覺辨識器引擎300如何基於圖像和視訊之自助抽樣而在新穎方式中受訓練的一描述。如上所述,此種新穎技術利用從圖像和視訊資料集所提供的資料,而不是如傳統系統中簡單的圖像資料集所提供的資料。從下面關於第四圖和第五圖以及第六圖至第七圖中的該些討論中可以清楚地看出,引擎300的訓練之初始疊代開始於圖像資料集的使用,然後轉換到圖像和視訊資料集,並最終僅利用視訊資料集資訊,從而提供傳統系統缺乏的視訊內物件偵測的準確性。
該資料流程400涉及圖像搜尋引擎404、視訊搜尋引擎408和物件偵測模型412之間的交互作用。在一些具體實施例中,該圖像搜尋引擎404和視訊搜尋引擎408可以是獨立的搜尋引擎,並且在一些具體實施例中,引擎404和引擎408可以是相同的引擎,分別對特定資料類型(即分別為圖像檔案和視訊檔案)執行獨立的搜尋。
資料流程400以輸入402開始。輸入402包括n個查詢項目。在一些具體實施例中,每個輸入402可以是一組項目,其中每個項目對應於被請求偵測的單一物件。例如:若使用者期望為兩個類別:狗和貓構建一物件偵測系統,則使用者可以提供兩組查詢項目,每組包含不同品種的狗和貓的名稱。例如:一組可以包括(狗):黃金獵犬、混種狗、獵犬、比特犬;另一組可以包括(貓):德文捲毛貓、虎斑貓、斯芬克斯貓、短毛貓。
在接收到該些輸入402之後,該系統分別經由引擎404和引擎408執行一圖像搜尋和一視訊搜尋。在搜尋並識別在每個輸入查詢402中識別的每個品種之一預定數量時,該識別的結果被下載(並儲存在資料庫320中)。在所識別的圖像包含查詢項目的可能性很高的意義上,藉由圖像搜尋引擎402識別的圖像結果406被假設是「弱標記的」。該假設是基於圖像搜尋引擎的固有搜尋能力和功能來預測,因為該搜尋引擎執行圖像的一集合之資料和中繼資料的解析,然後特定圖像的識別根據任何已知的或即將知道的技術來與搜尋項目匹配,而該技術可藉由任何已知的或即將知道的搜尋引擎來執行。
以類似的方式,藉由視訊搜尋引擎408識別的視訊結果410也被假設是與該查詢項目相關。然而,該些視訊結果410被假設是「未標記的」。該些視訊結果的「未標記的」假設是基於該些視訊檔案上沒有可用的框級(frame-level)標註之事實。因此,引擎408根據藉由已知或即將知道的視訊搜尋引擎所執行的已知或即將知道的視訊搜尋功能,從與視訊相關的資料和中繼資料中分析、解析、決定或以其他方式識別視訊結果。
在從圖像搜尋引擎404下載圖像搜尋結果406並且從視訊搜尋引擎410下載視訊搜尋結果410之後,該些結果然後通過一物件偵測模型412執行。藉由該物件偵測模型412的執行所實現的該圖像至視訊之自助抽樣處理步驟將在下面結合第五圖做詳細討論,並且作為該處理的一結果,一組受標註的樣本414被產生,且被用於訓練該視覺辨識器引擎300。如下關於第五圖討論,該受標註的樣本414包括一組受標註的視訊,其係基於未標記視訊410和弱標記圖像406的比較/分類進行標註。因此,如下關於第七圖詳細討論,該經訓練的視覺辨識器引擎300可以呈現、串流、下載或以其他方式播放一視訊,並且在呈現該視訊的每個視訊框組期間,該引擎300可以利用受標註的樣本414作為一基礎來執行物件偵測建模,用於決定並識別哪些物件被描述於每個視訊框組中的視訊框中和跨視訊框中。
參考至第五圖,其顯示了藉由物件偵測模型412執行的圖像至視訊之自助抽樣。第五圖描述了一疊代的遞歸迴路(recursive loop),其導致該視覺辨識器引擎300的疊代訓練。換言之,第五圖中的建模412描述了來自圖像和視訊的資料之自助抽樣,其中未標記的視訊最終被標註並轉換成用以訓練引擎300的受標註的樣本414。如上所述,該疊代過程中的關鍵是該建模412的機器於迴路態樣。在每次疊代中,該目標偵測模型412在由「直至該疊代」結果產生的受標註的樣本414上訓練一視覺辨識引擎300;因此,在每次疊代之後,僅在視訊資料上的準確性和信任性增加(例如:構成受標註的樣本414的圖像資料部分減少,而視訊資料部分增加),從而使得引擎300能夠準確地對視訊框進行物件建模。
該建模412開始於一框採樣器450對未標記視訊410進行採樣。在一些具體實施例中,該採樣器450執行一神經網路(例如:卷積神經網路(CNN))演算法、技術或機制,以在視訊410的每個視訊框上執行區域提議。在一些具體實施例中,此涉及將CNN模型應用於每個視訊410的每個視訊框,其導致解析和識別(在一些具體實施例中會提取)每個視訊的視訊框之框資料。如本領域技術人員所理解,此種應用導致稱為「候選區域」的過程,其中一視訊的一輸入框(即一圖像框)被輸入到該採樣器450中並且其輸出包含如此具有一界限框的框,該界限框應用於具有視覺特點臨界程度的特定檢測元素。因此,使用上面的範例,對於「貓」視訊,界限框將應用於其上描述有貓的視訊框之區域。因此,此導致了視訊的採樣,使得僅具有期望物件的視訊框被呈現至該物件偵測器452。
在一些替代具體實施例中,該採樣器450利用已經由人類標記者458標記的框作為一基礎,用於對視訊410的視訊框進行採樣/過濾。一視訊包含許多冗餘框,並利用來自人類標記的框之資料,其提供哪些框包含對象的一指示符,該採樣器可以追蹤跨越「未標記」的一系列框之物件。因此,在一些具體實施例中,該採樣器450可以從識別一人類標記的框開始,然後執行一物件追蹤技術,以便決定環繞於具有相似內容(即具有物件描述在其中的內容)的受標記框的框。
在一些具體實施例中,該採樣器450可以藉由從具有已知標記的框開始一同執行CNN區域提議技術和人類標記技術,然後經由上面討論的CNN區域提議技術處理圍繞框。
在該採樣器450對視訊410的框進行採樣之後,其結果將提供給該物件偵測器452,該物件偵測器452還接收該受標註的樣本414作為一輸入。如上所述,在該建模412的第一次疊代期間,該受標註的樣本414僅包含「弱標記的」圖像406(並且在隨後的疊代期間,該樣本414包含越來越明白的圖像資料比視訊資料的反比率)。因此,對於該引擎300的第一次訓練疊代,該物件偵測器從該採樣器450接收視訊410的採樣框以及與該受標註的樣本414之相關資料(對於第一次疊代,其包括該弱標記的圖像406)。然後,該物體偵測器在該些輸入上執行任何已知的或即將知道的視覺辨識模型,包括例如:可變形部件模型(Deformable Parts Model)、單次偵測器(Single Shot Detector)、僅一次性檢查(You Only Look Once)偵測器、和其類似者。
由該物件偵測器452所執行的樣本414和該採樣視訊410的此種視覺辨識建模之結果是具有推測標記的視訊框454。例如:使用上面涉及「貓」和「狗」的樣本,未標記的視訊410現在具有特定框,該特定框標記有(或標註有)指示符,其中指示符指示在此些框內偵測到一貓或一狗的位置。此種標記可以涉及如下資訊:{(視訊身分(id)、框身分(id)、x坐標、y坐標、寬度、高度、類別_標記)}。該「視訊身分(id)」指示該框是從該些視訊410中的哪個視訊所採樣;「x坐標」和「y坐標」值指示描述該貓/狗的框內之x-y坐標;「寬度」和「高度」值指示應用於偵測到的貓/狗的界限框之尺寸坐標;以及「類別_標記」指示是否偵測到貓或狗。
然後,該建模412獲取具有從物件偵測器452所輸出的推測標記的框454,並應用一框選擇器456來決定是否應將該框454添加到該受標註的樣本或是否需要一人類標記者檢視。該決定是基於針對每個推測受標記框454執行的一可信度決定(confidence determination)。在一些具體實施例中,此涉及藉由應用一人工網路分類器分析該等框以及決定用以指示該推測標記應用的準確度之一可信度值。例如:若一貓被描述在一框中,該框被相應地標記,且該貓的描述未受場景中的另一個物件所擋,則可以確定可信度值高;然而,若該貓的耳朵和頭部被遮擋,然後此可能導致低的可信度值,因為一貓和一狗的身體可能相似並且導致該物件的一不準確分類。若由該分類器針對一給定框454決定的可信度值等於或高於由一系統操作員或管理員或使用者所設置為一應用特定變數(例如:90%)的一臨界值,則該框454將被添加到該受標註的樣本414。若該可信度值低於該臨界值,但是高於由一系統操作員或管理員或使用者所設置為一應用特定變數(例如:10%)的一最小臨界值,則該框454將被提供至一人類標記者458,用以由該標記者458檢視及/或校正。在由該標記者458檢視及/或校正時,其可以涉及檢視該框,並確認、校正或從該框中移除該標記,如此該框可被標註並添加到該受標註的樣本414。若該框454的推測標記低於該最小臨界值,然後其可以被丟棄。
第四圖至第五圖的建模過程400和子過程412被疊代地執行,並且導致一準確的、有效訓練的視覺辨識器引擎300,該視覺辨識器引擎300可以在視訊被呈現/播放時輕易地識別在視訊內的特定物件。如上所討論,該建模400/412是以圖像開始訓練並緩慢移動到視訊框作為此種訓練的基礎來執行。如上所述,由網路搜尋引擎所搜尋的圖像往往更準確(例如:當用項目「貓」搜尋時可以預期看到貓的圖像),但這不一定適用於視訊。即使視訊是基於該查詢項目被識別,也沒有資訊指示視訊的哪些框實際包含該查詢項目。上面討論的架構在過程開始時利用圖像搜尋結果,以便指導如何分析視訊框,因此導致圖像至視訊的自助抽樣。此種域到域(domain-to-domain)的自助抽樣結合了主動學習和跨域自助抽樣的概念,使得視訊框能夠在呈現和準確處理時被主動分析,以便識別該框在該系列的框中實際所描述的內容。
參考第六A圖至第七圖,在此討論的過程詳細描述了根據本揭露的一些具體實施例所執行的步驟,用於構建和實現機器於迴路、圖像至視訊之自助抽樣技術,就如上關於第四圖至第五圖所討論。第六A圖至第六B圖的過程詳細描述了構建和訓練該架構的步驟(分別描述在第四圖和第五圖中),並且第七圖的過程700詳述了將此架構應用於一視訊的步驟(即當該視訊呈現在一計算裝置(例如:一使用者的行動裝置時))。
參考第六A圖的過程600,其進一步討論了上面關於第四圖的資料流程400所討論的步驟,該視覺辨識器引擎300被訓練,以提供用於識別一視訊檔案每個框內的特定元素之功能。根據本揭露的具體實施例,過程600的步驟602-610由該視覺辨識器引擎300的訓練模組302所執行,步驟612由該推測模組304所執行,並且步驟614由該標註模組306所執行。
過程600開始於步驟602,其中一組查詢項目被接收。如上面關於第四圖所討論,此可以涉及接收期望被偵測的一物件類型之多個項目(用於訓練引擎300的目的)。在步驟604和606中,一圖像搜尋引擎和一視訊搜尋引擎從步驟602執行對該等項目的搜尋。在步驟608中,從步驟604和606所識別的結果被下載並儲存。在步驟610中,一物件偵測模型被應用於該下載的結果。如上面關於第四圖和第五圖所討論,該物件偵測模型的應用導致了視訊框被標記並添加到該受標註的樣本414。該受標註的樣本414係用以訓練該視覺辨識器引擎300,使得當一視訊被播放時,該視訊的各個框可以被精確地處理,以便偵測其中所描述的特定物件(如下面關於第七圖所討論)。
參考第六B圖,在過程600中執行步驟610的過程被詳細描述,其中該物件偵測模型被應用(從第四圖至第五圖的項目412)。步驟610涉及在此所討論的圖像至視訊之自助抽樣。在步驟610中的建模開始於子步驟650,其中一框採樣器被應用於該下載的視訊,然後對該以下載的視訊進行採樣,並且具有描述一偵測物件的一組框係被辨別,就如上面關於第五圖所討論。在子步驟652中,一物件偵測模型被應用於該採樣的視訊框和該受標註的樣本,就如關於第五圖所討論。在子步驟654中,推測的標記被決定,並基於該物件偵測模型的應用而被應用於該採樣視訊框。如上關於第五圖中的該被應用的物件偵測器452所討論,該受標註的樣本藉由該物件偵測器452而與該採樣的視訊框進行比較,並且該結果是該推測受標記的視訊框454。
在子步驟656中,該框選擇器456分析來自步驟654的所應用的推測標記,並且一可信度值被決定。然後,在子步驟658中決定所應用的標記是否滿足一可信度臨界值,並且若是滿足,則藉由將該些視訊框添加到該受標註的樣本414來更新該訓練集-子步驟660,並且在上面關於第五圖所討論。若該可信度低於該臨界值,則該些視訊框將提供給一編輯者(例如:人類標記者458)-步驟662。在步驟664中,該編輯者通過校正或批准該標記來驗證該推測標記的正確性,就如上關於第五圖所討論。然後,該些經驗證的框被添加到步驟666中的該受標註的樣本。再次,如上所述,該更新的訓練集(即在其中已添加了高可信度的框和該經驗證、低可信度的框之該受標註的樣本414)係用以訓練該引擎300,其可應用於一呈現的視訊,如下關於第七圖所討論。
根據一些具體實施例,第六A圖的過程600和第六B圖的子過程610可以被遞歸地執行,直到視訊資料的一臨界程度構成全部的受標註的樣本414。此將涉及完成過程600,然後再次經由該視訊搜尋引擎搜尋該視訊而開始。然而,如上所述,該物件偵測模型412並非利用來自一圖像搜尋的結果,而是將該視訊結果與該更新的訓練集(即來自先前疊代的更新受標註的樣本)進行比較。因此,在每次疊代之後,該視覺辨識器引擎300最終將藉由完整的視訊資料進行訓練,從而改善在跨一系列視訊框中可偵測該物件的準確性和效率。
參考第七圖,過程700詳細描述了將該訓練的視覺辨識器引擎300應用於正被呈現的一視訊檔案之步驟。根據一些具體實施例,過程450的步驟452-454係由該視覺辨識器引擎300的應用程式模組308所執行。
過程700開始於步驟702,其中一視訊檔案被接收以在一使用者界面(UI)內顯示。根據一些具體實施例,該視訊檔案可以是一HTTP即時串流(HLS)檔案,並且在一些具體實施例中,該視訊可以是任何類型的可下載或可呈現的媒體檔案,就如上所述。該使用者界面可以相關聯於在一使用者裝置上或在瀏覽器內執行的一應用程式,或者相關連於用在呈現一視訊的任何其他類型的已知或即將知道的機制。應當理解,該視訊的內容可以相關聯於任何類型的內容,並且該應用的功能將保持適用。
在步驟704中,該視訊正在被呈現,其中一特定系列的框正在當前被該播放器所處理。在一些具體實施例中,此可以涉及識別正由該播放器所處理的特定框(或由該播放器正在其上執行的裝置接收的特定框-例如該HLS檔案)。在一些具體實施例中,該些框可以被分析(在解碼之前或之後)並且被轉換成一RGB圖像陣列(通過用於轉換視訊/音訊編解碼器的任何類型的命令行應用程式-例如:快進MPEG(Fast Forward MPEG)軟體)。然後,步驟704可以涉及解析和分析該所接收的框並從該視訊內識別一框組。
作為識別當前正在呈現的框組的一結果,過程700然後執行步驟706,其中該訓練的視覺辨識器引擎300被應用於該所識別的框組。如上所述,該視覺辨識器引擎300執行一物件偵測建模技術,該技術將該訓練集(來自上面關於第四圖至第六B圖討論的訓練之該受標註樣本414的當前版本)與該所識別的框組進行比較,並且偵測在該框組內一特定物件之位置-即哪些框和該物件是在該些框內的哪個位置-步驟708。在一些具體實施例中,若一框(多個框)沒有如此的物件,則該框被丟棄,並且系列中的下一框將排隊往前由該引擎300來處理。
例如:使用上面的貓與狗的例子,涉及貓與狗互相玩耍的一視訊正在被播放。當該視訊被播放時,該引擎300分析該框並決定哪些框以及每框內的狗和貓被描述在何處。例如:如上所述,步驟708的一結果可以提供以下資訊:{(視訊身分(id)、框身分(id)、x坐標、y坐標、寬度、高度、類別_標記)},其指示在哪個視訊的一框描述了貓/狗、其可以位於該框內的哪個位置坐標上。根據一些具體實施例,該資訊還可以包括指示其中描述了什麼類型的物件(例如:貓/狗的品種)的資料,以及該物件的任何其他形式的識別資訊。
因此,過程700係為一呈現視訊而被執行,並且能夠決定一貓及/或一狗是否即時被顯示在一螢幕上及在其何處被顯示(例如:當播放一視訊時)。因此,當一期望物件在使用者界面內被描述,該物件的呈現可以被自動偵測、處理和識別(根據過程700的上述步驟),並且如下關於第八圖所討論,增加或附加的資訊(例如:與該物件有關的資訊)也可以在該使用者界面內自動顯示。
第八圖是一工作流程範例800,用於基於與視訊相關聯的資訊來提供相關的數位媒體內容,就如上關於第三圖至第七圖所討論。在一些具體實施例中,該內容可以與廣告相關聯或包括廣告(例如:數位廣告內容)。在一些具體實施例中,此類內容可以提供增強的資訊給視訊。被稱為「物件資訊」的此種資訊僅供參考,其可以包括、但不限於與在視訊中所偵測到的一物件相關聯的資訊、視訊的情境、和其相似者、及/或其某種組合。
如上所述,對一「廣告」的提述應理解為包括、但不限於提供由另一使用者、服務、第三方、主體和其類似者所提供的資訊的數位媒體內容。此類數位廣告內容可以包括可由一計算裝置呈現的任何類型的已知或即將知道的媒體,其包括、但不限於視訊、文字、音訊、圖像及/或任何其他類型的已知或即將知道的多媒體。在一些具體實施例中,該數位廣告內容可以被格式化為超連結多媒體內容,其提供深度連結特徵及/或能力。因此,雖然某些內容被稱為一廣告,但其仍然是可由一計算裝置呈現的數位媒體項目,而此種數位媒體項目包括由網路關聯第三方提供的轉發促銷內容之數位內容。
在步驟802中,物件資訊(例如:從步驟706)係被識別。如上所述,該物件資訊可以基於來自以上關於第七圖概述的過程之任何資訊。為了本揭露的目的,過程800將單個視訊檔案指為用於提供附加內容的基礎;然而,不應該將其解釋為限制,因為在不脫離本揭露的範圍的情況下,任何數量的檔案以及所使用的程式及/或其中包括的內容項目可以形成如此的基礎。
在步驟804中,一情境係基於所識別的物件資訊而被決定。該情境形成了提供與物件資訊相關的內容之基礎。在一些具體實施例中,該情境可以是根據該視訊的情境,如上關於第四圖至第七圖所討論。例如:一視訊可以包括描述貓與狗一起玩耍的內容;因此,步驟804中所識別的情境可以與「寵物」相關聯,或者更具體地,與使用者區域中的一動物收容處相關,並且可以被利用以識別與該些活動相關的數位內容(例如:貓/狗食品的報價、或提供與視訊中描述的品種類型相關的維基(wiki)資訊、和其類似者的資訊),如在此關於過程800的步驟所討論。在一些具體實施例中,步驟804的情境的識別可以在上面關於過程700詳述的分析之前、期間及/或之後發生,或者其可以是一完全獨立的過程,或者其一些組合。
在步驟806中,該所決定的情境係以包括伺服器和資料庫(例如:內容伺服器106與內容資料庫107、及/或廣告伺服器130與廣告資料庫)的內容提供平台傳送(或分享)。在接收到該情境時,該伺服器執行(例如:使得根據從執行視覺辨識器引擎300的裝置接收的指令執行)搜尋相關資料庫內的一相關數位內容。對該內容的搜尋至少是基於所識別的情境。
在步驟808中,該伺服器在該資料庫中搜尋與所識別的情境相匹配的數位內容項目。在步驟810中,一內容項目係基於步驟808的結果而被選擇(或被取出)。在一些具體實施例中,該所選擇的內容項目可以被修改,以符合該內容項目將顯示於其上的頁面、界面、信息、平台、應用程式或方法的屬性或能力,及/或符合該內容項目將為其顯示的應用程式及/或裝置的屬性或能力。在一些具體實施例中,該所選擇的內容項目係以經由該使用者用以檢視、呈現媒體及/或與媒體交互作用的應用程式分享或傳送-步驟812。在一些具體實施例中,該所選擇的內容項目係直接被發送到一使用者計算裝置,以在該裝置上及/或在描述該視訊的使用者介面內顯示。在一些具體實施例中,該所選擇的內容項目被顯示在該界面的一部分內,或者被顯示在與用以播放該視訊的呈現界面相關聯的一重疊或彈出界面內。
為了本揭露的目的,一模組是執行或促進在此描述的過程、特徵及/或功能(有或沒有人為的互動或增強)的軟體、硬體或韌體(或其組合)系統、過程或功能、或其組件。一模組可以包括子模組。一模組的軟體組件可以被儲存在一電腦可讀媒體上以供一處理器執行。模組可以是一個或多個伺服器的組成部分,或者由一個或多個伺服器加載並執行。一個或多個模組可被集合成為一引擎或一應用程式。
為了本揭露的目的,該術語「使用者」、「訂戶」、「消費者」或「客戶」應該被理解為指在此所述的一個或多個應用程式之一使用者及/或由一資料提供者所提供資料之一消費者。作為範例而非限制,術語「使用者」或「訂戶」可以指在瀏覽器交流中透過網際網路接收由資料或服務提供者所提供的資料之人,或者可以指用以接收資料並儲存或處理資料之一自動軟體應用程式。
本領域技術人員將認識到,本揭露的方法和系統可以由許多方式實現,並且因此不受前述範例性具體實施例和範例的限制。換句話說,由硬體和軟體或韌體的各種組合的單個或多個組件所執行的功能元件、以及各個功能可以分佈在客戶端級別或伺服器級別或該兩者上的多個軟體應用程式之間。在此方面,在此描述的不同具體實施例的任何數量的特徵可以組合成單個或多個具體實施例,並且具有少於或多於在此描述的所有特徵之替代具體實施例是可能的。
功能還可以全部或部分地以現在已知的或即將知道的方式分佈在多個組件之間。因此,大量的軟體/硬體/韌體組合實現在此描述的功能、特徵、介面和偏好是可能的。此外,本揭露的保護範圍涵蓋用於執行所描述的特徵、功能和介面的傳統習知方式,以及含蓋了對在此描述的硬體或軟體或韌體組件所進行的這些變化和修改,其係可由現在和將來的本領域技術人員所理解。
此外,本揭露中呈現和描述為流程圖的方法之具體實施例係以範例的方式被提供,以便提供對該技術的更完整的理解。所揭露的方法不限於在此所呈現的操作和邏輯流程。多種替代具體實施例是預期的,其中各種操作的順序被改變,並且其中描述作為一較大操作部分的多個子操作是被獨立執行。
雖然已經為了本揭露的目的描述了各種具體實施例,但是不應認為該些具體實施例將本揭露的教導限制於該些具體實施例。對於上述元件和操作可以進行各種改變和修改,以獲得維持在本揭露中所描述的系統和過程的保護範圍內之一結果。
100‧‧‧系統
101‧‧‧客戶端裝置
102‧‧‧行動裝置
103‧‧‧行動裝置
104‧‧‧行動裝置
105‧‧‧網路
106‧‧‧內容伺服器
107‧‧‧內容資料庫
108‧‧‧應用程式伺服器
110‧‧‧無線網路
130‧‧‧廣告伺服器
200‧‧‧客戶端裝置
222‧‧‧中央處理單元(CPU)
224‧‧‧匯流排
226‧‧‧電源供應器
230‧‧‧大容量記憶體
232‧‧‧隨機存取記憶體
234‧‧‧唯讀記憶體
240‧‧‧基本輸入/輸出系統
241‧‧‧作業系統
242‧‧‧應用程式
245‧‧‧搜尋客戶端
250‧‧‧網路介面
252‧‧‧音訊介面
254‧‧‧顯示器
256‧‧‧小鍵盤
258‧‧‧發光器
260‧‧‧輸入/輸出介面
262‧‧‧觸覺介面
264‧‧‧全球定位系統(GPS)接收器
266‧‧‧相機/感測器
300‧‧‧視覺辨識器引擎
302‧‧‧訓練模組
304‧‧‧推測模組
306‧‧‧標註模組
308‧‧‧應用程式模組
315‧‧‧網路
320‧‧‧資料庫
400‧‧‧資料流程
402‧‧‧輸入
404‧‧‧圖像搜尋引擎
406‧‧‧圖像搜尋結果/弱標記的圖像
從闡明於附圖中的下列具體實施例描述,本揭露的前述和其他目的、特徵與優點將會更顯清楚,其中參考字符在各個視圖中係指相同部分。附圖未必按比例繪製,其重點應是放在說明本揭露的原理上:
第一圖為用以說明根據本揭露一些具體實施例的一網路的範例之一示意圖,在此揭露的系統和方法可於該網路內實現;
第二圖為用以說明根據本揭露一些具體實施例的客戶端裝置的範例之一示意圖;
第三圖為用以說明根據本揭露具體實施例的一範例性系統的組件之一方塊圖;
第四圖為用以說明根據本揭露一些具體實施例的訓練機器於迴路、圖像至自助抽樣(「視覺辨識器」)引擎的一範例性資料流程之一方塊圖;
第五圖為用以說明根據本揭露一些具體實施例用於訓練視覺辨識器引擎的物件模型偵測的一非限制性範例之一方塊圖;
第六A圖至第六B圖為用以說明根據本揭露一些具體實施例用於訓練視覺辨識器引擎的執行步驟之流程圖;
第七圖為用以說明根據本揭露一些具體實施例用於應用一受訓練的視覺辨識器引擎的執行步驟之一流程圖;以及
第八圖為用以說明根據本揭露一些具體實施例的執行步驟之一流程圖。
408 視訊搜尋引擎
410 視訊搜尋結果/未標記的圖像
412 物件偵測模型
414 受標註的樣本
450 框採樣器
452 物件偵測器
454 具有推測標記的視訊框
456 框選擇器
458 人類標記者
460 受標註的框
600 過程
602~614 步驟
650~666 步驟
700 過程
702~708 步驟
800 工作流程範例
802~812 步驟

Claims (20)

  1. 一種方法,包括以下步驟: 在一計算裝置上,接收一搜尋查詢,所述搜尋查詢包括一搜尋項目; 經由該計算裝置,搜尋一圖像集合,並基於所述搜尋,識別一圖像組,所述圖像組包括描述所述搜尋項目的內容; 經由該計算裝置,搜尋一視訊集合,並基於所述搜尋,識別一視訊組,所述視訊組中的每個視訊包括至少一個視訊框,所述視訊框包括描述所述搜尋項目的內容; 經由該計算裝置,在所述圖像組與所述視訊組上執行物件偵測軟體,所述執行包括分析該圖像組,及識別在該圖像組中的每個圖像內與描述所述搜尋項目的所述內容相關之資訊,並基於所述分析,基於從所述圖像組中所識別的資訊對該視訊組中的視訊框進行視覺物件偵測; 經由該計算裝置,基於所述視覺物件偵測,產生一受標註的視訊框組,所述產生包括以資訊標註該視訊組中的視訊之視訊框,該視訊框包括描述所述搜尋項目的內容,用以標註之資訊指示所述搜尋項目的一描述已被描述於其中;以及 經由該計算裝置,以所述產生的受標註的視訊框組,訓練視覺辨識器軟體。
  2. 如申請專利範圍第1項的方法,更包括: 搜尋所述視訊集合,並基於所述搜尋,識別視訊的一第二視訊組,所述第二視訊組中的每個視訊包括描述所述搜尋項目的內容之至少一個視訊框; 在所述第二視訊組與所述受標註的視訊框組上,執行所述物件偵測軟體,所述執行包括基於所述受標註的視訊框組中的該標註資訊,對所述第二視訊組中的視訊框進行視覺物件偵測; 基於所述視覺物件偵測,產生一第二受標註的視訊框組,所述產生包括以資訊標註該第二視訊組中的視訊之一視訊框組,該視訊框組包括描述所述搜尋項目的內容,用以標註之資訊指示所述搜尋項目的一描述已被描述於其中;以及 將所述第二受標註的視訊框組添加至包括該受標註的視訊框之一訓練資料集中。
  3. 如申請專利範圍第2項的方法,更包括基於所述第二受標註的視訊框組添加至所述訓練資料集中,以訓練所述視覺辨識器軟體。
  4. 如申請專利範圍第1項的方法,更包括: 使一視訊檔案通過網路在一使用者裝置上呈現; 當該視訊檔案在該使用者裝置上呈現時,分析該視訊檔案,所述分析包括識別當前正在呈現的視訊之一框組; 將該訓練的視覺辨識器軟體應用於所述識別的框組上;以及 基於該訓練的視覺辨識器軟體的所述應用,識別在所述框組內對應於所述搜尋項目之被描述的一物件。
  5. 如申請專利範圍第4項的方法,更包括: 通過一網路,搜尋與所述物件相關聯的內容; 基於所述搜尋,識別所述內容;以及 當在所述視訊內顯示所述物件時,傳送所述內容以供顯示,所述內容顯示包括增加所述視訊內物件之一描述的資訊。
  6. 如申請專利範圍第1項的方法,更包括: 對在所述視訊組中所識別的每個視訊進行採樣,並基於所述採樣,為所述視訊組中的每個視訊識別一框組。
  7. 如申請專利範圍第6項的方法,其中所述採樣包括在所述視訊組中的所述視訊上應用神經網路候選區域軟體。
  8. 如申請專利範圍第1項的方法,更包括: 決定每個受標註的視訊框的一可信度值,所述可信度值指示每個視訊框中的物件的品質。
  9. 如申請專利範圍第8項的方法,其中當所述視訊框的可信度值滿足一臨界值時,所述受標註的視訊框係被自動添加至一訓練資料集中。
  10. 如申請專利範圍第8項的方法,其中當所述可信度值不滿足一臨界值時,藉由一編輯者驗證所述受標註的視訊框,其中在所述驗證之後,所述受標註的視訊框被添加至一訓練資料集中。
  11. 如申請專利範圍第1項的方法,更包括: 當從所述圖像搜尋中識別所述圖像組時,下載並儲存所述圖像組;以及 當從所述視訊搜尋中識別所述視訊組時,下載並儲存所述視訊組。
  12. 一種非暫態電腦可讀儲存媒體,其可由電腦可執行指令有形地編碼,當藉由與一計算裝置相關聯的一處理器執行時,其執行一方法包括: 在該計算裝置上,接收一搜尋查詢,所述搜尋查詢包括一搜尋項目; 經由該計算裝置,搜尋一圖像集合,並基於所述搜尋,識別一圖像組,所述圖像組包括描述所述搜尋項目的內容; 經由該計算裝置,搜尋一視訊集合,並基於所述搜尋,識別一視訊組,所述視訊組中的每個視訊包括至少一個視訊框,所述視訊框包括描述所述搜尋項目的內容; 經由該計算裝置,在所述圖像組與所述視訊組上執行物件偵測軟體,所述執行包括分析該圖像組,及識別在該圖像組中的每個圖像內與描述所述搜尋項目的所述內容相關之資訊,並基於所述分析,基於從所述圖像組中所識別的資訊對該視訊組中的視訊框進行視覺物件偵測; 經由該計算裝置,基於所述視覺物件偵測,產生一受標註的視訊框組,所述產生包括以資訊標註該視訊組中的視訊之視訊框,該視訊框包括描述所述搜尋項目的內容,用以標註之資訊指示所述搜尋項目的一描述已被描述於其中;以及 經由該計算裝置,以所述產生的受標註的視訊框組,訓練視覺辨識器軟體。
  13. 如申請專利範圍第12項的非暫態電腦可讀儲存媒體,更包括: 搜尋所述視訊集合,並基於所述搜尋,識別視訊的一第二視訊組,所述第二視訊組中的每個視訊包括描述所述搜尋項目的內容之至少一個視訊框; 在所述第二視訊組與所述受標註的視訊框組上,執行所述物件偵測軟體,所述執行包括基於所述受標註的視訊框組中的該標註資訊,對所述第二視訊組中的視訊框進行視覺物件偵測; 基於所述視覺物件偵測,產生一第二受標註的視訊框組,所述產生包括以資訊標註該第二視訊組中的視訊之一視訊框組,該視訊框組包括描述所述搜尋項目的內容,用以標註之資訊指示所述搜尋項目的一描述已被描述於其中;以及 將所述第二受標註的視訊框組添加至包括該受標註的視訊框之一訓練資料集中。
  14. 如申請專利範圍第13項的非暫態電腦可讀儲存媒體,更包括基於所述第二受標註的視訊框組添加至所述訓練資料集中,以訓練該視覺辨識器軟體。
  15. 如申請專利範圍第12項的非暫態電腦可讀儲存媒體,更包括: 使一視訊檔案通過網路在一使用者裝置上呈現; 當該視訊檔案在該使用者裝置上呈現時,分析該視訊檔案,所述分析包括識別當前正在呈現的視訊之一框組; 將該訓練的視覺辨識器軟體應用於所述識別的框組上;以及 基於該訓練的視覺辨識器軟體的所述應用,識別在所述框組內對應於所述搜尋項目之被描述的一物件。
  16. 如申請專利範圍第15項的非暫態電腦可讀儲存媒體,更包括: 通過一網路,搜尋與所述物件相關聯的內容; 基於所述搜尋,識別所述內容;以及 當在所述視訊內顯示所述物件時,傳送所述內容以供顯示,所述內容顯示包括增加所述視訊內物件之一描述的資訊。
  17. 如申請專利範圍第12項的非暫態電腦可讀儲存媒體,更包括: 對在所述視訊組中所識別的每個視訊進行採樣,並基於所述採樣,為所述視訊組中的每個視訊識別一框組,其中所述採樣包括在所述視訊組中的所述視訊上應用神經網路候選區域軟體。
  18. 如申請專利範圍第12項的非暫態電腦可讀儲存媒體,更包括: 決定每個受標註的視訊框的一可信度值,所述可信度值指示每個視訊框中的物件的一品質, 其中當所述視訊框的可信度值滿足一臨界值時,所述受標註的視訊框係被自動添加至一訓練資料集中,以及 其中當所述可信度值不滿足一臨界值時,藉由一編輯者驗證所述受標註的視訊框,其中在所述驗證之後,所述受標註的視訊框被添加至一訓練資料集中。
  19. 一種計算裝置,包括: 一處理器; 一非暫態電腦可讀儲存媒體,用以實質儲存程式邏輯於其上以由該處理器執行,該程式邏輯包括: 由該處理器執行的邏輯,用以在該計算裝置接收一搜尋查詢,所述搜尋查詢包括一搜尋項目; 由該處理器執行的邏輯,用以經由該計算裝置搜尋一圖像集合,並基於所述搜尋,識別一圖像組,所述圖像組包括描述所述搜尋項目的內容; 由該處理器執行的邏輯,用以經由該計算裝置搜尋一視訊集合,並基於所述搜尋,識別一視訊組,所述視訊組中的每個視訊包括至少一個視訊框,所述視訊框包括描述所述搜尋項目的內容; 由該處理器執行的邏輯,用以經由該計算裝置在所述圖像組與所述視訊組上執行物件偵測軟體,所述執行包括分析該圖像組,及識別在該圖像組中的每個圖像內與描述所述搜尋項目的所述內容相關之資訊,並基於所述分析,基於從所述圖像組中所識別的資訊對該視訊組中的視訊框進行視覺物件偵測; 由該處理器執行的邏輯,用以經由該計算裝置基於所述視覺物件偵測,產生一受標註的視訊框組,所述產生包括以資訊標註該視訊組中的視訊之視訊框,該視訊框包括描述所述搜尋項目的內容,用以標註之資訊指示所述搜尋項目的一描述已被描述於其中;以及 由該處理器執行的邏輯,用以經由該計算裝置以所述產生的受標註的視訊框組,訓練視覺辨識器軟體。
  20. 如申請專利範圍第19項的計算裝置,更包括: 由該處理器執行的邏輯,用以使一視訊檔案通過網路在一使用者裝置上呈現; 由該處理器執行的邏輯,用以當該視訊檔案在該使用者裝置上呈現時,分析該視訊檔案,所述分析包括識別當前正在呈現的視訊之一框組; 由該處理器執行的邏輯,用以將該訓練的視覺辨識器軟體應用於所述識別的框組上;以及 由該處理器執行的邏輯,用以基於該訓練的視覺辨識器軟體的所述應用,識別在所述框組內對應於所述搜尋項目之被描述的一物件。
TW108100466A 2018-01-18 2019-01-07 機器於迴路、圖像至視訊之電腦視覺自助抽樣的方法、非暫態電腦可讀取儲存媒介及計算裝置 TWI716798B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862619045P 2018-01-18 2018-01-18
US62/619,045 2018-01-18
US15/941,437 2018-03-30
US15/941,437 US10740394B2 (en) 2018-01-18 2018-03-30 Machine-in-the-loop, image-to-video computer vision bootstrapping

Publications (2)

Publication Number Publication Date
TW201941078A true TW201941078A (zh) 2019-10-16
TWI716798B TWI716798B (zh) 2021-01-21

Family

ID=65041671

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108100466A TWI716798B (zh) 2018-01-18 2019-01-07 機器於迴路、圖像至視訊之電腦視覺自助抽樣的方法、非暫態電腦可讀取儲存媒介及計算裝置

Country Status (4)

Country Link
US (1) US10740394B2 (zh)
EP (1) EP3514728A1 (zh)
CN (1) CN110059223B (zh)
TW (1) TWI716798B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI803243B (zh) * 2022-03-16 2023-05-21 鴻海精密工業股份有限公司 圖像擴增方法、電腦設備及儲存介質

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832662B (zh) * 2017-09-27 2022-05-27 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统
US11657320B2 (en) 2019-02-26 2023-05-23 Microsoft Technology Licensing, Llc Using online engagement footprints for video engagement prediction
US10984246B2 (en) 2019-03-13 2021-04-20 Google Llc Gating model for video analysis
US11082744B1 (en) * 2020-01-16 2021-08-03 Microsoft Technology Licensing, Llc Modifying training data for video response quality optimization
US11270147B1 (en) 2020-10-05 2022-03-08 International Business Machines Corporation Action-object recognition in cluttered video scenes using text
US11423252B1 (en) * 2021-04-29 2022-08-23 International Business Machines Corporation Object dataset creation or modification using labeled action-object videos
EP4220449A4 (en) * 2021-12-03 2023-12-06 Contemporary Amperex Technology Co., Limited DATA ANNOTATION METHOD AND SYSTEM FOR IMAGE SEGMENTATION, AND IMAGE SEGMENTATION DEVICE
US11727672B1 (en) * 2022-05-24 2023-08-15 Nanotronics Imaging, Inc. System and method for generating training data sets for specimen defect detection

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
KR102008078B1 (ko) * 2012-09-28 2019-08-06 브이아이디 스케일, 인크. 다층 비디오 코딩을 위한 적응적 업샘플링
US9116924B2 (en) * 2013-01-14 2015-08-25 Xerox Corporation System and method for image selection using multivariate time series analysis
CN107148632B (zh) * 2014-04-24 2020-10-27 河谷控股Ip有限责任公司 用于基于图像的目标识别的稳健特征识别
CA2952576C (en) * 2014-06-20 2022-07-26 Miovision Technologies Incorporated Machine learning platform for performing large scale data analytics
CN106021364B (zh) * 2016-05-10 2017-12-12 百度在线网络技术(北京)有限公司 图片搜索相关性预测模型的建立、图片搜索方法和装置
US10681391B2 (en) * 2016-07-13 2020-06-09 Oath Inc. Computerized system and method for automatic highlight detection from live streaming media and rendering within a specialized media player

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI803243B (zh) * 2022-03-16 2023-05-21 鴻海精密工業股份有限公司 圖像擴增方法、電腦設備及儲存介質

Also Published As

Publication number Publication date
CN110059223A (zh) 2019-07-26
EP3514728A1 (en) 2019-07-24
CN110059223B (zh) 2023-04-07
US20190220525A1 (en) 2019-07-18
TWI716798B (zh) 2021-01-21
US10740394B2 (en) 2020-08-11

Similar Documents

Publication Publication Date Title
US11290775B2 (en) Computerized system and method for automatically detecting and rendering highlights from streaming videos
TWI716798B (zh) 機器於迴路、圖像至視訊之電腦視覺自助抽樣的方法、非暫態電腦可讀取儲存媒介及計算裝置
US11694358B2 (en) Computer vision on broadcast video
US10565771B2 (en) Automatic video segment selection method and apparatus
US10998003B2 (en) Computerized system and method for automatically extracting GIFs from videos
US20200275133A1 (en) Computerized system and method for automatic highlight detection from live streaming media and rendering within a specialized media player
US10867221B2 (en) Computerized method and system for automated determination of high quality digital content
US11620825B2 (en) Computerized system and method for in-video modification
US20230352057A1 (en) Systems and methods for dynamically augmenting videos via in-video insertion on mobile devices
US20240371162A1 (en) Computerized system and method for fine-grained event detection and content hosting therefrom
US20230206632A1 (en) Computerized system and method for fine-grained video frame classification and content creation therefrom
US20240143698A1 (en) Electronic information extraction using a machine-learned model architecture method and apparatus
US20230206614A1 (en) Computerized system and method for image creation using generative adversarial networks