TW200921454A - Method and apparatus for video digest generation - Google Patents
Method and apparatus for video digest generation Download PDFInfo
- Publication number
- TW200921454A TW200921454A TW097127021A TW97127021A TW200921454A TW 200921454 A TW200921454 A TW 200921454A TW 097127021 A TW097127021 A TW 097127021A TW 97127021 A TW97127021 A TW 97127021A TW 200921454 A TW200921454 A TW 200921454A
- Authority
- TW
- Taiwan
- Prior art keywords
- video
- user
- media content
- preferences
- overall
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 230000006870 function Effects 0.000 claims description 69
- 238000004422 calculation algorithm Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 32
- 230000033001 locomotion Effects 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 28
- 230000000007 visual effect Effects 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000007935 neutral effect Effects 0.000 claims description 9
- 238000007620 mathematical function Methods 0.000 claims description 6
- 230000002085 persistent effect Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 241000282320 Panthera leo Species 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 241000287436 Turdus merula Species 0.000 claims description 2
- 230000008901 benefit Effects 0.000 claims description 2
- 210000002784 stomach Anatomy 0.000 claims description 2
- 241000282806 Rhinoceros Species 0.000 claims 1
- 230000003190 augmentative effect Effects 0.000 claims 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 230000002596 correlated effect Effects 0.000 abstract description 5
- 230000001276 controlling effect Effects 0.000 abstract description 3
- 230000002776 aggregation Effects 0.000 description 61
- 238000004220 aggregation Methods 0.000 description 61
- 238000010586 diagram Methods 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 108020004414 DNA Proteins 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 150000007523 nucleic acids Chemical group 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 241000405217 Viola <butterfly> Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- FPIPGXGPPPQFEQ-OVSJKPMPSA-N all-trans-retinol Chemical compound OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-OVSJKPMPSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 235000019169 all-trans-retinol Nutrition 0.000 description 1
- 239000011717 all-trans-retinol Substances 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- QPUKANZXOGADOB-UHFFFAOYSA-N n-dodecyl-n-methylnitrous amide Chemical compound CCCCCCCCCCCCN(C)N=O QPUKANZXOGADOB-UHFFFAOYSA-N 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000009941 weaving Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4334—Recording operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4348—Demultiplexing of additional data and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
200921454 九、發明說明: 【發明所屬之技術領域】 本發明為有關於一種儲存、取回及顯示媒體訊息之系 統及其方法’特別是指一種涉及處理視訊及聲音内容,使 不受歡迎的内容將被丟棄而僅僅保留想要的内容之方法 及裝置。 【先前技術】 數位錄放影系統(Digital video recorders, DVR)允許便 利且彈性地儲存及取回影音訊息。今日,大多數的視訊内 谷來自有線電視或衛星電視的供應商,亦或是不同媒體中 的才田案不過,因為寬頻網路的迅速發展,故視訊内容來 自於網際網路、點對•點分享…等等的比例已經逐漸增加, 這些趨勢使得像統頻道的概念變得模糊,因此我們稱可能 的視訊來源為「魄財」(嶋nGfe(mtent)。 β然而,要如何從汪洋中儲存及取得重要的内容便成為 問題所在,假使具有大量的内容可供選擇,用戶如何選擇 想要看見_容將1個_。想像—台典型的數位錄放 影機也許可以儲存數小時的視訊,而—個典型、現代的使 用者’無法在有限的時間内看到他想看到的一小部分的情 況。雖然’現代的數位賴韻具有—絲本的能力使錄 製内容的職及取得變得料,但是它們太舰且普通, 所以仍然不具便利性。 —視訊的觀眾通常只想要看對他們有意義的部分節目 内容(例如:想要的内容),它們應被理解為單一個内容, 200921454 且根據想要與否的内容之定義,可能產生多個不同的視訊 摘要,而因為這樣的定義是主觀的,所以理想的情況是視 訊摘要是針對每一位用戶進行客製化定義。 理論上,想要與否的内容可能具有一個語意描述,舉 例來說,有些用戶可能希望調節一個DVR處理器用以分 析視Λ,且自動儲存或重新播放車禍場景,以及自動放棄 儲存或排除廣告,此時,「車禍」及「廣告」為高階、人 可辨識且屬於將視訊内容以上述方式分類的語意標鐵,自 動匹配高階且人類可理解的語意描述於低階視訊内容可 由一個或多個處理器自動處理的過程,係屬於一般樣本分 類及識別的問題’通常這被稱為視訊搜尋。 立不幸地,習知的方式並沒有獨特且可靠的關於高階語 意描述與實際的視訊内容相結合之方法,尤其是有助於典 型視訊觀眾的—種方法,視訊觀眾通常喜歡零負擔經驗 (獅-effort experience),其中不需要與系統有明確的互 動相車又之下’使用習知的方式,為了透過自動化的視訊 辨識裝置來進行操作與辨識,以便將想要與否的視訊之高 階用戶語意描述與視訊樣本作充分結合,用戶必須要與系 統有實質的互動。 ..... 【發明内容】 本發明係-種以自動或半自動方式評估觀眾可能感 興趣的視觀息(包含減鱗音資訊),且根據評估結果 控制視訊的儲存及/或重新播放的機制,具體而言,^發 明是有關於處理媒體内容,用以將無意義的内容捨棄且^ 200921454 留重要_容之新财法U及系统。 在一個具體的實施例中,接 以儲存及/或麵播放媒體内^ 1數姉放影系統用 視炕卢^。 該系統可包含至少一個 =二=處理器,分析輸入媒體内容及 内料的各時段之_或聲音 正在播勒,雜錄謂體内容 係永續性的記憶裝置永存記憶體 至好的描述符號。對於該系統來說,包含 号相應的控制軟體,每-個控制處理 ==體的控制之下進行操作,並且控制未經分析 析的輸之各喊_及/嫌,且將未經分 知媒作為未知聰内容。這是透過事先把未 夫媒體内讀_視訊處 知媒體内容中的#/、 ¥視訊處理器產生未 符號,接著=♦之視訊及/或聲音的未知視訊描述 資料庫的‘理减用未知視訊描述符號作為永存 覽喜=來並=應於未知視訊描述符號的㈣ 函數,用以涂用戶劉覽喜好及適當的權重 π,Μ 未知媒體内容之各時段的預估用戶喜好評 =工1處理器使用所建立的預估用戶喜好評價來栌制未 知媒體内容之各時段_叙/放。貝㈣未 發明此處將揭露其他實施例,以不_敘述目的來描述本 在-貫施辦,視m處理器及控制處理器可能是相同 200921454 的處理器,且敏處可叫敎錢 Γ妨恤/細$,_,树猶控制處ί =疋不同的處驾,且視訊處理咖續佳化產生描述符 所述描述符射從—群已知且_戶喜好具有正相 M (_ve statistieal _eIaii〇n)或負相關(η_Μ statistical correlation)的描述符號中選出。 或者’所賴應雜人舰内財各時段_像内容 的描述符號,係經驗學運算處理後所得狀媒體内容子 集合的結果,這麵體内容子集合可自3維像素區塊、3 維邊界、具有相同運動之時空區域、先驗物件(a priori 〇bjeCtS)及簡單特徵集物Motions 〇f simple featoes) 之群組組合中任選其一。 或者’對應輸入媒體内容中各時段的圖像内容的描述 符號,更進一步可最佳化用以偵測視訊中的行動、談話、 卡通、室外風景及文字。 或者’對應輸入媒體内容中各時段的聲音内容的描述 付號’疋經過數學運算處理後所得到之媒體内容子集合的 結果,而這些數學運算處理可從分析聲頻範圍、聲能抗頻 摩色圍(sound energy versus frequency range)、音頻範圍、音 樂頻率範圍、單字辨識及語言辨識的分析功能群組組合中 任選其一。 對應輸入媒體内容中各時段的聲音内容的描述符號 亦可自 Viola-Jone 演算、R0Wiey_Baluja_Kanade 演算、 200921454
Schneiderman-Kanade 演算、R0th-Yang-Ahuja 演算及 Chum 演算的圖像特徵辨識演算法的群組組合任選其中之一,以 及其他可能的演算法。 所述永存資料庫包含相應於正相關瀏覽喜好的描述 符號’以及相應於負相關瀏覽喜好的描述符號及適當的權 重函數,其中,權重函數包含差集運算用以自正相關的瀏 覽喜好中刪去負相關的瀏覽喜好。 此系統的永存記憶體及/或永存資料庫,可以透過補 充資料庫’獲付來自複數個其他系統、其他媒體内容及其 他用戶的其他視訊描述及用戶喜好。 一個或多個感應器可能包含偵測及記錄該些用戶瀏 覽喜好的偵測訊息,這些偵測訊息可從正常播速視訊、跳 過視訊、高速播放視訊、指定喜好視訊、指定非喜好視訊、 圖像感應器指示播放給觀眾的視訊、圖像感應器指示非播 放給觀眾的視訊、圖像感應器、聲音感應器指示播放給有 興趣觀眾的視訊及圖像感應器及聲音感應器指示播放給 無興趣觀眾的視訊群組組合中任選其一。 5亥系統包含壓細視§fL使其滿足時間短於原本視訊長 度的指定時間區間,其透過選擇具有最高用戶喜好的輪 入視訊時段,以及不選擇具有較低用戶喜好的輸入視訊時 段’以便使輸入視訊可以在指定時間區間内被播放。 該系統可具有區別不同用戶的能力,且對應的控制軟 體可以基於瀏覽喜好的用戶個人資料或瀏覽喜好的歷史 記錄來控制媒體内容。 200921454 該系統更包含計算-個或多個視訊簽章,所述視訊簽 章用以辨識未知媒體内容之各時段的整職況來生成整 體視訊識別標籤;將這些整體視訊識別標籤與整體用戶瀏 覽喜好進行對應,並且儲存至永存資料庫。在此系統中, 控制處理器及/或視訊處理器分別透過各自的控制軟體來 控制未經分析的輸入媒體内容之各時段的儲存及/或播 放,且將未經分析的輸入媒體内容作為未知媒體内容。此 控制可先透贼立未知舰内容之各時段的-個或多個 視訊簽章作為整體視訊識別標籤,然後 別標m為永存資料庫的索引,並取得相應== 別払籤的整體用戶瀏覽喜好,其整體用戶瀏覽喜好及預估 用戶喜好評價可被用以作為主用戶喜好函數的輸入,所述 主用戶喜好函數可以用來控制未知媒體内容的各時段之 儲存及/或播放。 所述視訊簽章是透過雜湊函數或視訊DNA建立演算 法所計算。 、开 所述主用戶喜好函數允許整體用戶瀏覽喜好覆蓋預 估用戶喜好評價。 心立本發明的一個具體實施例是用以透過將視訊媒體的 影音分解成低階描述符號,且為每一個視訊圖像及場景皆 產生大I的低階描述符號,這些低階描述符號能夠快速自 ^地產生且彼此相容’同時具有—賴於人織眾(即劉 j或用戶)的沙j覽喜好與否之統計’一般而言,關於瀏 覽吾好的非零統計可能是足夠的,但是在—些具體實施 11 200921454 上,更嚴格的統計標準可能特別有用。 例如:觀眾通常較喜歡有出現面貌的視訊書面 面貌識別描賴號通常_覽喜好有正相 聯,相較之下,觀眾通常不喜歡注視勞幕中充滿文= 況,因為㈣的晝面通常發生在無趣的字幕或紅 的文字描述於統計上通常為具^關
個別的觀眾可能有不同的視訊劉覽喜好,例如. 觀眾主要__是訪談節目,那麼他可能不立 ,而喜好說話的聲音,相較之下,—般财可“: θ樂。同樣地另-侧子,—些觀眾更喜鼓多數是動作 而較少的交談’如此’㈣觀眾便不喜歡畫_容中包含 多數不動的人。 透過比對正相關瀏覽喜好所對應的描述符號之數 量’以及負相關輕喜好所對應的描述符號之數量,自動 化=系統可分析-個未知視訊節目,並且根據經驗猜測哪 些節目部分可能會被最感興趣的觀眾播放,其系統可在觀 眾較不感興趣的節目部份進行跳過或快轉,其方式可針對 個別的觀眾進行最佳化。本發明可應用於各種不同的視訊 儲存及播放裝置,尤其有助於控制個人錄放影系統 (Pe_al Video Recorders,PVR)及數位錄放影系統(Digital Video Recorders,DVR)。 在系統的觀點上,本發明可包含硬體及軟體的結合, 例如:系統可以一個數位錄放影系統的零件或子系統型態 12 200921454 存在’在這個型態中,本發明可分析儲存及播放於數位錄 放影系統中的視訊内容,以及只取出或顯示視訊内容的一 部分,此時系統評價對於用戶是非常有意義或重要的。 雖然,本侧的典姻妓讀由聲音及視訊所構成 的視訊節目或舰,本㈣柯肖來分析鱗節目(即僅 具有視訊内容)、音頻節目(即僅具有音頻内容)或其他素 材,前述的各種素材在本發明中稱作「媒體内容」。’、 【實施方式】 ^ 以下配合圖式對本發明之硬體及倾的具體實施方 式作進-步的說明,請參閱「第丨圖」,「第丨圖」為庫用 本發明數靖放影系統與視訊摘㈣統結合之方塊圖,包 含整合於數位錄放影系統100中的視訊摘要產生器ιι〇二 數位錄放影系統湖更包含辆器12G及解· 13〇,用 以如:對高壓縮的數位視訊(通常在MPEG4或MpEG_4 的格式中)以及未壓縮的視訊串流之間進行轉換,並用於 $訊的儲存及傳輸,然後傳送到螢幕來實際劉覽。在這種 h况下,視訊摘要產生器11〇可被包含,用以作為—個單 獨的組成部分,或是被包含作為—爐縮視訊的升級版 本’而所述編碼器120/解碼器130引擎幾乎存在於所有的 ^位錄放影系統。另外,數位摘要系統可存在一個單獨的 4置中,與數位錄放影系統一同操作,數位摘要發明也可 被獨立使用於數位錄放影系統,例如:可與攝影機結合並 且自動確定何時傳送視訊。 —般而言,視訊摘要產生器110可定義為硬體及軟體 13 200921454
的結合,用以在其中提供視訊摘要功能。當執行在一般功 能的處理器時,其欠缺特定的視訊功能及指令,幾乎所有 的視訊摘要產生器都需要由一系列的軟體演算法所組 成,通常是由如c、C++、組合語言或其他電腦程式語言 所撰寫’其引導一般功能的處理器執行各種演算法將在稍 後進行詳細說明’當被更專業或更複雜的處理器執行時, 其包含特定的視訊功能及指令,在適當的情況下,視訊摘 要產生器的某些部分可從軟體卸載而執行於硬體,通常這 可能是有_,因為專業的硬體通常可比純粹的軟體執行 還要快,例如··處理器可能包含一個描述符號產生器,用 以接收未知視訊節目及產生未知視訊節目各時段之視訊 及/或聲音_料號(即未知視·述魏),這可透過各 種方式實現’包括:純粹的軟體(執行於—個—般功能的 處理器)、嵌人處理器的軟體、微碼(mi⑽吻及處㈣ 的專屬硬體電路’甚至是位於外部的處理器之專屬硬體電 =-_付’處職可包含—個钟單元,用以 未知視财趨符餅為赫倾 符號的用戶瀏覽喜好,這也可以= 二:見’匕括.純粹的軟體(執行於一個—般處理器卜 ::處=器的軟體、微碼(mic_d_ 电路,甚至是位於外部的處麵之專屬硬體電路。 重函 冋樣地’另一個例子,處理器可包含 器,用以透過所取得的用戶濁覽喜好及—個適當=建立 14 200921454 數,建立未知視訊節目之各時段的預翻戶喜好評^、 同樣也可以透過各種方式實現,包括:純粹的軟體^ ^ 於-個-般功能的處理器)、嵌入處理器的軟體、(::丁 (腦聰de)及處理器的專屬硬體電路,甚至是位 的 處理器之專屬硬體電路。 °的 如此-來’視訊摘要產生器!料透過軟體或是 體結合來實現,其執行於—個單—處理器或多控制器之 上,或者是處理器的組合、微控制器、應用特殊的集成電 路、記憶及儲存裝置,作為分析視訊(及任意的聲音)訊號 的必須,這些處理器及微控制器可相容於顧、Μιρ/、 X86、Alpha、Power_PC處理器(或微控制器)的指令或其 他才曰7 ’更多的應用如:使用數位訊號處理器(Dsp)可最 佳化視訊處理,且此數位訊號處理器可封裝於系統單晶片 (SoC) ’此處理斋可以是一個多工函數處理器陶响 functionprocessor)及包含一個子系統,該子系統具有視訊 編解碼功能用以壓縮及解壓縮數位視訊,在此例中的一些 具體實施方式,其視訊摘要產生II可儀經由該子系統所 產生的某些中間數據,如:某些視訊部分的動作偵測,以 及為了幫助某些視喊要的處理,合適的視訊編解碼處理 為包含處理失真的編解碼如:MPEG_1、、 MPEG-4 ^ MPEG-10 ^ MPEG-4 (Advanced Simple Profile) ^ H.264、Blackbird、Cinepak、Indeo 3/4/5、MJPEG、Sorenson 3、Microsoft Windows Media Video (WMV)、RealVideo 及 其他失真的編解碼,以及非失真的編解碼如:C〇repNG、 15 200921454
Hufifyuv、Lagarith、LCL、处此濯⑶、等。 所述視訊摘要產生器110也可經常將其軟體程式儲 存在水存記憶體如:Flash、R0M或後備電池供電的記憶 體’該視訊摘要產生器11〇亦可經常包含充足的隨機存取 疏體如:RAM’.X鱗部分視關像及部分被視訊 摘要處理所使用的中間計算。 月ίι面提到,在一些貫施例中,部分的視訊處理需要產 生摘要’其可健透過魏、鱗碼及執行減編碼或轉換 處理的期@(當Θ箱存於触播放纟統)或執行視訊解 碼處理(當f轉内容被触)的_所產生的纽。此方式 在計算的複雜巾具有-個優點,因為有些密集運算已經 在視訊編碼或解碼(例如:動作偵測)的期間被執行,所以 了重複用於視机摘要的產生,避免重複計算。 視訊摘要產生處理 所述視訊摘要產生器是設計用以自動處理視訊内 谷,並且建立與用戶瀏覽喜好相關的詮釋資料,以便可用 來控制數位錄放影系統及其他系統。 請參閱「第2圖」,系統200内顯示視訊摘要產生處 理的主要階段。輸入視訊2丨〇自動將單—或多個視訊依序 輸入到視訊摘要產生器220。以下將對單—視訊的輸入做 說明,然而,多個視訊的輸入也可透過標準交換設備及/ 或額外的處理設備,由於多個視訊的輸入是容易地且顯而 易見的技術,因此,應該歸入本發明之精神。 接下來,說明本發明中使用的符號標記,其中視訊是 16 200921454 透過I(x,y,0來代表,其中χ及y分別代表橫向和縱向的 空間座標’而t則代表時間座標,由於t的固定數值,取, y,t)可看成-個一維像素矩陣,稱之為訊框(Frame),基本 上是對制-個標準的圖像訊框,空間座標所指的位置是 麵框翻巾,時間座細是有_時間軸,通常是與視 訊的訊框數量相關,舉例來說,假設視訊是以每秒三十個 訊㈣記錄,㈣每-秒通t具有三十個訊框。 f —視鋪要產域奴纟下着段所組成:視訊元素分 剎230、重要分級指派240及視訊聚集25〇,這些階段的 處理可透過用戶介面與用戶進行互動,以便引導及取 得更多相關於某-特定用戶之喜好分級。 視訊元素分割 在視訊元素分割230的階段時,每一個視訊依序被分 成視訊要素,如「第3圖」所示,一個視訊元素是定 義為個一維時空I(x,y, t)的子集合,例如··在一組連續 C, _框_像素連續雜,實質上,這是非常短的視訊剪 輯之數學抽象概念,其x及y的範圍是配置在二維的視訊 圖=(例如.-個視訊圖像訊框),而t是圖像的組成時間, 通it具有-個與每一秒的視訊圖像訊框之數量成正比 的間^尺寸’典型的數值範圍從每秒I5個訊框、每秒24 個訊框、每秒30個訊框、每秒60個訊框…等等。 人們通常需要瞬間去注意到圖像的部分,在此,視訊 要处,可透過有雜意的邊界設定,作為分析個人視訊 ,杧等、’及之替代,在最小限度下,至少3個時間關聯的 200921454 圖像§fl框可用於每一個視訊元素分析,通常,大約l〇個 或更多相關聯的圖像訊框可以形成這個分析的下限,視訊 圖像訊框可以是相鄰的,例如:在此之期間沒有其他訊 框,或者是半連續的(例如:使用全部的其他訊框,全部 的3個訊框)。 通常時間t或是訊框數量之有效最小設定大約是三分 一秒擷取訊框一次,也就是說每秒30個訊框的視訊,最 小設定將大約在10個訊框,而最大設定的時間或是訊框 數里則任思’且可能根據視訊分析設備的硬體能力、節目 的題材及用戶喜好而有所不同,雖然,有效的上限數值通 常使用3_5秒、其他數值如:15_3〇秒(通常是字幕的長度 或短的廣告)、幾分鐘,甚至可能在某些適當的情況下設 定更長。 不同視訊元素的時間座標可能會根據他們的位置及 大小而產生重疊,如「第3圖」所示,包含三維:空間軸 x320、空間軸y310及時間軸t33〇,視覺上,每一個通用 的視訊元素340可經由曲折延伸(Snake)或管狀(Tube)來表 現,在空間上連續的像素在不同個別訊框結合在一起,最 通用的視訊元素是一個連續的時空且視訊特性一致的子 集合。 舉例來s兒’设想一個看到在牆上掛著一幅方形的晝之 場景幾秒,如果自動化的視訊元素探測器設定將其鎖定且 偵測方形的畫之整體,以曲折延伸或管狀對應這視訊元 素,那麼偕同第一個方形的晝、最後一個方形的畫,以及 18 200921454 的所有方形的晝之訊框(或時間座標)整體看起來就 像一個盒子。如果攝影機的位置相對於方形的畫產生移 那麼曲折延伸或管狀將在視訊之中間訊框(或時間間 =)有曲線或扭曲的不同部分’若是攝影機從方形的晝拉 遠,那麼曲折延伸或管狀的結束將小於一開始,因為當前 所佔的區域(像素的數量)在圖像中出現較小。 對於某些類型的視訊内容,它在視訊元素分析系統是 ^有㈣設置,續㈣元素太短或太長(在時間的持 續期間),或者是過小或過大(在空間大小)時將其丢棄。從 =戶吾好的觀點來看,這些限制是適當的,因為用戶的注 意力通常不會❹】單獨關像騎所影響,都是極短 時間或佔據圖像很小的一部分,但是這個「太小」的規則 也有例外的喃,在文字的情況下,舉絲說,單獨的圖 像元素所佔據的像素大小可能相當的小,然而如果有太多 的文字視訊兀素’觀眾注意力(喜好)將趨於減少,因此, 為了應付這樣的情況,許多觀眾注意力的小要素應該被總 結,以便產生整體觀眾注意(或喜好)的預測。 關於尺寸和時間頻譜的部份,使用者的注意力往往不 會受到單獨元素的影響,如:天空、海洋、地上群眾及房 間的踏壁."料’這些實際上是非常大或持續报長的時 間,為了應付多種類型的視訊元素,在其中增加時間的限 制、視訊元素340演算法,可直接拒絕某些類型的元素與 空間的尺寸小於5%及不超過訊框大小的5〇%,在實施 上,擷取的限制可根據實際使用的視訊分析演算法、節目 19 200921454 類型及用戶喜好作改變,此方式通常有助於注意大的及小 的元素。 有大畺不同的分析方法來描述視訊的各部分,並且分 剔視訊到視訊元素340,這些分析方法可產生視訊元素, 而這些視讯元素與觀眾喜好沒有任何統計上的意義,因 此’重要的是從-群描料號去選擇視訊元素的描述符 號,而這些描述符號是6知紐疑與用戶喜好具有正相關 或副相關的統計相關性,一般來說,越多與其相關的統計 意義就越好。 ▲決定具體的分析方法、視訊元素及元素描述符號很可 能是與觀眾喜好或複雜的興趣有關,因此這裡實驗性的方 法可能有用,一個比較好的方法是在一段時間内,監測一 個比較大(例如:觸或更多)且隨機選取的-群觀眾(誰觀 看了廣泛多樣的視訊),其理想的監測時間是一星期或更 而這群觀眾控制數位錄放影系統,並產生大量的描述 符號作為什麼是有興趣,以及什麼是沒有興趣的題材,這 些i说可儲存在第一觀眾喜好資料庫。 、緊接著各式各樣的觀+戶斤接觸的具體視訊媒體可能 被分析对触大料__魏元素,這些大量不同 的候選視訊元素可儲存於第二觀眾喜好資料庫。 取後,觀眾喜好資料庫及視訊元素資料庫可透過統計 +的關聯分析來進行分析’且這些候選視訊元素及元素的 ^合具有峨眾平均喜好的正_或_狀統計相關 …其超過-個預定的臨界值可選擇和用來產生初始基準 20 200921454 設定或標準視訊用戶喜好元素的「工廠設定」於系統,稍 後將進行彳田述其「標準」或Γ工廠」的設定,然後可額外 透過增加局部設定以考量當地觀眾喜好。 在少數情況下’視訊元素及觀眾喜好之間的關聯是比 較直接且谷易理解(直覺的),為了簡化且閱讀容易,在本 發明中所使用的一些視訊元素的例子之描述將相對較為 直接且直覺,然而在大多數的情況下,個別的視訊元素及 觀眾喜好之間賴縣必直接或容紐解,減地,當用 戶注意力預測來自於衫不同的視訊要素的結合時,這些 相互關係將只獲得有用的涵義。 明 在此,配合-些例子對所定義的視訊元素進行如下說 T2 另一個侧視訊元素340的方式,是依 時空邊界,所述時蝴代錢 或空間^ 然發生改變的財,時空輕 U風大 在於視訊中的當前物件,邊:::應-個沿著時間存 _器,以-個邊賴測器為例,1 個二維的邊緣 如: 一、、隹梯度的基準可使用 E(x, y, t) = I] (x> y} ^ + j2 ^ ^ 或 ’切) 五(…如劝| + |、(w)| + k(㈣丨 21 200921454 Λ、4,及/,代表與χ、y及t有關的I之離散導數,其 他常見於文獻中的邊緣偵測器也同樣可以被應用於此。 視訊必然包含移動,且複雜的移動必須在視訊元素分 析中被分解,在許多情況中,視訊中移動的物件可能是觀 眾感興趣(或不感興趣)的物件,由於視訊元素分析是基於 多個訊框之上,自動化視訊分析演算法需要自動地識別在 訊框一中的位置一之像素群組’是與訊框二中的位置二之 像素群組相關。 偵測這些移動有一個好的方法,但是關於視訊要素 340具有相同運動之時空區域’可使用標準的時空分割方 法如:Feldman 及 Weinshall (D. Feldman and D. Weinshall,
Motion segmentation using an occlusion detectof, IEEE Transactions on Pattern Analysis and Machine Intelligence, 30 (7),July 2008, pp 1171-1185),或是類似的方法。 關於Feldman及Weinshall的方法,透過下列步驟進 行說明:每一個視訊的訊框可看成移動的三維物件之即時 二維描述,當移動時,前景物件覆蓋及揭開背景物件,因 此,在連續的訊框中,屬於前景物件的像素可透過運動補 償來獲得,而背景物件的像素通常無法以此方式獲得,檢 測此像素可以用前後一致的運動作為區域的指示。 當像素I(x,y,t)在空間上之鄰域N(x,y)中的所有χ及 均能滿足存在一向量(vx,vy)以使 I(x,y,t+dt) =I(;x+vx>y+Vy 〇 時’像素I(x,y,t)在空間上的鄰域N(x,y)具有一致的運動。 此區域的邊界可透過利用一個封閉偵測器進行偵測,用以 22 200921454 才曰丁每像素i(x,y,t)是否可從先前的訊框取得移位的結 =Feldman及WeinshaU透過計算時空結構張量的最小 特徵值來解決這個問題,透過3x3對稱矩陣來表示每一個 傻音 「a 」
G (X,y)b{x>y)
L Iy及It 4;義無χ { }及tf y關的J之離散導數,時 工、°構張畺有前後一致的運動和結構(例如:相當於時間 内的物件移動)作為-個區域的指示。如「第4圖」所示, =個標準分割料法_於為每-個像素建立-個二位 兀圖’決定是否屬於一致的區域,每一個像素分配及標記 一個數值/索引作為已標記的視訊元素410,其數值/索引 是用來表示所屬的視訊元素340。 W選擇上述其中-種方法透過使用來自於視訊的解碼 器130或編碼器120之運動向量資訊_一致的運動區 域’例如:MPEG_2編解碼器、朦孤4編解碼器或是類 似在編碼或解碼朗輸出運動向量。這方法通常是容易且 有效的,因為輸入視訊串流通常來自一個壓縮類型,且通 常在數位錄放影系統内經歷解碼處理,因此,來自於視訊 編碼這端的獅資㈣常容祕到,透過大約相等的運動 向量來代表在-艇勒-朗獅,而像素封閉通常會 發生在-致的運動區域之邊界且絲被高_誤差所指 示,將導致依序產生大量的結構位元,所述結構位元的數 量可用來推斷一致的運動區域之邊界。 另一個偵測視訊元素340的方式是透過在連續的訊 23 200921454 、“1不斷出現的已知躲之物件,這可能是在顯示物 >、以π個群組進行移動之後,或者(相對於靜止的物件來 5兄)可最先確定物件以一個群組進行移動。 象素群、'’且運動偵測方法允許我們在視訊内透過移動 物件較義「曲折」、「螺旋」或「管狀」,例如:一個移 動的子母「Ρ」將建立―個「管狀」的定義,在橫斷面中 看絲像—個「Ρ」(請參閱「第18圖」),-個移動表面 广 建立一個「管狀」在橫斷面中看起來像一個表面…等等。 一旦像素群組在時間單位内的移動被確定,其下一步 驟透過掃描像素群組分析「管狀」,並在管狀包含有用的 視afL元素%自動計算,所述有用的視訊元素是根據觀眾喜 好來統計,並且可使用有助於預測整體觀眾感興趣或不感 興趣的視訊部分。 如上所述’有時候視訊元素及觀眾興趣之間的關聯是 有意義的,至少在相互關係被發現及分析後,其人臉、身 I 體部分、裸露、圖樣構造及文字與觀眾興趣之間的關聯是 容易被理解的’然而,更多時候其關聯是意想不到的,並 且只能透過内含大量視訊元素及觀眾喜好之關聯的資料 庫來進行統計分析計算。 有一些自動化的方法去對視訊元素進行識別及分 類’其中一個適合的方法是物件彳貞測演算法,其被描述 在· P.Viola,M. ]〇nes,“Rapid object detection using a boosted cascade of simple features” Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and 24 200921454
Pattern Recognition,1 pages 1-5J1 to 1-518。此方法的偯測 器可訓練識別許多不同視訊元素的類型,實際上,此偵測 器是透過投入大量具有正相關及負相關的範例之圖形,用 以先訓練識別一個特定的元素,其正相關的圖形將包含感 興趣的特定元素,而負相關則不包含,此方法透過演算法 及係數的計算允許在未知的圖像或視訊中偵測喜好的元 素。
這個用於分類學習的演算法被稱為r AdaB00St」演算 法,在上述論文的表一中被提到,其可訓練識別許多不同 的物件類型,例如:Viola及J〇nes偵測器可使用大量具有 正相關及負相關的臉孔圖形範例進行訓練,識別人類臉孔 的特徵且選出圖像,所述「AdaBoost」演算法的運作如下: 、取得範例圖像(Xl,yi)、...、(Xn,yn),其中^ = 〇及卜 分別為正相關及負相關之範例: 初始權重為,%分別為0及卜m及1分別 為正相關及負相關的數量。 在 t=〇、...、τ : .常態化髓时Wt^機率分布。 在每一特徵j訓固分類,限定於使用單一特 域释敢小誤差st的分 正^更新權重:% =曾'在ei=〇時,假如範例〜已被 正確分類,則用ei=l及.6。 最後’牢固的分類是!,假如^阶本且 25 200921454 不為0 5 = log丄。 可使Γ 士擇及觀-連串有用的特徵分類,並 及J的二貝5Κ流去偵測特徵’此時,藉由Viola 及Jones的麟’魏侧鱗村有效 經由第—分類觸發器產生正相關結果, 發器進—步評估,經由第二分類觸發器 此類推二域過弟三分類觸發器進一步評估…以 J:广完整的_資訊流可能需要38個階段及 行’ Μ喻111,制是專門進 偵!的處心可處理非常迅速及非常準確。 可二It非吊適合用來進行識別人類臉孔的工作,甚至 :更夕其他相同特徵的類型,在一個方案内,大量不 问的V1〇la及Jones伯測器可被 可能特徵,這些不_特竹4 U、、東胡大里不同的 印 的特徵可以探測瀏覽興趣與先前提到 tit 轉之心_,姐齡她眾喜好 ㈣作為工廠安裝分析選項的基 :多其他圖像類型特徵識別演算法可以使用在此,一 絲而°、大^分_像卿演算法均可安裝於本發明之系 演曾斤述,、他有用的演算法包含:Rowley-Baluja-Kanade 二法 Schneiderman-Kanade 演算法、R0th-Yang-Ahuja 璣鼻法及許多其他的演算法。 L另#個通用的⑨算法可剌於識別不同視訊元素的 1型,其被描述於〜〇·,職认獅乂 W, Μ 26 200921454 and Zisserman, ^.uTotal Recall: Automatic Query Expansion with a Generative Feature Model for Object Retrieval,,,
Proceedings of the 11th International Conference on
Computer Vision,Rio de Janeiro, Brazil (2007)。
使用Chum >貝算法用以確定每—·個圖像所感興趣之 地方,且這些符合仿射(affme)的不變區域是使用半局域二 次動量矩陣(semi-local second moment matrix),各仿射區 域是一個128維的尺度不變性特徵轉換(Scale Invariant Feature Transform,SIFT)的描述符號所計算,透過類似 K-means叢集方法量化並建立百萬字的視覺詞彙,每一個 視覺描述符號透職肖概似最近搜尋法(ΑρριΌχί_ Nearest Neighbor,ANN)搜尋單一叢集中心,這些量化的視 覺特徵可用財引不同物件或視訊元素的圖像。 用戶客製化 它需要識別視訊觀眾的不同類型,且這些視訊觀眾的 不同類型可具有不同的瀏覽喜好,例如: #喜好動作的觀眾 *喜好談話性的觀眾 籲喜好卡通的觀眾 *喜好戶外的觀眾 厭惡文字覆蓋視訊 i類型,觀眾的差異例如存在 2购_可透鱗音轉,耻”,不同觀幕 匕吾叙及不喜歡不同的音樂; 於: 27 200921454 鲁厭惡聲音光譜的改變 *喜歡或不喜歡音樂 •喜歡或不喜歡談話 春吾歡或不吾歡猛烈的(例如:射擊或其他類似敲擊 的聲音)聲音 吾好動作的觀小通常吾歡選擇圖像内容快速變化的 視訊場景。 喜好談話性的觀眾通常喜歡可識別臉孔及嘴型,以及 圖像内容相對較慢的視訊場景,内容通常對應人類的說話 頻率。 喜好卡通的觀眾通常喜歡不複雜的視訊場景,這是因 為卡通通常是由線條圖形所構成,且相對均勻的環境區域 著色。 喜好戶外的觀眾通常喜歡有區別特徵的視訊場景 如:在圖像的上方由豐富的藍色(天空)所構成、奇特的綠 色内容區域、增加反肋容(減日光)及械祕的陰影 (再次根據日光)。 厭惡文字覆蓋視訊的觀眾:文字覆蓋在視訊通常發生 歡迎的内容,例如:對白字幕、演員表及廣告。文 字覆蓋視訊(Text 0ver vide〇)可以與文字包含視訊㈣ώ video)做㊣隔’因為文字包含觀通常會具有模糊及不規 則的特徵,她之下’用戶通常能容忍有闕文字總數, 但备文字總數太高時’用戶可能不繼續欣賞。 如同本A明書所描述,本發明可能也可以在時間内追 28 200921454 縱用戶的劉覽喜好’分析這些喜好並日益增加適應,以便 在預測個顧戶的喜好上變得更準確,應用本發明的系統 也可記錄複數織眾,為每—觀眾的喜好轉一個槽 案或資料庫,以及有效的喜好預測演算法。 視讯内容摘要產生器更可有效利用於當前個人視訊 錄放器材如:TIVO®錄放影機,—個節目的整體内容通 常是先知道,一名觀眾通常具有運用初步編輯的水準,透 過簡單地選擇來觀看-個特定的節目,系統可使用這個節 目類型的了解,用以有效地根據節目類型選擇一個觀眾喜 好設定,例如:系統可理解並分析新_目,以及使用新 聞節目的規則’或是—個體育節目及使用體育節目的規 貝1J。新聞節目的規則可不強調文字元素及音樂元素,運動 節目的規則可顯示喜好的綠色或藍色或其他戶外元素… 諸如此類。 個把觀眾吾好歸於各別視訊元素或描述符號的過 程將在此進行更詳盡的描述,對於下列描述請假設每一元 素或描述付號均可用以作為資料庫的索引,以便取得與特 定元素或描述符號相應的用戶喜好,或可將每一元素或描 述符號其中之一根據下面的方法動態分配喜好等級。 視訊元素(描述符號)選擇: 除了已決定(工廠設定)的觀眾喜好或重要等級,在視 訊摘要產生器220的重要分級指派240的階段期間,每一 個視訊元素340也可分配一個局部等級,該局部等級也可 被解釋為一個重要程度或元素關聯,換而言之,就是一個 29 200921454 有利的指示。 視訊元素340的局部等級也可透過測量不同的其他 凡素而被確定或調整(例如:從已決定的工廠設定中更 改)’在此方式中,假如一個元素相似於一個元素類型, 則將獲得-個高等級且稱為正_細,若是該元素不同 於另一元素類型,則稱為負相關範例,一個高度重要正相 關等級可能用以描述一個重要的視訊元素,反之 ,如果與 f 正相關不同且相似於負相關,則代表一個低度重要(多數 負相關)等級且被認為不重要。 如前面所述,正相關及負相關的範例可被三個方式定 義.用戶互動、工廠預設範例(通常是大型統計資料庫相 關方法的結果)及被當前視訊内容所包含的視訊元素。 使用者互動包含分析用戶行為,記錄用戶喜好及決定 用戶吾歡及不喜歡的内容類型,明確的互動需要用戶對元 素评價,而這通常是一個不受歡迎的分心活動,如「第5 ( 圖」所示,正相關範例資料庫52〇的更新及負相關範例資 料庫530可在系統使用期間被執行與用戶進行隱匿的互 動用戶了觀看錄影視訊或播放視訊内容,其視訊元素已 經建立在視訊^素分割23〇的階段,且視訊資訊在編,解 胃處理』間被儲存,舉例來說,假如用戶觀看錄製節目而 且快轉跳過部分560,這可能是不重要的部分之指示,負 相=範例的視訊元素570可從這些部分增加到負相關範 幻為料庫530作為負相關範例(即增加負相關範例54〇), 、在他將來内谷的視说摘要產生期間用以分配重要 30 200921454 等級’反之則是用戶集中注意力的部分彻可增加至系統 正相關範例資料庫520,且同樣用以作為正相關範例(即增 加正相關範例550),視訊元素可如上所述根據範例元素產 生分配等級。 視訊元素也可比較資料庫中的正相關及負相關範 例,並以此決定是否從資料庫留下或刪除範例,其主要是 為了減少元素同時出現在想要和不想要的内容中的影 響,舉例來說,假使-個視訊元素作為負相關範例(因為 它出現在不想要的内容),而當它時常重新出現在想要内 容作為正相關範例時,它可能由負相關範例被移動到正相 關範例資料庫,更準確的作為想要而不是不想要的内容。 一個几素以相同頻率出現在想要及不想要的内容時,應該 被刪除作為非代表物。 〜^ 除了用戶互動外,如之前所述,工廠所設定的預設正 相關範例595及預設負相關範例590可由工廠事先儲存在 系統資料庫中,經由工廠伺服器下載或透過插入式記憶單 元增加,舉例來說,系統能在視訊節目中移除廣告,並優 先考慮人類臉孔出現的部分,如果視訊元素含有被儲存在 資料庫中作為工廠的預設正相關範例595之人類臉孔,以 及含有作為預設負相關範例590的廣告,透過比較對照已 儲存的範例’視訊元素出現在廣告中可能取得低等級且將 可能被刪除’以便不在特定的視訊摘要中出現,而那些含 有人類臉孔將獲得高等級且將可能更容易出現在所產生 的視訊摘要内。 31 200921454 一個元素重要性的決定方法,是透過將元素關聯至元 素本身所存在的視訊内容中,換個說法,即偵測自我相似 的視訊内容’在編/解碼過程中,數個視訊元素在視訊内 容中可被偵測、選擇及儲存於資料庫510作為範例元素, 而且視訊元素340可依等級目的在資料庫5〗〇中與被儲存 的範例作比對。 如「第6圖」所示,視訊元素61〇被與同一視訊序列 中的其他視sfl元素作比較,舉例來說,假如視訊元素“ο 是類似時空遠距視訊元素620 ’則可能是多餘的指示,在 這種情況下,對應多餘元素的觀眾興趣等級可能需要修 改。 關於將時空遠距視訊元素620作為負相關範例,多餘 的視訊元素可能獲得低重要等級,這將導致它們在視訊摘 要處理期間被移除,再舉一個例子,假如視訊元素61〇與 時空鄰近視訊元素630是不同的,這可能是一種不可預測 性的指示,可能會導致出現新的物件或異常的行為,擾亂 此處視訊序列的連續性,假如時空鄰近視訊元素63〇被視 為負相關範例’視訊元素相應的突發事件將會獲得高重要 等級,在序列中可能是一種關鍵事件。 本發明的一個具體實施方式如「第7圖」所示,演算 法用以分配一個等級(即局部重要等級71〇)給視訊元素 720執行如下:視訊元素72〇可與所有在資料庫中的正相 關範例730使用變異函數進行比對;視訊元素72〇與 所有在資料庫中的負相關範例進行d_進行比對;使用變異 32 200921454 函數d-獲得負相關標記的總結數值;使用變異函數d+獲 付正相關彳示e己的總結數值,將兩個函數的數值合計產生等 級(即合計等級750)代表視訊元素720的重要性。其當前 視訊元素v的局部等級可能被計算如下:
Ratingiy) = Σ (νλ, v) + (v., v) k j
Vk是負相關範例及Vj是正相關範例,且d+及d_是正 相關及負相關範例之變異計算方法,負數值的Rating(v) 意味著V是不重要的’反之,正數值的Rating(v)意味著V 是重要的。 各種可以適用於本步驟的變異函數及方法已於先前 的文獻中被描述過,這些方法的一些例子如下所示: 通常’兩個視訊元素之間的變異測量方式是透過一個 二元函數以d(v, w)表示來量化,V及w是兩個視訊元素, 在特定的情況下,可以假定d(v,w)獲得唯一的非負相關數 值’是一種對稱及可遞關係(symmetric and transitive relation),例如:符合在w及v之間的一般公制標準之數 學定義’於此’距離(distance)、變異(dissimilarity)及公制 (metric)是同義的。 變異計算’通常可以視為是不同距離函數的總和,例 如: C?(V,W) = [i4(V,W) k dk是不同的距離函數。 在分割階段中’測量變異方法的選擇取決於視訊元 素,其納入視訊序列分割,舉例來說,假如相同大小的像 33 200921454 素區塊被用於視訊元素340,簡單的測量方式可以使用 如:絕對誤差總和(Sum of Absolute Differences, SAD)或平 方誤差總和(The sum of squared differences, SSD)。 假如視訊元素340具有不同外形’可以使用如下基於 比較元素像素直方圖的相似測量來處理: d{v,w) = \h(v) -Λ(^)|| h(v)是元素v的像素之直方圖,且II II是一個範數(例 如:U、L2或Linf範數),像素強度直方圖的比對可在時 域及頻域中執行,一個更複雜的方法去測量不同散佈區域 之距離,例如:Monge-Kantorovich earth-moving distance (EMD)、Bregman distance 或 Kullback-Leibler divergence, 可用於直方圖的比較,類似測量法可被用於裸露偵測,視 訊元素具有任意的幾何圖案,如:元素包含皮膚。 假如視訊元素340是已知特性的物件(例如:人類臉 孔),更可使用描述在文獻中的特殊類似測量法,例如: 為了比較兩張不同對象的臉孔,可使用如:眼睛、嘴巴、 鼻子…等等來比較臉部特徵。 視訊元素分割230的階段(分割)及重要分級指派24〇 的階段(分派)可反覆循環作為提煉方法,首先,Ι(χ,y, t) 疋刀吾!J些最初的視訊元素’例如:固定重疊區塊。然後, 每一區塊分配到一個重要等級,代表一個基礎等級 Rating(x,y,t),例如:透過竄改的方式。一個新的分割是 基於重要等級來建立,例如:透過發現Rating(x,y,t)的邊 緣。整個過程疋在數個疊代(iterati〇ns)中重複直到整合, 34 200921454 可透過視訊元素的小變化來決定。可使用類似Max_Ll〇yd 向量量化方法(描述在A. Gersho,R. M. Gray,“Veetoi· quantization and signal compression”,Springer international series on Engineering and Computer Science, 1991) 〇 視訊元素聚集至視訊聚集 通苇,一個改進過的觀眾喜好或興趣之可能性的預 測’可透過化合(combining)或聚集(aggregating)個人的視 訊το素到大群組來實現,這將不僅透露用戶具有特定的興 趣或吾好在視訊時段中,這也透露用戶在觀看過程中有特 定興趣或喜好的視訊圖像部分,舉例來說,如果所有興趣 活動發生再部分時間的部分圖像,系統可在這有興趣之處 設定“拉進(zoom in),,。 視訊要素340可能是任意形狀的時空區域,由於形狀 的不可測,它們可在非顯示格式内,另一個階段通常被要 求將它們轉換為視訊子集合並稱作為“視訊聚集”,允許 視訊兀素被正確顯示,一個更好的聚集處理方式如「第8 圖」所示,視訊聚集250的階段透過聚集視訊元素82〇、 ㈣及840建立-個視訊聚集驗,其由數個步驟所組 ,:視訊可將每個區段之間可能重疊的部分分制訊框區 段=常在100到1000的訊框範圍);在分割階段23〇,對 於母-個訊框區段來說,視訊元素確定落在這區段範圍是 經由二元地圖進行計算,例如:元素82〇、⑽及_是 確定在訊框邊界區段85G(雜範敝,後的視訊 聚集範圍810b(實線範圍空間)的形成是透過訊框邊界區 35 200921454 段850的時間長度來調整(例如:訊框邊界區段850的開 始及結束),以便每一個在視訊聚集81〇a中的視訊元素可 完全地被包含,換言之,視訊元素840及830是被虛線範 圍空間(即訊框邊界區段850)切除,但在調整後會被實線 範圍空間(即調整後的視訊聚集範圍81〇b)所包含,在一個 更好的實施方式,假如兩個視訊聚集部份重疊,由於先前 步驟它們將合併成一個。 如「第9圖」所示,一個視訊聚集如矩形區域91〇的 範圍空間通常可定義為一個由至少一個以上特定複數個 連續視訊訊框中的跨度連續像素所組成的聚集時空群 組’這個聚集時空群組内含一或更多的視訊元素,在更多 視訊元素的例子中,一個視訊聚集可儘量包含視訊元素的 一個矩形時空區域,這導致一個矩形區域91〇在連續訊框 中包含視訊元素912。 一個時空範圍空間(即矩形區域910)的特殊例子是一 個時間範圍空間920,佔用全部的訊框大小,包含一或多 個視訊元素922,導致一個視訊聚集在此例中是連續訊 框,包含視訊元素922。 視訊聚集定義為時間範圍空間920也可包含時間邊 緣925 ’即在鄰近時間範圍空間920前後的連續訊框,訊 框數置可事先調整或適應滿足(content-adaptive),在一個 廣義的例子,視δίΐ聚集疋義為時空範圍空間(即矩形區域 910),可包含時空邊緣915,即環繞範圍空間的像素矩形 區塊。 36 200921454 當輸入到一個視訊摘要產生器’聲音元素根據序列長 度及聲音特徵被彳貞測及建立’ 一個簡單的方法定義聲音元 素是透過偵測同一聲音訊號之區塊,另一個方法是透過债 測預先設置的聲音特徵如:射擊、人類的說話、預設詞彙 及音樂、光譜能量(商業廣告,關聯負相關觀眾喜好,通 常光譜分布的改變對用以吸引注意力的聲譜)及其他方 法,聲音元素也透過上述方法獲得一等級及存在聚集,其 產生聲音元素的聚集被稱作為聲音聚集,可能與視訊聚集 一同出現’聲音聚集也可包含在聲音區塊前後的相鄰時間 邊緣,以便聲音聚集包含完整的聲音元素。 更多不同的演算法及方法可用於聲音分析,一個例子 疋「Tzanetakis et. al., “Audio Analysis using the Discrete Wavelet Transform (Princet〇n, 2001)”」之小波轉換(wavelet transform)或離散小波轉換(discrete wavelet transform, DWT);^算法’以及美國專利號,在此,聲音是 根據下列函數進行分析: 『(M) = Σ Σ 雄)2—77 V(2〜《 -々) j k 沖)是有限能量及快速衰竭的母小波(m〇ther wavelet) 時間函數,此方法可分類關於音樂或說話的聲音、語音、 音樂類型及其他種類。 其他分析聲音的方法包含商業上可用的語音辨識演 异法 '軟體及系統如:Drag〇n NaturallySpeaking (版㈣ eorpomion’Burlington ΜΑ)…等,這方法通常依賴上述的
Hidden Markov模式演算法,必須先以即將處理的視訊媒 37 200921454 體進行訓練(完美的) 知輕*。 並且此演算法具有相對較低的計算 訊,視訊及聲音聚集時可能需要考慮到額外的資 並建的’視訊事件咖及聲音事件腳定義 、ίο圖」中’事件代表額外的資訊,其不一 干二Γ集的定義中被轉播’且其需要在視訊摘要的顯 僅說明,舉例來說’視訊聚集的持續時間需要 僅I包含—健體語音段落且不在中途被打斷。 a個事件可能是翻或長躺,瞬間事件的例子可能 疋鏡頭切換(攝影機連續捕獲的視訊序列之間的過渡, 或所產生的轉)、廣告開始、最先或最後出現的物件... 等,期事件的例子可能是:在音執中的說話聲音、音樂、 持續的攝影機運動…等。 「第10圖」顯示一個同時處理視訊聚集及聲音聚集 的例子,在此例中,視訊聚集1040的範圍打斷聲音事件 1020,視訊聚集1040的時間寬度可以透過增加邊緣1〇45 適當的調整以包含完整的聲音事件1020。 通常’視訊聚集透過邏輯運算(或、及、補數及其組 合)產生視訊元素的聚集及聲音及視訊事件。 類似於視訊元素340 ’視訊聚集也被賦予一個喜好等 級或相當於視訊元素的視訊聚集範圍,其可具有相同的重 要等級,每一個包含在視訊聚集中之視訊元素的局部重要 等級1130被聚集用來產生一個視訊聚集的總體等級 38 1110。 200921454 第11圖」顯示-種透過計算每—視訊元素的局部 重要等級113G以取得視訊聚集⑽的總體等級ιιι〇之 方法。另-紐包含平均數、取得最大值、取得最小值、 取得分布、取得視訊轉⑽的視訊元素之局部重要等 級m〇的平方根等,這些方法應該是熟習此技藝者可以 顯而易知的,都可被包含在本發明的精神中。 總體等級1110在顯示視訊聚集時是重要的,視訊聚 集的排序方法是根據總體重要等級按照降冪排列 (descending order) ’此一排序將用於組織視訊聚集以獲得 視訊摘要。 具體以何種方式通過用戶介面26〇來選擇和顯示視 訊聚集’在很大程度上是取決於視訊摘要產生器的工作模 式這些模式可由使用者利用稱後所描述的用戶介面範例 來直接控制。 用戶介面 在此例中,用戶介面260的功能是用以與用戶互動, 以及選擇和顯示視訊聚集以獲得如:視訊摘要產生器的輸 出,與用戶互動可分割明確及不明確的類型,詳盡的互動 包含用戶可控制的功能,其基本能力可包含提供用戶設定 視δίΐ摘要引擎所需要的參數,這些參數可包含摘要持續期 間(反過來說,可能是預先設定在一些稍後討論的模式 内)、視訊摘要產生器的輸出控制及視訊引導(navigati〇n throughout) ° 視頻摘要方法可透過觀察用戶的行為獲得更多的資 39 200921454 訊’並且以此形成規則。這種被動(直到用戶感興趣)的資 訊蒐集稱之為“隱式的互動”。 視訊聚集可顯示(輸出)被安排的時間(即視訊聚集是 在某些順序一個接著一個顯示),或是空間(複數個視訊聚 集同時顯示),前者稱之為視訊預告(videotrailer),後者則 稱之為視訊海報(video poster)。 「第12圖」顯示了視訊預告(時間的)的產生,其 中視afl聚集係以某種順序呈現。在這種情況下,視訊聚集 可以依照訊框的大小調整為整個訊框大小(例如:獲得用 以作為時間細空間920),或是訊框的部分(例如:獲得 用以作為時空範圍空間,亦即矩形區域910)。這可能是一 種較常見喊較受歡迎的發明使用方式。在此,用戶簡單 地看到祕評估最有可能吸㈣戶喜好或興趣的節目部 份’以及跳過或快轉那些系統評估觀眾可能不喜好或不感 興趣的節目部份。 視桌聚集的選擇將被顯示在視訊預告中(「第12 圖」)可執行如下·視訊聚集首先根據它們的評價在降 冪排序中儲存,並且選定最高等級;視訊料的數目之選 擇是根據視觸告的_咖來產生,這是-個可由用戶 ^制的f數;用戶也可控制當前視訊聚集的順序(兩個基 的可^±是辦f械重要性來财)及播放速度。 確疋視afl聚集的相似性可由多維尺度 multldime™ , 個低維空間中的特徵點來表示一個變異結構(dissimiMy 200921454 structure) 〇 正如先前所述’有時系統可能會在視訊圖像中的某些 部分偵測到感興趣的部分,而且只在某些時間中,在一些 具體實施方式中,系統可以設定挑選出那些圖片區域及時 間作為優先的評價,並提供給用戶。假如系統設定結合感 興趣的圖像部分,且同時在螢幕顯示大於一個感興趣的圖 像部分,此結果是一個“視訊海報” ^「第13圖」顯示一 個視訊海報(空間的)的產生,其中多個視訊聚集被同時呈 現於相同圖像中的多個部分(即相同圖像部分13〇〇),這些 視訊聚集在此例可為不同的大小,為了使被顯示的視訊海 報能夠符合顯示解晰度’一個空間上的向上或向下調整可 月b疋必須的’視§孔聚集的空間安排可固定或取決於用戶設 疋的内谷,母一個視訊聚集的播放速度可以固定或可變 的,並且也作為給用戶的參數。 舉例來說’在一個場景内只對看某一人的臉孔表情有 興趣且只想要看他,可以同時在場景中建立此人頭部之一 個合成視訊海報’這可能在了解群組喜好的動態是特別有 趣的。 關於視訊海報中視訊聚集的選擇(「第13圖」),將 以類似於視訊預告例子中的方式被完成,視訊聚集被選擇 的數量是根據視訊海報的空間配置來決定,例如:多少視 訊可同時地被容納顯示,以及每一個這樣的視訊之長度。 用戶可控制海報(同時顯示視訊聚集的數量與位置) 間配置’視訊聚集位置及大小可@定、根據視訊聚集重要 41 200921454 性及特定β容(例如:所有視崎集包含顯示在最上方人 臉)或基於類似的視訊聚集(例如:視訊聚集包含相似的視 上元素或疋相似於一般範例而可被一同歸類的視訊元 素)。 視矾海報及視訊摘要可被用來作為一個視覺化工具 用以刎覽整個輸入視訊’這在視訊預告及視訊海報兩者的 核式中都可被使用,此瀏覽的背後機制,是一個超連結 (hyperlink-type)介面或遠端控制方式,允許用戶點擊(⑶冰) 海報區域(或是當某些視訊預告的視訊聚集在播放時,按 壓功旎鍵)’此行為的結果會把目前所顯示視訊中被選擇 的時間位置放大顯示’或者整體場景包含當前視訊聚集可 被呈現’與用戶隱式互動(ImpUcit interacti〇n)可用於對視 峨要引擎配置’透過分析用戶行m统可確定視訊 内容的類型及用戶喜好的圖像元素,如此重新定義喜好等 級標準,例如:假設用戶觀賞一個錄製節目及透過快轉跳 過部份節目,這是一個用戶可能認為這部分不重要的指 示’視δίΐ元素可增加為負相關範例,且在將來其他内容的 視§il摘要產生期間被用於重要性等級分配,反之,用戶注 視的部分同樣地可用於作為正相關範例。 視訊摘要的範例使用及應用 透過使用不同核心的視訊摘要產生參數及參數設 定,可提供因應不同應用及劇情的最佳化視訊摘要引擎, 類似的參數設定可定義為預先設置模式提供給用戶介面 作選擇,下列幾個概念上的使用及相應模式是有名的:縮 42 200921454 寫函數1410、摘要函數1420及預覽函數1430。 「第14圖」顯示兩種主要因素控制不同視訊摘要的 使用:持續(duration)及“覆蓋”(covering),持續是 指透過視訊摘要產生器所產生長度小於原本視訊内容的 視訊聚集範圍;覆蓋則是指被選擇的視訊聚集覆蓋原本視 訊,例如:觀眾可以從被選擇的視訊聚集中獲得到多少來 自原始内容印象的程度。兩個因素可用〇到廳的刻度來 表示。
「第15A圖」至「第15C圖」顯示視訊的部分被分 離及剩下1590之概念,分別使用如「第15A圖」的縮寫 模式(abbreviation mode)、如「第1SB圖」的摘要模式 (summary mode)及「第况圖」的預覽模式(preview m〇de)。 如「第15A圖」所示的縮寫模式導致視訊摘要帶有 大量持續及覆蓋’主要_在顯示較少時_内容,並盡 可能離開原本内容,在-個典型的例 訊在視訊α脑確㈣㈣ 的剩餘内容)’縮寫可在概念上視_節的# :内容幾乎 相同雖然拿掉少量閱讀時間。 ^亏罝一個數位錄放影系統用 於錄製將來欲觀看的節目’―個典麵戶將設定數位錄放 影糸統在他I作時去記_送的節目,且將 節目,通常用戶沒有時間觀看所有他想要看的節目= 内容過於多。此時使職訊縮寫,這可以在短時間内製^ 用戶想觀看的更多内容,視訊摘要長度是—細戶控制的 43 200921454 在-個簡單的例子,「第15A圖」的系統可簡單地 °又疋跳過廣告及/或開頭及結尾’並顯示節目其餘部分。 田在縮寫模式時’視訊摘要的持續參數是較大的(用 戶匕制原本持續的百分比),顯示模式可依時間順序,以 不同視訊聚集呈現視訊預告。 縮寫的第一級是透過刪除不重要的資訊來達成,這可 透^負相關範例來執行,即找尋已知不重要的資訊(例 廣σ片頭子幕及片尾字幕)或找尋重要資訊並刪除 所有其餘部分,或其組合。 縮寫的第二級可透過改變視訊聚集之顯示速度來完 成例如♦視訊聚集的顯示速度可與重要性成反比,如此 ^來’重要的視訊聚集以—般速度顯示,較不重要的視訊 聚集則快速_示,假如聲音贼是允許的,聲音持續將 透過一般鱗音時域之_/擴大訊號處理方法來改變, 允許改變聲音的持續期間但沒有改變聲音強度。 摘要模式(「第15Β圖」)造成具有小持^(du她η) 及小覆蓋(瞻ring)的視訊摘要,其主要強調只留下視訊 内容最具代表性的“亮點,,,將有助於用戶獲得整體内容 的《平估在個典型案例中.只有一小部分數據(卜2〇%) 將維持不變,舉-個來自動畫產業的電影預告作為例子, 顯示出電影場景的亮點,不同於縮寫模式,摘要模式主要 是偵測最有意義及代表性的部分。 當在摘要模式時,視訊摘要持續參數是小的(授與用 戶進行控赋騎顯告或視麟報,“亮點” 44 200921454 是指具有高重要等級或者内容期(客觀的)或用戶相關 (主觀的)或其組合的視訊聚集,主觀的重要性是來自於先 刖隱式用戶互騎g積制之正細及貞相關範例。 預覽(快速向前)模式(「第况圖」)造成小持續但高 覆蓋的視_要’賴式通常是介赴職要及縮寫模式 之中’在此’用戶希望在—個顯著的短時間(例如:4到 32倍速更快)内有一個整體内容的印象,實際上,這是一 個改進傳統“快速向前,,的設定。 快速向前(或快速倒轉)是傳統的快速視訊内容導引 方j ’且被用於向前直接跳到用戶想看的部分,傳統快速 向_主要缺點在於它是雜的,快速-致地減整個視 訊丄因此,如果快速向前的速度太高,顯示的内容顯得毫 無.』(例如.在32倍播放速度下,用戶看到混亂變化的 綱’-般可戶理解_容播放速度通常是慢0到 、k度)的*後者的缺闕因為速度慢所峨速向前的 速度需要更多時間。 & 下’當使用本發明在預覽模式時,顯示模式可 :疋在時相顯利卩分_魏聚細—個視訊預 總_放速度;合適的實際速度,大多數經 隹Y,日、士為感興趣的視訊部分職供給觀策(視訊聚 二進-1些播放是在—個適合觀眾欣賞且足夠低的速度 m崎倾微不細趣㈣分魏可在高速下 種“_π,,傳,4快速向前”處理速度更快的一 種連向則,但是卻更容易控制,因為此系統讓觀果 45 200921454 在感興趣的部分有更㈣間反應,減少嘗試及錯誤從而找 到合適的視訊區域。 「第16圖」說明本發明的預覽模式,其可在概念上 思考為是-種視訊在時間軸上之非線性彎曲,用以根據重 要性來形成快速及慢速播放的視訊聚集,其取決於系統上 的6又疋,一些視訊聚集已知為不重要(例如:廣告)可完全 地跳過,而重要性也可根據内容或用戶的標準,用戶主要 控制是快轉速度。 日T空縮放及視訊導覽 另一個透過視訊摘要產生資料的應用係視訊導覽,把 視訊看成三維資料結構(二個空間維度再加上一個空間維 度)’其用戶可透過此資料以不同方法導覽。 一個簡單導覽的例子係快速向前功能,其中視訊是以 一致的速度在時間維度播放,其速度取決於用戶輸入,同 樣,視訊可透過倒回控制向後方返回,直到今天,這是數 位錄放影系統最常見的導覽方式,通常透過如「第17B 圖」所示的兩個按鍵來進行控制:快轉2610及倒轉2600。 運用視訊摘要在前述預覽模式與傳統向前及向後的 導覽控制,將可允許非一致速度之時間維度橫越 (traversing) ’此處速度取決於内容的重要性,且整體視訊 長度透過用戶指定,視訊摘要在此例為了快速時間導覽而 刪除不重要的細節。 即時控制刪除細節的量(視訊摘要的解析),換句話 說,即視訊摘要的長度,給了用戶所謂的“時間縮放”的 46 200921454 能力。「第17B圖」描繪出基於“時間縮放”目的所改變的 &準視訊導覽控制介面,增加兩個按鍵:向上25⑻及向 下2510來達成時間縮放的目的。 在一個本發明較佳的實施方式,時間縮放的實現可透 過建立一個多解析層級訊框結構(multi-resolution hierarchical structure of frames) ’透過視訊摘要產生器所產 生的資訊,可被用來建立多個不同長度的視訊摘要,在一 個較佳實施例中每個較短的視訊摘將成為下個較長的視 Λ摘要σ卩伤子集^「第pa圖」顯示使用二元層級的特定 實施例,其中,最好的範圍是完整視訊2〇〇〇、下一個簡 要範圍2100包含完整視訊2〇〇〇的5〇%内容、第三範圍 2200包含25%的完整視訊2〇〇〇之範圍…等等。 視訊摘要的層級可按時間順序排列的方式呈現,產生 一個具有時間軸2300及解析軸231 〇的空格範圍,「第j7Β 圖」描繪出用於導覽目的之可能控制介面,包含控制解析 向上2500及向下2510,以及時間向後(即倒轉26〇〇)及向 月il (即快轉2610)的部份,由於可以用將下一個簡要範圍作 為則-個簡要範圍的子絲產生層級,因此從—個等級到 另-等級是-種無轉變’通常,導覽可開始於簡要範圍 (相當於最短的視訊摘要),以及當用戶確認感興趣的内容 及想更詳細觀看時’向下調整到較好的解析範圍。 另-個視訊導覽的方式是空間縮放,其中僅有空間資 訊(訊框)的部分觀示’這個魏已經被某些已知的視訊 錄放影系統所支援,控制通常是由兩組按鍵所組成:縮放 47 200921454 他鏡頭拉近及把鏡頭拉遠),控制所顯示的空間範園之大 已右、上及下)’控制在空間維度的位置。 個部分需職跑繼知圖像的哪 ,而要被縮放,然而,因此需過用戶手動控制。 、士視訊摘要允許在—個内容調適原則下,自動對重要的 2㈣分進讀放,在—個視職制較佳具體實施例 曰’視讯聚集在顯示時會被建立為時空邊界範圍,可視為 =種内谷觸空間縮放,#視訊摘要在導覽期間橫越, 八可自動,周整為播放大小,從而自動顯示與當前視訊指定 最相_空間資訊,此魏可與傳統的變焦控制(放 大及方向)做結合。 例子: 、^ 18圖」更詳細的顯示本發明之方法如何應用於 、、J大畺的文予覆蓋視訊的狀況,正如先前所描述,大量 蓋視訊之數目是與負相關觀眾喜好相關聯,因為 廷通常是不感興趣的節目部份,例如:結尾字幕。 有很夕方法用以分析文字覆蓋視訊,其中一個方法以 較高的等級分析並留意字母形狀,另—種方法是分析視訊 中文字及敎字之_邊界,文字覆蓋視賴常具有非常 鮮明的轉變,耻,在這種情況下,銳_邊界視訊元素 也傾向屬於負相關觀眾喜好。 「第18圖」顯示第一種方法的例子,在此例中,相 當無趣的電f彡字幕(在關巾,制纖眾缺乏興趣及意 願的文字寫人資射)馳穿㈣幕,這裡的字幕從訊框 48 200921454 Γ1802開始一直捲動到訊框Vl8()4,因此 離開營幕,但剩餘字幕仍然留在榮幕上。 在此例中’視訊可使用Fddman及Wdnshall演算法、 MPEG運躺量或其财战分析每娜動單位中的像 素群,其可以將字母從不會㈣的背景中被分辨出來,在 此,Feldman及Weinshau演算法或mpeg運動向量已被 設定用來《足糾、的像鱗組,a此_可以區分在視 訊字幕文字“Producer”中字母“p”的像素群組,更進一 步,我們可以從視訊的訊框“Γ,(時間“Γ,)如:訊框 1 1802到視说的祝框η’’(時間“η”)如:訊框“η” 18〇4 來追蹤“Ρ”的像素群組,如此一來,根據此資訊,我們可 以透過Ρ的持續像素群組(即像素群組“Ρ,,1806)來區 分官狀’’格式,接著,我們可以分析此“ρ管狀” 18〇8及 經由使用多種不同的視訊特徵偵測演算法如:vi〇la及 J〇nesl810、Chum或其他演算法,用以確定合適此“p管 狀的視sfl元素之描述符號。在此,使用Vi〇la及J〇nes演 算法去識別文字時將指示出“p”最可能是文字。 我們可以使用這個視訊描述符號作為視訊元素喜好 貝料庫1812的視訊元素之索引,以及確認對應此元素的 觀眾喜好(在此例中,喜好是一個負相關喜好,所以係數 設為數值“-1”)即觀眾喜好1814,此對應的觀眾喜好用以 作為重要性處理器或演算法的輸入,如「第2圖」所示。 資料庫及統計方法 正如先前所述’通常使用第一個顯示於螢幕上的視訊 49 200921454 =素“述符號或者優先使用先前所選擇關於用戶直好的 ,(即正相關或負相關)統計,是比較有用的,二般來 祝,越多統計相關性偏離於數值〇其結果通常越好,這可 建立包含來自於多個視訊及多個用戶的多個用戶 之大型資料庫來實現,此資料庫可經由可能的候 4迭付號之_來分析,具有與平_戶_喜好最高 度統計相關性的個別描述符號賴選擇用於更進一步的 分析。 資料庫選擇:統計關係介於多個描述符號及用戶喜好 =間,通常^及廣泛的資料庫及各種技術的多元化統計資 為了这些目的,通常使用一侧聯式資料庫,或者也 I使用由網路資料庫模組所構成的資料庫,合適的關聯式 貧料庫包含結構化查詢語言(SQL)資料庫如·· 0racle、 DB2、MySQL、P〇stgreSQL及類似的資料庫。 基於5吾意學相似性的視訊摘要 幻另-個本發明的具體實施方式,該系統可能在高(語 意學的)等級的涵義(meaning)試圖確定用戶瀏覽喜好,所 述語意學的相似性可如:闕鍵字之間基於文字祕配,或 其他用於文字搜尋的技術。 试想-個情況,當觀眾不希望看到有搶的當前視訊 觸’觀科需要嘗縣訴纽每—種可能的搶的類型, 觀眾僅需要指出-種搶的範例作為負相關的範例選擇,或 是鍵入“搶”的單詞,並且使系統具有已自動地寫入各種 不同搶之視訊元素的負相關範例的資料庫(如「第7圖 50 200921454 的530所示)。 。、文子部分的問題可透過相對簡單的處理來解決,舉例 來-兄’用戶可明確地鍵入單詞“搶,,指示為負相關喜好, 並且系^可透過對預先儲存之參考資料庫中已注釋視訊 j(>又有任何相應於視訊元素的觀喜好,因此是—個 、吾好中立”資料庫)來歸類、,將具有“槍,,的證釋標藏之 視訊7L素挑出’並用於負相關範例的資料庫。 若用戶希2遙擇搶圖像的場面,並且系統中已自動用 其他搶的視訊元素作為負相關範例之龍料,則稍微複 =’如「第19圖」所示’用戶觀看—個當前視訊19〇〇可 能在視訊圖像(搶範例削2)中突顯或選擇一個搶的圖 像’-個視訊簽章產生器19〇4其功能可計算所選擇的搶 之視訊簽章,並且用這個視訊簽章作為喜好中立資料庫 1906的㈣’該系統可在喜好巾立資料庫使綠釋資料 (metadata)連結到“搶”的圖像如:柯爾特手槍19〇8,用以 取付個^曰彳示、文字描述或其他連結的Ί全釋資料,可引導 至正相關及負相關的視訊元素之資料庫(即正相關資料庫 1910及負相關資料庫1912),或者其他可能改變為正相關 及負相關視訊元素的正相關及負相關圖像,這些視訊元素 可被用以作為正相關範例資料庫520及負相關範例資料 庫 530。 ' 使用這種技術’正相關及負相關範例的資料庫分別如 「第7圖」520及530所示,可透過隱式的(低用戶努力) 及詳盡的(必須一些用戶努力)方式填入大量的採樣數目。 51 200921454 在詳^的方式’用戶明確指定他們想或不想看到之内 合的範例或轉貝料的描述,舉例來說,假如用戶不想看 到搶’他可加單字“搶,,到負相關範例關表,或者, 用戶可、提ί、搶的圖像作為負相關範例,其圖像在此例中 將㈣制中立資料庫並且取得匹配的轉資料“柯爾 特手槍’而槍的範例連_應的轉資料將被增加到負 相關資料庫。 在IL、式的方式’用戶行為的歷史紀錄是彳賴於自動產 生正相關及負相關範例,舉例來說,假如用戶跳過一個槍 出現的%景,它將魏為貞相關細,此細將對應到中 立資料庫並且取得匹配的轉資料“柯_特手搶”,此範 例及證釋資料將被增加到負相關資料庫。 或者,可使用視訊的時間間隔(訊框的連續)及使用 “視訊DNA” :「-個不·訊序列的時空對應方法,透 過生物學資訊學計算方法肋對鮮同DNA序列」來計 算他們的相似性,所述方法將在稍後作詳細說明。 使用(全部)觀眾興趣的詮釋資料 本發明的另一種具體實施方式中,視訊的部分重要等 級可透過將此部分與視訊中已註釋的其他部分做比較來 計算,而不是基於元素視覺相似性來計算及聚集,換而令 之,視覺相似性可透過直接計算視訊聚集而非視訊元素得 知。 其中的一個具體實施方式’其視覺相似性可藉由比對 一個視訊内容的空間間隔所生成的對應一個簽章或“指 52 200921454 紋=計算產生,其簽章可被認為是那部分視 別號碼。 立在此’各種視訊f輯可被處理以建立相應的視訊簽 早,廷些簽章可作為各種視訊煎輯的唯—(即高度統計確 疋性)識別,如同指、紋般的獨特性可用以識別唯一人類個 體,在此,簽章識別視訊剪輯作為整體單位,這些簽章可 隨著鱗:細猶存在-她崎章射轉,包含資訊如 類型、内容樣式…等等,這可能被使用在確定内容等級和 觀眾喜好等級的過程中。 用戶整體喜好資料可再次透過系統觀察用戶互動所 作出的推論來獲得,舉例來說’如果使用者有跳過某些廣 告類型的傾向,並且朗-定數量的時候,系統可將各種 商業廣告視訊剪輯的視訊簽章關聯至負相關用戶喜好,且 總是跳過這個可能有同樣的視訊簽章的商業廣告。 因此,透過使用此視訊簽章資料庫,應用本發明的數 位錄放影纟統可以透過不斷形成各視訊部分的視訊簽 早、5己錄整體用戶喜好及儲存此整體喜好於視訊簽章資料 庫來增強自動化處_戶喜好之準確性。#另_個視訊被 播放時,系統會再一次計算視訊簽章、從視訊簽章喜好資 料庫取得整體用戶喜好,並且使用此資訊亦有助於控制視 訊摘要處理。 這些整體用戶偏好一旦經由視訊簽章資料庫取得,可 月b被设置用來覆蓋喜好等級,否則就由視訊摘要視訊元素 吾好數據庫自動分配。另外,整體用戶喜好也可透過賦予 53 200921454 =係數::示數,作為被考慮的另—因素,伴隨視訊摘 =a素吾好數據庫自動分配的評估用戶喜好,來確定 =體=紐…般而言,兩個輪人(整義戶喜好及視 Γ素吾好)可透過使用主用戶喜好函數結合起來,並且 =個主W喜好聽所得出的細結果可躲控制視 _要產生n、數鱗放料統.·御的運作。 ,另—㈣體實施巾,計算視訊元素喜㈣子系統可 ^擇未加權或完全刪除,且系統麵統可贿靠整體用戶 =好輸出來進行運行,許衫__法及方法可被用以 ,立視訊簽章,—個簡單的方法是建立各視訊剪輯的雜湊 sh)函數I(x,y,t),所述雜凑函數實際上可為數學函數或 ㈣’用⑽大量數據轉變成相對較小的整數。 如果-個視訊簽章產生器的雜凑方法被選擇,此雜凑 函數在使壯必須妓健的⑽⑽),在此射,強健的 方法對視对_訊及峨解析改變、裁切...等)反應遲 鈍,舉例來說,函數賴理想可#的從已經被壓縮成 =同數量的相同商業廣告中偵測I(x,y,t)視訊贿,且執 仃=不同的數位視訊格式(即480p、720p、1080p…等等), 通#越強制視訊簽章(即㈣在雜tK、失真...等條件 下’從視訊恢復相同或相似的簽章)是越好的,在此,更 強健的雜湊函數方法可讀理格式上缝將視訊訊號降 =解析標準所纽之魏的改變’以及在計算雜湊函數之 前所應用的標準壓縮。除了雜湊函數外,其他視訊簽章產 生的演算法及方法也可被使用。 54 200921454 其它演算法 一種特別有助於識別視訊不同區段之間的視覺相似 性的方法,是一個強健的視訊簽章類型產生處理被稱為 視訊DNA”視訊DNA是一種不同視訊序列的時空匹 配方法,其靈感來自於匹配不同DNA序列的生物資訊學 计算方法。在此,不同的視訊媒體視訊剪輯將依照數學方 式映射到有序的“視覺核酸”的序列,其主要係透過:分 析連續的多訊框視訊圖像之時_顺為視覺特徵及特 徵描述’刪除只在當前的視訊圖像出現的特徵,進行麵 視訊特徵的時間平均,從平均中丟棄分離特徵,使用一個 ^鄰(nea朗neighb。壯分配剩餘視訊特徵财同特徵的 標準化陣列,計算每一個分配特徵類型的數量,最後為視 訊的每一個訊框序列產生“視覺核酸,,。用於視訊的每一 個訊框序列之“視覺滅,,可料成—連串稱 訊腦A”,其用以描述大的視訊。來自不同視訊來2 視讯DNA”,可以制—個賴距離函 訊核酸之間進行評分,並且使用以崎二= 靈感的類生物資訊學比對演算法。 目配技術為 上述視訊DNA方法對於軌及失直而一… 的”,因為這是這些方法本身對於特_測^ 符號這些因素是強健的。 ^及特徵插述 更明確地說,視MDNA方法是透 ·、 料之間的時空-致性來運作,這可透過建立—連^視訊資 核酸,,並使峨_她來分㈣_中^ 55 200921454 續視訊圖像之特徵來完成,強健的特徵偵測器如: Harris-Laplace comer 偵測器、affme-invariant Harris-Laplace comer 偵測器、Spati〇_temp〇rai comer 偵測 器或MSER演算法,這些特徵若僅出現於一個視訊圖像 上時將被修剪刪除,被修剪刪除的特徵將被使用強健特徵 描述符號進行描述,如:SIFT(Scale Invariant Feature
Transform)描述符號、spatio-temporal SIFT 描述符號或
SURF(Speed Up Robust Features)描述符號,其描述符號是 對應到每一個特徵’這些描述符號可選擇性被以時間平均 方式橫越數個視訊之訊框,並且於每一個特徵,都會使用 一個平均描述符號(包含偏離刪除或忽略),這些修剪及平 均時間描述符號可使用—個近鄰的作取代,即被分配為從 不同特徵觀符號的鮮化陣财所選擇丨來的相似 徵描述符號。 W逑躓視訊圖像所被分配的特徵描述 订叙挪的數目將被計數,這個計數處理將建立不同 ^,的心準化_的係數’這個處理的結果稱之為“視覺核 *可心派唯性的強健簽章到簡短的視訊區段,用以 =_也改變視訊解析、不同視訊大小及其他常見的視 法。真,且作為—個識簡視訊區段之純的獨特方 的改2本發3赠·獅於其具體實施方式,然而係數 ,紐及做糾的細= 开'明之精神。因此’雖然本發明以前述之實施 56 200921454 例揭露如上,然其並非用以限定本發明,任何熟習相像技 藝者,在不脫離本發明之精神和範圍内,當可作些許之更 動與潤飾,因此本發明之專利保護範圍須視本說明書所附 之申請專利範圍所界定者為準。 【圖式簡單說明】 第1圖為本發明結合數位錄放影系統之方塊圖。 第2圖為本發明的視訊摘要產生器之方塊圖。 第3圖為視訊元素範例之示意圖。 第4圖為視訊摘要產生的首個階段之示意圖。 第5圖為在觀看錄影内容時,根據用戶行為特徵產生 正相關及負相關範例之示意圖。 第6圖為顯示時空摘要及產生元素之示意圖。 第7圖為視訊摘要產生的第二階段之示意圖。 第8圖為視訊元素的聚集至視訊聚集之示意圖。 第9圖為顯示時空摘要及產生元素之示意圖。 第10圖為視訊聚集定義為時間邊界空間及時空邊界 空間的範例之示意圖。 第11圖為顯示局部重要等級到總體重要等級的聚集 之示意圖。 第12圖為視訊預告的概念之示意圖。 第13圖為視訊海報的概念之示意圖。 、第14圖為顯示在持續及覆蓋期間的視訊摘要的使用 代表之示意圖。 第15A圖至第15C圖為顯示以不同方式使用視訊摘 57 200921454 要顯示有意義的内容之示意圖。 第16圖為說明非線性時間暫停用於產生預覽之示咅 圖。 〜、 一第17A圖為說明資料等級結構用於視訊摘要導航之 示意圖。 第17B 之示意圖。 圖為if過視訊說_於分級導航輯戶介面
第18圖為說明電 重要等級之示意圖。 ’时幕中的文字覆蓋視訊可產生低 關及負相關用戶喜好的 第19圖為自動填入具有正相 永存資料庫方式之示意圖。 【主要元件符號說明】 1〇〇數位錄放影系統 110視訊摘要產生器 120編碼器
130解碼器 200系統 210輸入視訊 220視訊摘要產生器 230視訊元素分割 240重要分級指派 250視訊聚集 260用戶介面 310空間軸y 58 200921454 320空間軸χ 330時間軸t 340視訊元素 410已標記的視訊元素 510資料庫 520正相關範例資料庫 530負相關範例資料庫 540增加負相關範例 550增加正相關範例 560快轉跳過部份 570負相關範例的視訊元素 580集中注意力的部分 590預設負相關範例 595預設正相關範例 610視訊元素 620時空遠距視訊元素 630時空鄰近視訊元素 710局部重要等級 720視訊元素 730正相關範例 740負相關範例 750合計等級 810a視訊聚集 810b調整後的視訊聚集範圍 59 200921454 820、830、840視訊元素 850訊框邊界區段 910矩形區域 912視訊元素 915時空邊緣 920時間範圍空間 922視訊元素 925時間邊緣 1010視訊事件 1020聲音事件 1040視訊聚集 1045邊緣 1110總體等級 1120視訊聚集 1130局部重要等級 1300相同圖像部分 1410縮寫函數 1420摘要函數 1430預覽函數 1590分離及剩下 1802訊框Ί” 1804 訊框 “η” 1806像素群組“Ρ” 1808 Ρ管狀 60 200921454 1810視訊特徵偵測處理或演算法 1812視訊元素喜好資料庫 1814觀眾喜好 1900當前視訊 1902槍範例 1904視訊簽章產生器 1906喜好中立資料庫 1908柯爾特手槍 1910正相關資料庫 1912負相關資料庫 2000完整視訊 2100簡要範圍 2200第三範圍 2300時間軸 2310解析轴 2500向上 2510向下 2600倒轉 2610快轉 61
Claims (1)
- 200921454 十、申請專利範圍: 1. 一種數位錄放影系統 容,包含: 用以儲存及/或播放媒體内 至少一視訊處理器,用以分析-輸入媒體内 容,並且自動生成至少―描述符號,祕描:二 相應於該輸人媒體内容中各時段之圖奴/或聲音:、至少Γ感應器,於該輪入媒體内容播放時,用 以偵測並§己錄至少一用戶劉覽直好. 一永存記憶體’用以持續儲存對應該些用戶潮 覽喜好的該些描述符號於-永存資料庫;及 至少一控做麵,該些控倾理ϋ分別對應 一控制軟體;其中,每—控制處理器分別透過各自 的控制軟體藉由如下的步驟來控制未經分析的該輸 入媒體内容之各時段的儲存及/或播放,.未經分 析的該輸人媒體内容作為—未知媒體内容: 。。a)傳送該未知媒體内容至該視訊處理 ,,並且引導該視訊處理器產生該未知媒體内 容中的各時段之視訊及/或聲音的至少一未知 視訊描述符號; b) 使用該些未知視訊描述符號作為該永 存貝料庫的一索引,並取得相應於該些未知視 矾描述符號的該些用戶瀏覽喜好,· c) 透過取回的該些用戶澍覽喜好及適當 的一權重函數,用以建立該未知媒體内容之各 62 200921454 時段的一則^戶喜好評價;及 使用該預估用戶喜好評價控制該未知媒體 内容之各時段的贿及/或播放。 2·=申請專嫌龄1酬述之數位錄放影系統,其 。。该些視訊處理ϋ及該触爾理雜相同的處理 益’且該視訊處理器可以針對失真或非失真的視訊 編碼進行壓縮及/或解壓縮。 3. 如申請專利範圍第i項所述之數位錄放影系統,並 中該些視訊處理ϋ及該些控做理器紅同的處理 器’且該視域理H侧崎佳化產生該些描 號。 4. 如申明專利範圍第1項所述之數位錄放影系統,其 中該些描述符號係從一群已知且與用戶喜好具有正 相關(positive statistical correlation)或負相關(negative statistical correlation)的該些描述符號中選出。 5. 如申請專利範圍第4項所述之數位錄放影系統,其 中s亥些描述符號對應該輸入媒體内容中各時段的圖 像内容,係經過數學運算處理後所得到之媒體内容 子集合的結果,這些媒體内容子集合可自一 3維像 素區塊、一 3維邊界、具有相同運動之一時空區域、 一先驗物件(a priori objects)及簡單特徵的收集物 (collections of simple features)之群組組合中任選其 ——〇 6.如申請專利範圍第4項所述之數位錄放影系統,其 63 200921454 中5亥些描述符號對應該輸入媒體内容中各時段的圖 像内谷,更進一步可最佳化用以偵測視訊中的行 動、談話、卡通、室外風景及文字。 7. 如申請專概財1項所述之數位錄放影系統,其 中δ亥些祸述符號對應該輸入媒體内容中各時段的聲 音内容,係經過數學運算處理後所得到之媒體内容 子集合的結果,這些數學運算處理可自一分析聲頻 範圍、一聲能抗頻範圍(s〇und energy versus frequency range)、音頻範圍、音樂頻率範圍、單字 辨谶及§吾§辨識的分析功能群組組合中任選其一。 8. 如申請專利範圍第1項所述之數位錄放影系統,其 中該永存資料庫包含相應於確定的瀏覽喜好之該些 描述符號,以及相應於否定的瀏覽喜好之該些描述 符號及適當的該權重函數,其中,該權重函數包含 一差集運算用以自正相關的瀏覽喜好中選出負相關 的瀏覽喜好。 9. 如申請專利範圍第1項所述之數位錄放影系統,其 中該永存記憶體及/或該永存資料庫可透過一補充 資料庫,用以獲得來自複數個其他系統、其他媒體 内容及其他用戶的其他視訊描述及用戶喜好。 10. 如申請專利範圍第1項所述之數位錄放影系統,其 中一個或多個感應器用以摘測及記錄該些用戶劉覽 喜好的偵測訊息’這些偵測訊息可自一正常播速視 訊、一跳過視訊、一高速播放視訊、一指定喜好視 64 200921454 訊、一指定非喜好視訊、一圖像感應器指示播放給 觀眾的視訊、-圖像感應器指示非播放給觀眾的視 訊、一圖像感應器、聲音感應器指示播放給有興趣 觀眾的視訊及-圖像感應器及聲音感應器指示播放 給無興趣觀眾的視訊群組組合中任選其一。 11. 如申請專利範圍第1項所述之數位錄放影系統,其 中5亥系統包含壓縮視訊使其滿足時間短於原本視訊 長度的一指定時間區間,其透過選擇具有最高用戶 吾好的輸入視時段,以及不選擇具有較低用戶直 好的輸入視訊時段,以便使輸入視訊可以在該指定 時間區間内被播放。 12. 如申請專利範圍第1項所述之數位錄放影系統,其 中對應該些媒體内容中各時段的圖像内容的該些描 述付遗係可自一 Viola-Jone演算、一 Rowley-Baluja-Kanade 演算、— Schneiderman-Kanade 演算、一 R0th-Yang_Ahuja 演 算及一 Chum演算的圖像特徵辨識演算法的群組組 合任選其中之一。 13.如申請專利範圍第〗項所述之數位錄放影系統,其 中δ亥永存資料庫係一關聯式資料庫。 】4.如申請專利範圍第丨項所述之數位錄放影系統,其 中δ亥系統具有區別不同用戶的能力,且對應的控制 軟體可以基於瀏覽喜好的用戶個人資料或瀏覽喜好 的歷史記錄來控制一媒體内容。 65 200921454 is.如申請專概圍第丨項所狀數位錄放影系統,其 =該系統更包含計算一或多個視訊簽章,該些視訊 簽章用以辨識該未知媒體内容之各時段的整體狀況 生成至少-整體視酬標籤,職些整體視訊識 職籤與至少-整咖戶师喜好進行對應,並且 儲存至該永存資料庫; 其中,d)建立該未知媒體内容中的各時段之 ί 該些視訊簽章為該些整體視訊識別標籤(overall video identifiers); e) 使用該些整體視訊識別標籤作為該永存資 料庫的一索引,並取回相應於該些整體視訊識別標 籤的該些整體用户瀏覽喜好; f) 使用該些整體用戶瀏覽喜好及該預估用戶 吾好評價用以輸入至一主用戶喜好函數;及 g) 使用該主用戶喜好函數控制該未知媒體内 I 容中的各時段之儲存及/或播放。 16.如申請翻細第15撕述之數鱗放影系統,其 中*亥視汛簽章是透過一雜湊函數或視訊DNA建立 演算法所計算。 丨7.如申請專利範圍第15項所述之數位錄放影系統,其 . 中5亥主用戶喜好函數允許該些整體用戶瀏覽喜好覆 蓋該預估用戶喜好評價。 18·-種數位錄放影祕,用以儲存及/或播放媒體内 容,包含: 66 200921454 々至少-視訊處理器,用以分析—輪入媒體内 合,亚且自動生成一或多個視訊簽章,用以辨識— 未知媒體内容之各喊的整體狀況生成至少二 視訊識別標籤; 正粒 至少一感應器,於該輸入媒體内容播放時,用 以偵測並記錄至少一整體用戶瀏覽喜好; & —永存記億體,用以持續館存對應該些整體用 戶劉覽喜好_輕魏_職辭錢符 永存資料庫;及 7U、 至少-控制處理n,該些控制處理器分別 控制軟體;其中,每一控制處理器及/或每—視訊 處理器分猶過各自的控概體藉由如下的步驟來 控制未經分析的該輸人媒體内容之各時段的錯存及 /或播放,且絲齡析的該輸人聰内容作為 知媒體内容(unknown media_tem): a) 建立該些未知媒體内容之各時段的一 或多個視訊簽章作為該些整體視訊識別標鐵; b) 使用該些整體視訊識別標籤作為該永 存資料庫的-㈣丨,餘得減_些整體視 訊識別標籤的該些整體用戶瀏覽喜好; c) 使用該整體用戶劉覽喜好及一預估用 戶喜好評價作為—整體用戶喜好函數的輪入; 及 d) 使用„亥整體用戶喜好函數控制該未知 67 200921454 媒體内容的各時段,存及/或播放。 1心申請專利範圍第18項所述之數位錄放影系統,其 中》亥二視δίΐ處理ϋ及該些控制處理器係相同的處理 器’且該視訊處釋可崎敎真或非失真的視訊 編碼進行壓縮及/或解壓縮。 20.々申叫專利範圍第18項所述之數位錄放影系統,其 ^視訊簽章是透過—雜凑函數或視訊 DNA建立 演算法所計算。 21·:種數位錄放影裝置,心儲存及湖放媒體内 容,包含: 々至少-視訊處理器,用以分析一輸入媒體内 各並且自動生成至少一描述符號,該些描述符號 相應於該輸人聰内料各時段之輯及聲音; 至少-感應器,於該輸人媒體内容播放時,用 以偵測並記錄至少一用戶瀏覽喜好; 士永存。己憶體,用以持續儲存對應該些用戶劉 覽吾好的該些描述符號於一永存資料庫; 至夕控制處理裔’該些控制處理器分別對應 一控制軟體;其中’每—控制處理H分別透過各自 的控制軟體藉由如下的裝絲控制未經分析的該輸 入媒體内容之各時段_存及/或播放,且將未經分 析的該輸人媒體内容作為—未知媒體内容;每一控 制處理器包含—描述符號產生ϋ,用以對所接收的 該未知媒體内容進行配置,且產生該未知媒體内容 68 200921454 中的各時段之視訊及/或聲音的至少一未知視訊 述符號; w 索引單元,用以利用該些未知視訊描述符號 作為該永存資料庫的一索引,取得相應於該些未知 視訊描述符號的該些用戶瀏覽喜好;及 一吾好建立器,用以建立該未知媒體内容之各 時段的一預估用戶喜好評價; 其中,S亥控制處理器更用以利用該預估用戶直 好评價控制該未知媒體内容的各時段之儲存及/或 播放。 22. 如申請專利範圍第21項所述之數位錄放影裝置,其 中該些視訊處理器設備實現一或多個失真或非失真 的視訊編碼,該些視訊編碼係選自MPEG4、 MPEG-2 ^ MPEG-4 ' MPEG-10 > MPEG-4 (Advanced Simple Profile)、H.264、Blackbird、Cinepak、Indeo 3/4/5' MJPEG' Sorenson 3 > Microsoft Windows Media Video (WMV)、RealVideo、CorePNG、Huffyuv、 Lagarith、LCL、SheerVideo、Lossy codecs 或 lossless codecs o 23. 如申請專利範圍第22項所述之數位錄放影裝置,其 中該些視訊處理器及該些控制處理器係相同的處理 器。 24. 如申請專利範圍第21項所述之數位錄放影裝置,其 中該或該些描述產生器、該索引單元或該喜好建立 69 200921454 益的只現係透過執行在該些視訊處理器或該些控制 處理器、嵌入於該些視^L處理器或該些控制處理器 的軟體、專用硬體處理電路嵌人該些視訊處理界或 該些控做職或設置_魏訊翁ϋ或該些控 制處理器外的專用硬體電路來實現。 25.如申請專利範圍第21項所述之數位錄放影裝置,其 t亥裝置更包含計算—❹個視訊簽章,用以辨識 f _未知媒體魄之各時段的整歡況作為至少一 整體視訊_賴;_些整體視訊朗標籤與至 =正體帛戶’避吾好進行對應,並儲存至該永存 賢料庫; /其Ί一控制處理器分別透過各自的控制軟 體、、’二由簽早產生器產生該些整體視訊識別標鐵的 魏簽章來控制未經分析的讀人内容之各時 存及/或概,並絲經讀的該輸入媒體内 I 各作為一未知媒體内容; > 簽早索引益,用以使用該些整體視訊識別標 籤作為該永存賴庫的—索引,並取回相應於該些 ι體視訊識別標籤的該些整體用戶㈣喜好; . t —簽早吾好建立器,用以制該些整體用戶割 • 覽喜好及該預估用戶喜好評價作為-主用戶喜好控 制單元之輸入;及 ^使m用戶喜好控鮮元控綱未知媒體内 谷之各時段的儲存及/或播放。 70 200921454 如申4專利範園第25項所述之數位錄放影裝置,其 _°亥視矾簽章係透過一雜湊函數或視訊DNA建立 演算法所計算。 如申印專利範圍第25項所述之數位錄放影裝置,其 令5亥永存資料庫記錄對應該些用戶瀏覽喜好的該些 私述符號包含-樣本資料’該樣本資料係選自一喜 好中立資料庫的描述符號。 28. 一種數位錄放影方法,用以控制儲存及/或播放媒體 内容’其步驟包括: 輸入不同的複數個媒體内容,且自動產生複數 個描述符號’該些贿符號制該些雜内容的圖 像及/或聲音内容; 偵測並記錄與不同媒體内容之各時段相應的至 >、一用戶瀏覽喜好; 兮此^亥些用戶劇覽喜好對應至—永存資料庫中的 二U便該些描述符號可能被用來作為 ^水存資料庫取得該些用戶概喜好的一索弓卜 ,過下列步雜_永存料庫 體内容的儲存及/或播放: 媒 自動產生與該未知媒體内容相應的複數個 田^付旒成為一未知内容描述符號; ,用該未知内容描述符號作為該永存資料 的一索弓| ; 71 200921454 取得該些用戶割覽喜好; 透過使用所取得的該些用戶瀏覽喜好及— 權重函數,用以建立該未知媒體内容之各時段 的一預估用戶喜好評價;及 使用該預估用戶喜好評價控制該未知媒體 内容的儲存及/或播放。 29•如申料利細第28酬述之數姆放影方法,其 中该些描述符號係從一群已知且與用戶喜好具有正«(positive statistical correlation)^ ^ 4a M(negative statistical correlation)的描述符號中選出。 3〇·如申请專利範圍第28項所述之數位錄放影方法,其 中該些描述符號對應該些媒體内容中各時段的圖像 内容’係經過數學函數所得到的輸出,這些數學函 數可自一 3維像素區塊、—3維邊界、具有相同運 動之一時空區域、一先驗物件(apriori objects)及簡單 特徵的收集物_咖0耶〇f simple feat·)之群組 組合中任選其一。 3L如申請專利範圍第30項所述之數位錄放影方法,其 中=些描述符號對獻·媒體内容中各時段的圖像 内谷更進步可最佳化用以偵測視訊巾的行動、 談話、卡通、室外風景及文字。 32.如申請專利範圍第28項所述之數位錄放影方法,其 中該些描述符賴應财舰内容巾各時段的聲音 内容’係經過數學函數所得到的輸出,這些數學函 72 200921454 數可自一分析聲頻範圍、一聲能抗頻範圍(sound energy versus frequency range)、音頻範圍、音樂頻率 範圍、單字辨識及語言辨識的分析功能群組組合中 任選其—。 33’如申凊專利範圍第28項所述之數位錄放影方法,其 中該永存資料庫包含相應於確定的瀏覽喜好之該些 描述符號,以及相應於否定的瀏覽喜好之該些描述 符號及適當的該權重函數,其中,該權重函數包含 一差集運算用以自正相關的瀏覽喜好中選出負相關 的瀏覽喜好。 ' 34. 如申凊專利範圍第28項所述之數位錄放影方法,其 中該永存資料庫可透過-補充資料庫,用以獲得來 自複數個其他系統、其他媒體内容及其他用戶的其 他視訊描述及用戶喜好。 35. 如申請專利範圍第28項所述之數位錄放影方法,其 中該些用户劉覽喜好係自一正常播速視訊、一跳過 視訊、一高速播放視訊、一指定喜好視訊、一指定 非吾好視訊、一圖像感應器指示播放給觀眾的視 訊、一圖像感應器指示非播放給觀眾的視訊、一圖 像感應器及聲音感應器指示播放給有興趣觀眾的視 訊及一圖像感應器及聲音感應器指示播放給無興趣 觀眾的視訊群組組合中任選其一。 36. 如申請專利顧第28顧述之數位錄放影方法,其 中更包含壓縮視訊使其滿足時間短於原本視訊長度 73 200921454 Γ指定時間區間,其透過選擇具有最高預估用戶 吾好評f的輪人視訊時段,以及不選擇具有較低預 估用戶喜好評價的輸人視辦段’以便使輸入視訊 可以在該指定時間區間内被播放。 37.如申請專嫌_ 28顧叙紐賊影方法,其 t§亥永存資料庫係一關聯式資料庫。 柷如申請專利範圍第28項所述之數位錄放影方法,其 中《亥永存胃料庫記錄制戶歡喜好賴應的該些 描述符號,並以至少-擴充描述符號進行擴充,該 些擴充描述符號係自一喜好中立資料庫的描述符 號。 故如申請專利範圍第38項所述之數位錄放影方法,且 中該些擴充描述符號的選擇是基於一用戶選擇鱗 資料及擴充描述符號_資料的—匹配函數。 吼如申請專利範圍第39項所述之數位錄放影方法,其 中該用戶選擇解釋資料係透戶所選擇的視訊圖 像之視訊簽章經由計算所建立,使用所選擇的視訊 簽章作為-喜好中立資料庫的一索引來取得一言全釋 資料,以及使用驗釋資料取得該些擴充描述符號。 41.如申請專利範圍第38項所述之數位錄放影方法,其 中更包含: 計算-或多個視訊簽章,用以辨識該些未知媒 體内容之各時段的整體狀況產生至少—整體視訊識 別標籤;將該些整體視訊識別標籤與至少—整體用 74 200921454 克吾好it行對應,並且儲存至該永存資料庫; 及 透k如下步驟控制未經分析的該輸入媒體内容 之各時段的儲存及/或播放,且將未經分析的該輸入 媒體内容作為—未知媒體内容: 建立該未知媒體内容中的各時段之該些視 訊簽章為該些整體視訊識別標籤; 使用該些整體視訊識別標籤作為該永存資 料庫的一索引,並取回相應於該些整體視訊識 別標籤的該些整體用戶瀏覽喜好; 使用該整體用戶瀏覽喜好及該預估用戶喜 好5平價作為—主用戶喜好函數;及 使用該主用戶喜好函數控制該未知媒體内 容中的各時段之儲存及/或播放。 42. 如申請專利範圍第41項所述之數位錄放影方法,其 中该視贿章是透過騎函數或視訊 DNA建立演 算法所計算。 43. 如申請專利範圍第41項所述之數位錄放影方法,其 中该主用戶喜好函數允許該些整體用戶瀏覽喜好覆 蓋該預估用戶喜好評價。 44. 一種數位錄放影方法,用以控制儲存及/或播放媒體 内容,該方法包含: 輸入不同的複數個媒體内容,且自動產生複數 個描述符號,該些描述符號對應該些媒體内容的圖 75 200921454 像及/或聲音内容; 該些描述符號係從一群已知且與用戶喜好具有 正相關(positive statistical correlation)或負相關 (negative statistical correlation)的描述符號中選出. 該些描述符號為數學函數的輸出,係自一 3維 像素區塊、一 3維邊界、具有相同運動之一時空區 域、一先驗物件(a priori objects)及簡單特徵的收集 物(collections of simple features)之群組組合中任選 其一;或 該些描述符號為數學函數的輪出,係自—分析 聲頻範圍、一聲能抗頻範圍(s〇und energy versus frequency range)、音頻範圍、音樂頻率範圍 '翠字 辨識及語言辨識的分析功能群組組合中任選其一; 及 、* 偵測並記錄與不同媒體内容之各時段相應的至 少一用戶瀏覽喜好; 將該些用戶瀏覽喜好對應至一永存資料庫中的 該些描述槪’以便該些減符號可能觀來作為 自該水存資料庫取得該些用戶瀏覽喜好的一索引; 及 透過下列步驟使用該永存資料庫控制一未知媒 體内容的儲存及/或播放: 自動產生與該未知媒體内容相應的複數個 祂述符號成為一未知内容描述符號; 76 ’921454 使用該未知内容描述符號作為該永存資料 犀的—索引; 取得該些用戶瀏覽喜好; “透過使用所取得的該些用戶戦喜好及一 權重函數,肋建立該未知制内容I各時段 的—預估用戶喜好評價;及 使用該預估用戶喜好評價控制該未知媒體 内容的儲存及/或播放。 45.如申請專利範圍第44撕述之數位錄放影方法,其 中°亥些描述符麟赫些舰内財各時段的圖像 内令,更進一步可最佳化用以偵測視訊中的行動、 談話、卡通、室外風景及文字。 46’如申請專利範園第44項所述之數位錄放影方法,其 中該永存資料庫包含相應於確定的瀏覽喜好之該些 4田述符號,以及相應於否定的瀏覽喜好之該些描述 付號及適當的該權重函數,其中,該權重函數包含 一差集運算用以自正相關的瀏覽喜好中選出負相關 的瀏覽喜好。 47. 如申請專利範圍第44項所述之數位錄放影方法,其 中該永存資料庫可透過一補充資料庫,用以獲得來 自複數個其他系統、其他媒體内容及其他用戶的其 他視訊描述及用戶喜好。 48. 如申請專利範圍第44項所述之數位錄放影方法,其 中該些用戶瀏覽喜好係自一正常播速視訊、一跳過 77 200921454 視訊、-高速播放視訊、一指定喜好視訊、一指定 非喜好視訊、一圖像感應器指示播放給觀眾的視 λ、一圖像感應器指示非播放給觀眾的視訊、一圖 像感應ϋ及#音感應H指示播放給有興趣觀眾的視 汛及一圖像感應器及聲音感應器指示播放給無興趣 觀眾的視訊群組組合中任選其一。 49.如申δ奢專利範圍帛44項所述之數位錄放影方法,其 中更包合壓縮視訊使其滿足時間短於原本視訊長度 指定時間區間,其透過選擇具有最高預估用戶 吾好#價的輸人視tfUf段’以及不選擇具有較/^預 估用戶喜好評_輸人視訊時段,以便使輸入視訊 可以在該指定時間區間内被播放。 5〇·如申請專利範圍第44項所述之數位錄放影方法,其 中该永存資料庫係一關聯式資料庫。 51.如申明專利範圍第44項所述之數位錄放影方法,其 中》亥永存資料庫記錄朗戶戦喜好所對應的該些 描述符號,並以至少一擴充描述符號進行擴充,該 二擴充描述付號係自—喜好中立資料庫的描述符 號。 2.如申明專利範_ 44項所述之數位錄放影方法,其 中該些擴充描述符號的選擇是基於一用戶選擇證釋 資料及擴充描述符號證釋資料的一匹配函數。 3·如申明專利|巳圍第44項所述之數位錄放影方法,其 中遠用戶選擇轉㈣係透獅戶所娜的視訊圖 78 200921454 像之視訊簽章經由計算所建立,使用所選擇的視訊 簽章作為一喜好中立資料庫的一索引來取得一詮釋 資料’以及使用該詮釋資料取得該些擴充描述符號。 54.如申請專利範圍第44項所述之數位錄放影方法,其 中更包含: ^ 汁算一或多個視訊簽章,用以辨識該些未知媒 體内容之各時段的整體狀況產生至少一整體視訊識別標籤;將該些整體視訊朗標籤與至少—整體用 戶劉覽吾好進行對應’並且儲存至該永存資料 及 ' > 透過如下步驟控制未經分析的該輸人媒體内容 之各時段麟存及_放,且將未經分析的該輸入 媒體内容作為一未知媒體内容: a)建立該未知媒體内容中的各時段之該 上視汛簽早為該些整體視訊識別標籤; 一 b)使用該些整體視訊制標籤作為該永 存資料庫❸索引’並取回相應於該些整體視 訊識別標_該些整_戶職喜好; c)使用該整體用戶_喜好及該預估用 戶吾好5平價作為—主用戶喜好函數;及 )使用„亥主用戶喜好函數控制該未知媒 55 ^體内容巾的各時段之儲存及播放。 .中===54項所述之數位錄放影方法,其 ^ 過贿祕或彻I DNA建立演 79 ^^21454 算法所計算。 )·如申請專利翻第% 57. _主用戶她數蝴方法,其 蓋讀預估用户喜好評價。體用戶《喜好覆 内容錢播放媒體 輪入不同的後數個媒、體 自動產生複數 的、m 未知聰内容之各時段 疋—/生至少一整體視訊識別標籤,· 小一 f測並記錄射容之各時段相應的至 乂一迻體用戶澍覽喜好; 將5亥些整體用戶劉覽喜好對應至-永存資料庫 二:ί些整體視輯別標籤,以便該些整體視訊識 、籤可此被用來作為自該永存資料庫取得該些整 體用戶劉覽喜好的—索引;及 一 κ透過下列步驟控制未經分析的該些輸入媒體内 各之各時段的儲存及/或播放,且將未經分析的該些 輪入媒體内容作為—未知媒體内容: a) 建立該些未知媒體内容中的各時段之 该些視訊簽章為該些整體視訊識別標籤; b) 使用該些整體視訊識別標籤作為該永 存貧料庫的一索引,並取回相應於該些整體視 訊識別標籤的該些整體用戶瀏覽喜好; c) 使用該些整體用戶瀏覽喜好作為一整 200921454 體用戶喜好函數的輸入;及 d)使用該些整體用戶喜好函數控制該未 知媒體内容的各時段之儲存及/或播放。 58.如申請專利範圍第57項所述之數位錄放影方法,其 中該視訊簽章是透過雜湊函數或視訊DNA建立演 算法所計算。 81
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/778,633 US8224087B2 (en) | 2007-07-16 | 2007-07-16 | Method and apparatus for video digest generation |
Publications (1)
Publication Number | Publication Date |
---|---|
TW200921454A true TW200921454A (en) | 2009-05-16 |
Family
ID=40265935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW097127021A TW200921454A (en) | 2007-07-16 | 2008-07-16 | Method and apparatus for video digest generation |
Country Status (2)
Country | Link |
---|---|
US (1) | US8224087B2 (zh) |
TW (1) | TW200921454A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186523A (zh) * | 2011-12-30 | 2013-07-03 | 富泰华工业(深圳)有限公司 | 电子设备及其自然语言分析方法 |
TWI456999B (zh) * | 2011-01-31 | 2014-10-11 | ||
TWI474197B (zh) * | 2010-03-09 | 2015-02-21 | Alibaba Group Holding Ltd | Information retrieval methods and systems |
TWI485644B (zh) * | 2011-08-11 | 2015-05-21 | Otoy Inc | 群眾外包式(crowd-sourced)視訊顯像系統 |
TWI512503B (zh) * | 2011-12-29 | 2015-12-11 | Hon Hai Prec Ind Co Ltd | 電子設備及其自然語言分析方法 |
TWI554090B (zh) * | 2014-12-29 | 2016-10-11 | 財團法人工業技術研究院 | 產生多媒體影音摘要的系統與方法 |
US10504156B2 (en) | 2012-10-23 | 2019-12-10 | Apple Inc. | Personalized media stations |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4992592B2 (ja) * | 2007-07-26 | 2012-08-08 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びにプログラム |
US20090228922A1 (en) * | 2008-03-10 | 2009-09-10 | United Video Properties, Inc. | Methods and devices for presenting an interactive media guidance application |
EP2419861A1 (en) * | 2009-04-14 | 2012-02-22 | Koninklijke Philips Electronics N.V. | Key frames extraction for video content analysis |
JP5338450B2 (ja) * | 2009-04-22 | 2013-11-13 | 富士通株式会社 | 再生装置及びプログラム |
US8966515B2 (en) | 2010-11-08 | 2015-02-24 | Sony Corporation | Adaptable videolens media engine |
US8938393B2 (en) | 2011-06-28 | 2015-01-20 | Sony Corporation | Extended videolens media engine for audio recognition |
US9256361B2 (en) | 2011-08-03 | 2016-02-09 | Ebay Inc. | Control of search results with multipoint pinch gestures |
US20130129308A1 (en) * | 2011-11-18 | 2013-05-23 | Keith Stoll Karn | Display device with adaptive fast navigation mode |
DE112011106058T5 (de) * | 2011-12-28 | 2014-09-25 | Intel Corporation | Bilderfassung mit virtuellem Verschluss |
US8988578B2 (en) | 2012-02-03 | 2015-03-24 | Honeywell International Inc. | Mobile computing device with improved image preview functionality |
GB2518868B (en) * | 2013-10-03 | 2016-08-10 | Supponor Oy | Method and apparatus for image frame identification |
US10679671B2 (en) * | 2014-06-09 | 2020-06-09 | Pelco, Inc. | Smart video digest system and method |
EP3254454B1 (en) | 2015-02-03 | 2020-12-30 | Dolby Laboratories Licensing Corporation | Conference searching and playback of search results |
US10877714B2 (en) * | 2015-03-10 | 2020-12-29 | Zoho Corporation Private Limited | Methods and apparatus for enhancing electronic presentations |
CN104837050B (zh) * | 2015-03-23 | 2018-09-04 | 腾讯科技(北京)有限公司 | 一种信息处理方法及终端 |
US20170055014A1 (en) * | 2015-08-21 | 2017-02-23 | Vilynx, Inc. | Processing video usage information for the delivery of advertising |
US10762353B2 (en) * | 2017-04-14 | 2020-09-01 | Global Tel*Link Corporation | Inmate tracking system in a controlled environment |
DE102018202514A1 (de) * | 2018-02-20 | 2019-08-22 | Bayerische Motoren Werke Aktiengesellschaft | System und Verfahren zur automatischen Erstellung eines Videos einer Fahrt |
US10977299B2 (en) * | 2018-05-30 | 2021-04-13 | Baidu Usa Llc | Systems and methods for consolidating recorded content |
CN109740007B (zh) * | 2018-08-27 | 2022-03-11 | 广州麦仑信息科技有限公司 | 一种基于图像特征签名的静脉图像快速检索方法 |
CN110933520B (zh) * | 2019-12-10 | 2020-10-16 | 中国科学院软件研究所 | 一种基于螺旋摘要的监控视频展示方法及存储介质 |
KR20210089038A (ko) | 2020-01-07 | 2021-07-15 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN116567353B (zh) * | 2023-07-10 | 2023-09-12 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频投放方法及装置、存储介质及电子设备 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3472659B2 (ja) * | 1995-02-20 | 2003-12-02 | 株式会社日立製作所 | 映像供給方法および映像供給システム |
US20030093790A1 (en) * | 2000-03-28 | 2003-05-15 | Logan James D. | Audio and video program recording, editing and playback systems using metadata |
US7050110B1 (en) * | 1999-10-29 | 2006-05-23 | Intel Corporation | Method and system for generating annotations video |
US6597859B1 (en) * | 1999-12-16 | 2003-07-22 | Intel Corporation | Method and apparatus for abstracting video data |
US20030001846A1 (en) * | 2000-01-03 | 2003-01-02 | Davis Marc E. | Automatic personalized media creation system |
US7558781B2 (en) * | 2000-12-12 | 2009-07-07 | Home Box Office, Inc. | Digital asset data type definitions |
JP2002259720A (ja) * | 2001-03-02 | 2002-09-13 | Internatl Business Mach Corp <Ibm> | コンテンツ要約システム、映像要約システム、ユーザ端末、要約映像生成方法、要約映像受信方法、およびプログラム |
US7174029B2 (en) * | 2001-11-02 | 2007-02-06 | Agostinelli John A | Method and apparatus for automatic selection and presentation of information |
US7073193B2 (en) * | 2002-04-16 | 2006-07-04 | Microsoft Corporation | Media content descriptions |
US7035435B2 (en) * | 2002-05-07 | 2006-04-25 | Hewlett-Packard Development Company, L.P. | Scalable video summarization and navigation system and method |
US7047494B2 (en) * | 2002-05-07 | 2006-05-16 | Hewlett-Packard Development Company, L.P. | Scalable video summarization |
US20040003394A1 (en) * | 2002-07-01 | 2004-01-01 | Arun Ramaswamy | System for automatically matching video with ratings information |
WO2005017899A1 (en) * | 2003-08-18 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Video abstracting |
KR100557858B1 (ko) * | 2003-09-27 | 2006-03-10 | 학교법인 인하학원 | 엠펙 동영상에서의 주요 정지 영상 추출 장치 및 방법 |
EP1557837A1 (en) * | 2004-01-26 | 2005-07-27 | Sony International (Europe) GmbH | Redundancy elimination in a content-adaptive video preview system |
JP2005277531A (ja) * | 2004-03-23 | 2005-10-06 | Seiko Epson Corp | 動画像処理装置 |
US20060026638A1 (en) * | 2004-04-30 | 2006-02-02 | Vulcan Inc. | Maintaining a graphical user interface state that is based on a selected type of content |
US7714878B2 (en) * | 2004-08-09 | 2010-05-11 | Nice Systems, Ltd. | Apparatus and method for multimedia content based manipulation |
WO2006073283A1 (en) * | 2005-01-07 | 2006-07-13 | Electronics And Telecommunications Research Institute | Apparatus and method for providing adaptive broadcast service using game metadata |
JP2007323711A (ja) * | 2006-05-31 | 2007-12-13 | Sony Corp | 再生装置および再生方法、並びにプログラム |
US20080046917A1 (en) * | 2006-07-31 | 2008-02-21 | Microsoft Corporation | Associating Advertisements with On-Demand Media Content |
US8019167B2 (en) * | 2007-01-03 | 2011-09-13 | Human Monitoring Ltd. | Compressing high resolution images in a low resolution video |
WO2009157713A2 (en) * | 2008-06-24 | 2009-12-30 | Samsung Electronics Co., Ltd. | Image processing method and apparatus |
-
2007
- 2007-07-16 US US11/778,633 patent/US8224087B2/en not_active Expired - Fee Related
-
2008
- 2008-07-16 TW TW097127021A patent/TW200921454A/zh unknown
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI474197B (zh) * | 2010-03-09 | 2015-02-21 | Alibaba Group Holding Ltd | Information retrieval methods and systems |
TWI456999B (zh) * | 2011-01-31 | 2014-10-11 | ||
TWI485644B (zh) * | 2011-08-11 | 2015-05-21 | Otoy Inc | 群眾外包式(crowd-sourced)視訊顯像系統 |
TWI512503B (zh) * | 2011-12-29 | 2015-12-11 | Hon Hai Prec Ind Co Ltd | 電子設備及其自然語言分析方法 |
CN103186523A (zh) * | 2011-12-30 | 2013-07-03 | 富泰华工业(深圳)有限公司 | 电子设备及其自然语言分析方法 |
TWI509432B (zh) * | 2011-12-30 | 2015-11-21 | Hon Hai Prec Ind Co Ltd | 電子設備及其自然語言分析方法 |
CN103186523B (zh) * | 2011-12-30 | 2017-05-10 | 富泰华工业(深圳)有限公司 | 电子设备及其自然语言分析方法 |
US10504156B2 (en) | 2012-10-23 | 2019-12-10 | Apple Inc. | Personalized media stations |
TWI554090B (zh) * | 2014-12-29 | 2016-10-11 | 財團法人工業技術研究院 | 產生多媒體影音摘要的系統與方法 |
US10141023B2 (en) | 2014-12-29 | 2018-11-27 | Industrial Technology Research Institute | Method and system for multimedia summary generation |
Also Published As
Publication number | Publication date |
---|---|
US20090025039A1 (en) | 2009-01-22 |
US8224087B2 (en) | 2012-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW200921454A (en) | Method and apparatus for video digest generation | |
US8442384B2 (en) | Method and apparatus for video digest generation | |
JP5533861B2 (ja) | 表示制御装置、表示制御方法、及び、プログラム | |
Tiwari et al. | A survey of recent work on video summarization: approaches and techniques | |
US8750681B2 (en) | Electronic apparatus, content recommendation method, and program therefor | |
CA2771379C (en) | Estimating and displaying social interest in time-based media | |
Del Fabro et al. | State-of-the-art and future challenges in video scene detection: a survey | |
Hanjalic | Content-based analysis of digital video | |
US8503770B2 (en) | Information processing apparatus and method, and program | |
Sreeja et al. | Towards genre-specific frameworks for video summarisation: A survey | |
US20120057775A1 (en) | Information processing device, information processing method, and program | |
Mei et al. | Near-lossless semantic video summarization and its applications to video analysis | |
Asghar et al. | Video indexing: a survey | |
KR20020059706A (ko) | 저장 매체상에 저장된 정보 신호를 재생하는 장치 | |
Meena et al. | A review on video summarization techniques | |
Li et al. | Videography-based unconstrained video analysis | |
Narwal et al. | A comprehensive survey and mathematical insights towards video summarization | |
Tapu et al. | DEEP-AD: a multimodal temporal video segmentation framework for online video advertising | |
JP2002513487A (ja) | オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム | |
Acar et al. | Fusion of learned multi-modal representations and dense trajectories for emotional analysis in videos | |
Niu et al. | Real-time generation of personalized home video summaries on mobile devices | |
CN113569668A (zh) | 确定视频中高光片段的方法、介质、装置和计算设备 | |
Hasan et al. | Applications of Computer Vision in Entertainment and Media Industry | |
Sandifort et al. | VisLoiter+ An entropy model-based loiterer retrieval system with user-friendly interfaces | |
Jiang et al. | Trends and opportunities in consumer video content navigation and analysis |