[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

ITMI20121210A1 - A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose - Google Patents

A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose Download PDF

Info

Publication number
ITMI20121210A1
ITMI20121210A1 IT001210A ITMI20121210A ITMI20121210A1 IT MI20121210 A1 ITMI20121210 A1 IT MI20121210A1 IT 001210 A IT001210 A IT 001210A IT MI20121210 A ITMI20121210 A IT MI20121210A IT MI20121210 A1 ITMI20121210 A1 IT MI20121210A1
Authority
IT
Italy
Prior art keywords
descriptors
points
interest
areas
key
Prior art date
Application number
IT001210A
Other languages
English (en)
Inventor
Alberto Messina
Danilo Pau
Original Assignee
Rai Radiotelevisione Italiana
St Microelectronics Srl
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rai Radiotelevisione Italiana, St Microelectronics Srl filed Critical Rai Radiotelevisione Italiana
Priority to IT001210A priority Critical patent/ITMI20121210A1/it
Priority to PCT/EP2013/064729 priority patent/WO2014009490A1/en
Priority to US14/414,048 priority patent/US10127454B2/en
Priority to CN201380036591.1A priority patent/CN104520875B/zh
Publication of ITMI20121210A1 publication Critical patent/ITMI20121210A1/it

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

METODO E APPARATO PER L’ESTRAZIONE DI DESCRITTORI DA CONTENUTI VIDEO, PREFERIBILMENTE PER SCOPI DI RICERCA E RECUPERO
DESCRIZIONE
Campo dell’invenzione
La presente invenzione riguarda un metodo e un apparato per l’estrazione di descrittori da contenuti video, preferibilmente per scopi di ricerca e recupero.
Descrizione dell’arte nota
La crescente quantità di contenuti video digitali prodotti e fruiti quotidianamente e l’esigenza di cercare oggetti, luoghi e persone facenti parte del contenuto rendono sempre più importante il problema di estrarre descrittori compatti da segnali video allo scopo di utilizzare tali descrittori in applicazioni di ricerca e recupero di contenuti video.
Il saggio di Miroslaw Bober et al. “Test Model 2: Compact Descriptors for Visual Search, Video Subgroup†, Maggio 2012, Ginevra, CH, ISO/IEC JTC1/SC29/WG11/W12734, qui allegato nella sua interezza a titolo di riferimento, descrive un modello di MPEG Compact Descriptors for Visual Search (CDVS) che prevede, in particolare, l’impiego di un modulo di estrazione (Figura 3) atto a produrre un descrittore compatto composto da due elementi principali, ossia un numero selezionato di descrittori locali compressi e un singolo descrittore globale, rappresentanti l’intera immagine.
Questo modello noto presenta un’inefficienza potenzialmente seria in fase di elaborazione di un video, e tale inefficienza cresce all’aumentare della ridondanza temporale (staticità) del video, in quanto la ridondanza temporale del video non à ̈ tenuta in considerazione. In una singola ripresa visiva i quadri adiacenti sono molto simili l’uno all’altro: questa caratteristica dovrebbe essere presa in considerazione in modo da limitare la quantità di informazioni in ingresso da elaborare.
Inoltre questo modello noto prevede l’uso di un blocco di selezione di punti chiave che impiega una combinazione di caratteristiche statistiche, tra cui la distanza dei punti chiave dal centro dell’immagine, per pesare, e quindi classificare in vista della selezione, i punti chiave prima di trasferirli a un blocco di quantizzazione vettoriale.
Sebbene questo approccio presenti vari benefici, tra cui l’adattività nativa alla natura statistica dei dati in ingresso senza necessità di alcun tipo di conoscenza a priori, esso à ̈ tuttavia intrinsecamente privo di alcune caratteristiche naturali del contenuto video che sarebbero invece importanti per predire aree di interesse in immagini video da un punto di vista semantico (ad esempio, la posizione di volti). Tali caratteristiche naturali mancanti del contenuto video includono:
• Le grammatiche di produzione fotografica, e per estensione le loro controparti video, utilizzano spesso costrutti linguistici più complessi della ovvia nozione che associa maggiore importanza alle regioni centrali dell’immagine;
• Il dinamismo dei contenuti video, imposto dagli autori dei contenuti stessi, à ̈ altamente variabile a seconda del genere, delle intenzioni e del pubblico di riferimento, cosicché i “centri†di attenzione sono determinati da registi che sfruttano l’intera gamma di opzioni disponibile. Inoltre tali centri di attenzione possono variare lungo la timeline del contenuto stesso, a seconda del contenuto specifico ripreso (persone, natura) o delle condizioni di ripresa (campi larghi, primi piani).
• Per sua stessa natura, un video può essere trasformato mediante l’applicazione di vari passi di elaborazione: ritaglio dinamico di immagini (regione di interesse), “motion warping†, scrematura e sommarizzazione, sovrapposizione di elementi grafici. La ragione fondamentale dell’applicazione di tali trasformazioni si basa sull’esigenza di adattare il contenuto video alle varie condizioni di distribuzione o pubblicazione, in modo tale che i risultati di tali trasformazioni, sebbene fisicamente differenti, possano essere considerati equivalenti tra loro dal punto di vista editoriale e semantico, ossia per quanto concerne oggetti, persone e luoghi che concorrono a realizzare la “storia†dietro al video.
Un altro saggio di Duy-Nguyen Ta et al. “SURFTrac: Efficient Tracking and Continuous Object Recognition using Local Feature Descriptors†, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), Giugno 2009, qui allegato nella sua interezza a titolo di riferimento, descrive un algoritmo (SURFTrac) per l’estrazione di descrittori da una serie di immagini video digitali. Per la prima immagine l’algoritmo inizializza una lista di punti di interesse effettuando una rilevazione completa. I punti di interesse vengono quindi aggiornati e tracciati al ricevimento di nuove immagini. I descrittori sono utilizzati per scopi di riconoscimento, e l’algoritmo li calcola secondo necessità.
Più in particolare, questo algoritmo dapprima crea una mappa di caratteristiche SURF estratte da un insieme di immagini di quadri chiave catturate dall’ambiente circostante. Dopo aver estratto e confrontato le caratteristiche SURF del primo quadro video con questa mappa, l’algoritmo traccia localmente tali caratteristiche nei quadri successivi. Il quadro chiave avente la maggiore area di sovrapposizione con il quadro video corrente à ̈ denominato nodo chiave. Le aree di sovrapposizione dei quadri chiave vicini vengono aggiornate in ogni quadro sulla base delle relative omografie interquadro, e il nodo chiave viene quindi continuamente commutato sull’immagine più simile nel database, consentendo una tracciatura e un’esplorazione costante di nuove regioni nelle sequenze video.
Durante l’inizializzazione esso calcola anche tutti i descrittori delle caratteristiche SURF dalla prima immagine video e li confronta con le immagini.
Questo metodo realizza un albero NNT (Nearest Neighbor Tree) approssimativo per tutte le caratteristiche dell’immagine nel database, seguito da una verifica geometrica (algoritmo RANSAC "RANdom SAmple Consensus", che sarà citato anche in seguito). Dopo aver identificato con successo le immagini corrispondenti, l’immagine migliore viene marcata come nodo chiave corrente, e l’insieme di immagini preso in considerazione viene ridotto solamente a quelle immagini che sono collegate da un percorso nel database. Il database di immagini à ̈ organizzato come segue: V à ̈ una raccolta di immagini; G à ̈ un grafico non orientato in cui immagini formano i nodi nel grafico e i bordi descrivono le relazioni tra le immagini. Un bordo tra due immagini indica una relazione geometrica quando tali due immagini possono essere messe in relazione mediante un normale confronto a coppie. Ogni immagine à ̈ ulteriormente identificata con uno o più identificativi, e due immagini che condividono lo stesso identificativo sono anche collegate da un bordo aggiuntivo. Questa organizzazione à ̈ simile a un grafico di immagini costruito per scopi di navigazione gerarchica. Un esempio di grafico di immagini à ̈ mostrato nella Figura 1(b) del documento citato.
Dopo aver identificato un’immagine di nodo chiave e il relativo ID di oggetto, l’algoritmo può continuamente confrontare e aggiornare il nodo chiave ad un costo relativamente basso, in quanto si può essere ragionevolmente sicuri che tutti gli oggetti potenzialmente rilevanti siano inclusi nel sottografico del database corrente.
Questo metodo si basa quindi su una sorta di confronto tra oggetti, il quale non à ̈ efficiente perché non à ̈ in grado di trovare quadri chiave, ma un numero incrementale di punti di interesse, e non à ̈ in grado di tracciare un numero decrementale di punti a partire dal primo quadro perché non utilizza la potenza degli strumenti di confronto dei descrittori, essendo basato su considerazioni probabilistiche che non assicurano prestazioni ottimali in termini di precisione e utilizzando un database creato off-line che occupa memoria e richiede notevoli risorse computazionali per l’esecuzione di una ricerca al suo interno.
Dalla suddetta analisi della tecnica nota à ̈ possibile concludere che l’attuale stato dell’arte dei metodi di ricerca di contenuti visivi per immagini appare deficitario di importanti requisiti di ricerca visiva nel dominio video, come ad esempio la riduzione della ridondanza temporale nella sequenza video, la predizione di aree di interesse in immagini video dal punto di vista semantico (ad esempio, posizione di volti), analisi completa dei contenuti, ecc.
Breve descrizione dell’invenzione
Lo scopo principale della presente invenzione consiste quindi nell’indicare un metodo e un apparato per l’estrazione di descrittori da contenuti video, preferibilmente per scopi di ricerca e recupero, i quali risolvono i suddetti problemi/svantaggi.
L’idea alla base della presente invenzione consiste nell’indicare un metodo e un apparato per l’estrazione di descrittori da contenuti video, i quali comprendono i seguenti componenti principali:
- un blocco Estrattore di quadri chiave, che utilizza un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video;
- un blocco Analizzatore di contenuti, che analizza il contenuto di detti quadri chiave e classifica aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori compatti;
- un blocco Estrattore di descrittori, che estrae descrittori compatti da detti quadri chiave selezionati e definisce un insieme di immagini circostanti anche sulla base dell’ingresso ricevuto da detto blocco Analizzatore di contenuti;
- un blocco Codifica temporale, che sottopone a multiplazione informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti dall’Estrattore di quadri chiave con detti descrittori compatti ricevuti da detto blocco Estrattore di descrittori, ottenendo detti descrittori.
Questi e altri scopi sono raggiunti per mezzo di un apparato e un metodo per l’estrazione di descrittori da contenuti video descritti nelle rivendicazioni allegate, le quali sono da intendersi parte integrante della presente descrizione.
Breve descrizione dei disegni
L’invenzione apparirà chiara dalla descrizione dettagliata che segue, fornita a puro titolo esemplificativo e non limitativo, con riferimento ai disegni allegati, in cui:
- La Figura 1 mostra uno schema a blocchi dei componenti principali del metodo e dell’apparato secondo l’invenzione;
- La Figura 2 mostra uno schema a blocchi dei componenti principali del blocco Estrattore di quadri chiave di Fig.1;
- La Figura 3 mostra uno schema a blocchi dei componenti principali del blocco Analizzatore di contenuti di Fig.1;
- La Figura 4 mostra uno schema a blocchi che racchiude un superinsieme di blocchi da cui derivare un circuito specifico per una determinata applicazione realizzando il metodo dell’invenzione mediante la selezione di un sottoinsieme di tali blocchi;
- La Figura 5 mostra alcuni esempi di un flusso video acquisito da un sensore di immagini o da un apparato ricevitore/decodificatore, nonché la definizione del video in termini di sequenza di quadri, ciascuno dei quali si compone ulteriormente di quattro matrici, tre per le componenti di colore e una per la profondità (utilizzate per video 3D).
Descrizione dettagliata delle forme di realizzazione preferite
La Figura 1 illustra una panoramica dei componenti principali del sistema. Ciascun componente sarà ulteriormente descritto nel seguito. Il sistema nel suo complesso può essere visto come una macchina che elabora un video in ingresso e produce un flusso di descrittori.
Nell’ambito della presente invenzione, il significato del termine “video†à ̈ esteso a immagini statiche, flussi video 2D e flussi video 3D. Questi ultimi si intendono come video 2D più profondità per ogni immagine. A titolo di esempio, una matrice aggiuntiva dello stesso formato dell’immagine contiene informazioni di profondità per ogni pixel, come mostrato in Fig. 5. Tre matrici contengono informazioni sui pixel video delle componenti “Y†, “U†e “V†per ogni quadro temporale.
Secondo un aspetto fondamentale della presente invenzione, un metodo per l’estrazione di descrittori da contenuti video comprende i seguenti passi principali:
- un passo di Estrazione di quadri chiave, che applica un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video;
- un passo di Analisi di contenuti, che analizza il contenuto di detti quadri chiave e classifica aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori;
- un passo di Estrazione di descrittori, che estrae descrittori compatti da detti quadri chiave selezionati e definisce un insieme di immagini circostanti anche sulla base dell’ingresso ricevuto da detto passo di Analisi di contenuti;
- un passo di Codifica temporale, che sottopone a multiplazione informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti dall’Estrattore di quadri chiave con detti descrittori compatti ricevuti da detto passo di Estrazione di descrittori, ottenendo detti descrittori.
La Figura 2 mostra uno schema a blocchi dei componenti principali dell’Estrattore di quadri chiave di Fig.1.
L’Estrattore di quadri chiave riceve in ingresso una sequenza video con una determinata frequenza di quadro e una determinata risoluzione, composta da un certo numero di quadri temporalmente distanti tra loro dell’inverso della frequenza di quadro. In uscita esso indica un quadro come “quadro chiave†quando esso soddisfa alcune condizioni, che dipendono dall’analisi eseguita su di esso dai blocchi del componente.
Il blocco Acquisizione quadri acquisisce immagini in ingresso con determinati valori di frequenza di quadro, risoluzione, rapporto d’aspetto e profondità di bit. Nel seguito della presente descrizione si ipotizzerà che le componenti di luminanza siano estratte e inoltrate ai successivi blocchi di elaborazione. Gli stessi passi algoritmici possono tuttavia essere applicati a qualsiasi canale di componente dell’immagine o a qualsiasi combinazione lineare di questi.
Il blocco Rivelatore punti di interesse elabora le immagini ricevute dal blocco Acquisizione quadri e individua alcuni punti distintivi. Alcuni esempi di algoritmi applicabili allo scopo di rilevare tali punti distintivi sono descritti nel saggio di Agrawal et al.: “Censure: Center Surround Extremas for Realtime Feature Detection and Matching†, in European Conference on Computer Vision. (2008), (in particolare ai paragrafi 2.1, 2.2, 2.3), qui allegato nella sua interezza a titolo di riferimento. Gli algoritmi descritti sono i Center-Surround Feature Detectors (CenSurE) e una versione modificata del descrittore Upright SURF (MU-SURF).
Un altro esempio à ̈ descritto in Rosten et al.:†Machine Learning for High-Speed Corner Detection†, in European Conference on Computer Vision. (2006), (in particolare ai paragrafi 2.1, 2.7), qui allegato nella sua interezza a titolo di riferimento.
Inoltre, per video 3D, un esempio di algoritmo che può essere applicato per rilevare tali punti distintivi à ̈ descritto nel saggio “Performance Evaluation of 3D Keypoint Detectors†di Federico Tombari et al., International Journal of Computer Vision, manoscritto No. IIjCV2011, qui allegato nella sua interezza a titolo di riferimento.
I punti di interesse, rappresentati dalle loro coordinate [x, y], dal loro score e dall’area di pixel circostante MxN, vengono poi inviati al blocco successivo Campionatore uniforme.
Il blocco Controllore target imposta e mantiene come target il numero di punti di interesse calcolati dal Rivelatore di punti di interesse. A titolo di esempio non limitativo, esso può iterare lo stesso algoritmo più volte, in numero minore o uguale a un certo tetto massimo, modificando le soglie del rivelatore fino all’ottenimento del target o di un valore inferiore mediante l’applicazione di una formula di predizione target lineare come quella sotto riportata quale esempio non limitativo:
<point sDetected − pointsT arg et>Th_new=Th_old⋅(coeff1+coeff2⋅ )
pointT arg et
in cui nell’iterazione/esecuzione corrente la soglia calcolata durante l’iterazione/esecuzione precedente à ̈ moltiplicata per un valore che dipende da due costanti e dalla deviazione dall’insieme target rispetto ai punti rilevati ottenuti come risultato dell’iterazione/esecuzione precedente.
Quindi il blocco Campionatore uniforme raccoglie il numero di punti rilevati dal Rivelatore di punti di interesse (comprese le coordinate, gli score e le aree di quadro) e li raggruppa in superblocchi più ampi di dimensioni RxS, in modo tale che l’intersezione di ogni coppia di superblocchi RxS sia vuota (ossia essi non si sovrappongano). Quale ulteriore funzionalità di questo blocco, alcuni dei punti di interesse rilevati che sono troppo vicini tra loro e/o che hanno uno score troppo basso possono essere scartati.
I punti non scartati sono poi inviati dal blocco Campionatore uniforme al blocco Descrittore binario, il quale in una possibile forma di realizzazione implementa un algoritmo come quello indicato nel saggio di Calonder M. et al.: “BRIEF: Binary robust independent elementary features†, in Proc. of European Conference on Computer Vision (ECCV), Creta, Grecia, 2010, (in particolare ai paragrafi 3.1, 3.2), qui allegato nella sua interezza a titolo di riferimento. Questo algoritmo utilizza stringhe binarie per creare un efficiente descrittore di punti di caratteristiche, il quale descrittore si affida a un numero relativamente modesto di test di differenza di intensità per rappresentare un’area di quadro sotto forma di una stringa binaria di K-bit. La similarità tra i descrittori può essere valutata utilizzando la distanza di Hamming tra queste stringhe.
Un altro esempio di algoritmo à ̈ descritto nel saggio di R. Zabih et al.: “Non-parametric local transforms for computing visual correspondence†, in ECCV ’94, pagine 151–158, 1994 (in particolare al paragrafo 3), qui allegato nella sua interezza a titolo di riferimento.
L’uscita del blocco Descrittore binario à ̈ una firma binaria di K-bit associata a ciascun punto di interesse, la quale viene inviata al blocco Abbattimento descrittori ridondanti.
Il blocco Abbattimento descrittori ridondanti misura la similarità dei descrittori binari a K-bit entro ogni superblocco RxS, ad esempio utilizzando tecniche ben note come la distanza di Hamming (http://en.wikipedia.org/wiki/Hamming_distance) o l’indice di Jaccard (http://en.wikipedia.org/wiki/Jaccard_index).
Il blocco Abbattimento descrittori ridondanti abbatte i descrittori binari al di sotto di una certa soglia, con il vincolo di mantenere una distribuzione spaziale uniforme nel superblocco. I descrittori binari generati dal blocco Descrittore binario che sopravvivono vengono immagazzinati nel Buffer di descrittori di quadri per consentire il confronto inter-quadro dei descrittori, eseguito dal blocco Confronto descrittori. Questo confronto viene anche in questo caso eseguito utilizzando la distanza di Hamming o l’indice di Jaccard per accoppiare i punti di interesse di due quadri temporalmente consecutivi.
Alcuni dei descrittori confrontati e accoppiati con i punti chiave ad essi associati potrebbero ancora non essere corretti, trattandosi di valori anomali rispetto a una serie ordinata e coerente di campi vettoriali di movimento previsto in grado di catturare il movimento naturale fondamentale di un oggetto. I vettori di movimento anomali vengono quindi rimossi dal blocco Rimozione valori anomali, il quale implementa semplici tecniche di post-elaborazione, come il filtraggio mediano di componenti di vettori di movimento, oppure tecniche più sofisticate, come la tecnica RANSAC descritta nel saggio di Martin A., et al.: "Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography", Comm. of the ACM24 (6): 381– 395, Giugno 1981, (in particolare alla sezione IV a), qui allegato nella sua interezza a titolo di riferimento (v. anche http://en.wikipedia.org/wiki/RANSAC).
A questo punto dell’elaborazione si à ̈ ottenuto un flusso di coppie di descrittori e di punti di interesse ad essi associati tra quadri consecutivi. Questo processo viene ripetuto per le altre coppie di quadri in ordine temporale e per gli altri punti, etichettati con identificativi univoci, accoppiati tra quadri e tracciati nel tempo, ottenendo così una lista di punti di interesse comprendente i relativi descrittori per ciascun quadro e la relativa associazione/corrispondenza con altri punti di interesse e i relativi descrittori, appartenenti a un quadro temporalmente successivo e memorizzati nel blocco Lista di valori connessi.
Se il numero di punti correttamente tracciati appartenenti al quadro corrente à ̈ inferiore a un certo numero impostato come soglia (che può essere modificato per ciascun quadro o gruppo di quadri in funzione della ricchezza della informazioni e dei contenuti rappresentati all’interno dei quadri), il quadro corrente interrompe la regolarità dell’intero processo (come mostrato in Fig.2) e viene utilizzato per reinizializzarlo. Quando ciò accade, qualsiasi combinazione dei quadri precedenti contenenti un numero maggiore di punti tracciati può essere etichettata come quadro chiave e inviata in uscita al blocco Decisione su quadri chiave per ulteriori elaborazioni.
Con riferimento nuovamente alla Fig. 1, di seguito si descriverà un esempio di realizzazione del blocco Estrattore di descrittori utilizzabile allorquando sia necessario codificare un certo numero di quadri o una raffica di quadri.
Una volta che i quadri chiave sono stati generati dal blocco Estrattore di quadri chiave, viene effettuata l’estrazione di caratteristiche di una raffica di quadri prima del quadro chiave e dopo il quadro chiave allo scopo di generare più query e rendere più robusto il processo di recupero dal lato server.
Da quadri chiave selezionati ricevuti dal blocco Estrattore di quadri chiave vengono nuovamente rilevati punti di interesse ad opera di un blocco Rivelatore di punti di interesse, ad esempio utilizzando gli stessi metodi indicati nel succitato documento ISO/IEC JTC1/SC29/WG11/W12734 (sezione 2, estrazione di descrittori compatti), allo scopo di aumentare la tolleranza a variazioni di punto di vista, illuminazione e scala.
Un altro possibile metodo à ̈ descritto in “Distinctive Image Features from Scale-Invariant Keypoints†, David G. Lowe, capitoli 3,4,5, 5 gennaio 2004, qui allegato nella sua interezza a titolo di riferimento.
Il blocco Rivelatore di punti di interesse nel blocco Estrattore di descrittori può evitare la determinazione di nuovi punti di interesse nei quadri chiave, e può selezionare gli stessi punti di interesse, o un loro sottoinsieme, già ottenuti per tali quadri chiave nel blocco Estrattore di quadri chiave.
I descrittori sono quindi estratti dal blocco Descrittore, selezionati dal blocco Selettore caratteristiche, e poi quantizzati vettorialmente e dequantizzati (dai blocchi Quantizzatore descrittori e coordinate e Quantizzatore inverso descrittori e coordinate) utilizzando, ad esempio, il metodo descritto nel succitato documento ISO/IEC JTC1/SC29/WG11/W12734, sezione 2.1 (selezione di punti chiave), sezione 2.2 (codifica TSPCVQ) e sezione 2.3 (codifica di coordinate).
Alcuni esempi di metodi per l’estrazione di descrittori relativi a video 3D sono descritti in “Unique Signatures of Histograms for Local Surface Description†di Federico Tombari et al., ECCV 2010, qui allegato nella sua interezza a titolo di riferimento, e in “A COMBINED TEXTURE-SHAPE DESCRIPTOR FOR ENHANCED 3D FEATURE MATCHING†di Federico Tombari et al., ICIP2011, qui allegato nella sua interezza a titolo di riferimento.
I descrittori estratti da qualsiasi quadro chiave corrente sono immagazzinati in un Buffer di descrittori e quindi confrontati con i descrittori appartenenti a quadri chiave temporalmente adiacenti. Il confronto tra descrittori può essere realizzato utilizzando il noto approccio 1-NN basato sulla metrica euclidea.
Dopo che à ̈ stato selezionato il descrittore più vicino, viene quantizzata vettorialmente soltanto la differenza tra di essi. Ogni descrittore quantizzato vettorialmente avrà associate le relative coordinate x,y, che saranno sottoposte a codifica di coordinate come indicato nel succitato documento ISO/IEC JTC1/SC29/WG11/W12734.
L’uscita dell’Estrattore di descrittori à ̈ l’uscita del blocco Quantizzatore descrittori e coordinate, che fornisce descrittori compatti di quadri chiave. L’uscita viene poi trasferita al blocco Codifica temporale.
Con riferimento alla Fig. 1bis, si descriverà ora una variante realizzativa del blocco Estrattore di descrittori, applicabile al caso in cui occorra codificare un solo quadro chiave.
In questo caso, la procedura di estrazione dei descrittori à ̈ applicata solamente a un quadro chiave, senza bisogno di ricevere feedback della quantizzazione inversa di descrittori e coordinate e di operare la memorizzazione nel buffer e il confronto delle caratteristiche. Quindi in questo caso si utilizzeranno soltanto i blocchi Rivelatore di punti di interesse, Descrittore, Selettore caratteristiche e Quantizzatore descrittori e coordinate.
Con riferimento alla Fig. 3, verrà ora descritto un esempio di realizzazione del blocco Analizzatore di contenuti.
Un passo aggiuntivo del metodo secondo l’invenzione consiste nell’analizzare il contenuto dei quadri chiave allo scopo di ottimizzare il modo in cui avviene la selezione dei punti chiave. Questa ottimizzazione à ̈ necessaria per concentrare il contenuto della query (ossia i descrittori) in aree dell’immagine che siano semanticamente rilevanti per l’utente, scartando invece aree meno o per niente informative.
L’analisi dei contenuti viene eseguita utilizzando un approccio spaziale parallelizzato alla classificazione delle aree di quadro, ossia operando dapprima una segmentazione spaziale su quadri chiave nel blocco Segmentazione spaziale, ad esempio utilizzando un certo numero di possibili approcci alternativi.
Una prima alternativa, che rappresenta l’approccio più semplice, prevede la segmentazione dell’immagine in una griglia fissa di blocchi quadrati aventi dimensioni predefinite (ad esempio, 16x16 pixel). Questo approccio considera ciascun blocco come un’area di quadro indipendente.
Una seconda alternativa, più complessa, si basa sulla prima e prevede la fusione di blocchi della griglia fissa in aree più grandi sulla base di una qualche misurazione della similarità tra i blocchi, ad esempio fondata su descrittori globali come istogrammi di colore, istogrammi dei bordi, colore dominante.
Una terza alternativa prevede la realizzazione della segmentazione rilevando prima i bordi dell’immagine mediante l’applicazione di un qualche filtro bidimensionale (ad esempio, filtro di Sobel, http://en.wikipedia.org/wiki/Sobel_operator) e quindi di isolare le regioni dell’immagine che ricadono all’interno dei grafici dei bordi.
Ulteriori alternative sono rappresentate, ad esempio, da quelle descritte nel saggio di B. Zhao et al.: “Image Segmentation with Topic Random Field†, ECCV 2010, qui allegato nella sua interezza a titolo di riferimento.
Le aree di quadro in uscita dal blocco Segmentazione spaziale vengono classificate in un certo numero di blocchi paralleli di Classificazione aree quadro.
Ad esempio, un blocco Classificazione aree quadro può essere ottimizzato per classificare se un’area di quadro contiene o meno un volto o un logo o un elemento grafico testuale. I classificatori individuali si basano tipicamente su matematica poco complessa, come le macchine a vettori di supporto o le reti neurali feed-forward multistrato, i cui modelli di classificazione sono molto compatti e richiedono poca memoria.
I classificatori individuali includono anche moduli di estrazione di caratteristiche specifici per l’attività da essi svolta, cosicché per eseguire il calcolo delle caratteristiche à ̈ necessario che all’ingresso di ogni classificatore siano disponibili i dati delle aree di quadro con la relativa localizzazione spaziale.
E’ anche possibile considerare l’intera immagine come area di quadro predefinita, il che può essere utile per classificatori che sfruttino vicinati di aree di quadro per classificare le aree di quadro, oppure per il caso particolare di blocchi di classificazione di aree di quadro rappresentati da rivelatori.
In caso di utilizzo di rivelatori, ad esempio rivelatori di volti, rivelatori di RST001_IT
testo e di elementi grafici in sovraimpressione o rivelatori di loghi, la segmentazione spaziale à ̈ un risultato collaterale del rilevamento, e comporta una raffinazione della localizzazione delle aree di quadro fornita dal blocco Segmentazione spaziale, che in questi casi opera una pre-elaborazione delle immagini volta a migliorare l’accuratezza e le prestazioni dei rivelatori, i quali possono operare su aree di quadro pre-segmentate anziché sull’intera immagine.
Alcuni esempi di tecniche di rilevamento e classificazione delle aree di quadro in grado di implementare i singoli blocchi di classificazione di aree di quadro di Figura 3 sono descritti nell’articolo “Automatic text detection and tracking in digital video†, di Huiping Li, Doermann, D. e Kia, O, IEEE Trans. On Image Processing, 9:1 pp. 147-156, qui allegato nella sua interezza a titolo di riferimento, o nell’articolo “Logo recognition in video stills by string matching†, Proc. of ICIP 2003, di den Hollander, R.J.M.; Hanjalic, A., qui allegato nella sua interezza a titolo di riferimento.
In ogni caso, il risultato della segmentazione spaziale à ̈ dato da un insieme di aree di quadro, ad esempio identificate da riquadri rettangolari di delimitazione o da caratterizzazioni geometriche più precise, che possono includere descrizioni di contorni di regioni, ad esempio mediante l’utilizzo di coordinate polari di punti chiave del contorno.
Un altro esempio di approccio alla descrizione delle forme à ̈ descritto nel saggio di D. Zhang, G. Lu, “Generic Fourier Descriptor for Shape-based Image Retrieval†, Third CIRP International Seminar on Intelligent Computation in Manufacturing Engineering - ICME 2002, Ischia, Italia, 2002, qui allegato nella sua interezza a titolo di riferimento.
Ulteriori esempi di approcci equivalenti sono descritti nel saggio di D. Zhang, G. Lu, “A Comparative Study of Three Region Shape Descriptors“, Proc. of the Sixth Digital Image Computing - Techniques and Applications (DICTA02), Melbourne, Australia, pp.86-91, 2002, qui allegato nella sua interezza a titolo di riferimento.
Dopo che i singoli blocchi di Classificazione aree quadro hanno classificato aree di quadro seguendo una serie di criteri indipendenti (v. Figura 3), viene eseguita la classificazione generale delle aree di quadro utilizzando un approccio di classificazione di assieme implementato dal blocco Classificatore di assieme. Il blocco Classificatore di assieme opera combinando le uscite di diversi blocchi paralleli di Classificazione aree quadro ottimizzati per rilevare aspetti specifici del contenuto dell’immagine.
Ogni blocco Classificazione aree quadro (o classificatore) può avere uno di due possibili ruoli, positivo o negativo, a seconda che la classificazione abbia o meno un effetto positivo sulla rilevanza semantica dell’area di quadro corrispondente. Ad esempio, se il criterio di classificazione à ̈ basato sulla presenza di volti, il classificatore avrà un ruolo positivo in quanto si presume che i volti abbiano una forte rilevanza semantica nelle immagini. Un classificatore di loghi può invece essere utilizzato come rafforzatore negativo quando si rilevano loghi specifici (ad esempio, loghi di reti televisive) in posizioni periferiche specifiche dell’immagine (ad esempio, in basso a destra).
Indipendentemente dalla natura, dalla complessità e dal numero dei classificatori, l’uscita di ogni classificatore si compone di due contributi: una decisione di classificazione binaria e un numero reale che rappresenta la confidenza di classificazione.
Il ruolo del blocco Classificatore di assieme à ̈ quindi quello di fornire in uscita una stima di probabilità circa la rilevanza di ciascuna delle aree di quadro in ingresso. Ciò viene fatto mediante una combinazione lineare ponderata delle decisioni di classificazione, utilizzando gli score di confidenza di classificazione come pesi. I pesi dei classificatori aventi ruoli negativi devono essere considerati con segno negativo nella somma di assieme. Questo approccio ha il vantaggio di non richiedere memoria per l’esecuzione del calcolo di assieme.
E’ anche possibile utilizzare un approccio alla classificazione di assieme più sofisticato, come quello descritto nel saggio di W. Nick Street e Y. S. Kim " A Streaming Ensemble Algorithm (SEA) for Large-Scale Classification", KDD 01, qui allegato nella sua interezza a titolo di riferimento.
Utilizzando questo approccio spaziale parallelizzato alla classificazione delle aree di quadro e il classificatore di assieme, ogni singola area di quadro viene quindi associata a una probabilità di essere semanticamente rilevante ai fini del recupero. A questa probabilità à ̈ associata una soglia, in modo tale che il successivo blocco Descrittore geometria delle aree operi soltanto sulle aree di quadro classificate dal blocco Segmentazione spaziale che superano tale soglia.
A differenza della localizzazione delle aree di quadro operata dal blocco Segmentazione spaziale, che mira a identificare regioni dell’immagine con la maggiore precisione possibile per la successiva attività di classificazione, il blocco Descrittore geometria delle aree opera sulle aree di quadro utilizzando una logica più vicina al recupero.
Quindi, per ridurre al minimo la complessità dell’attività di selezione delle caratteristiche, il blocco Descrittore geometria delle aree può utilizzare solamente riquadri rettangolari o ellissi di delimitazione per rappresentare aree dell’immagine da cui selezionare le caratteristiche estratte dalla pipeline di estrazione. In aggiunta, un’attività importante di questo blocco consiste nel fondere le diverse aree di quadro risultanti dal passo di classificazione in aree più grandi, allo scopo di ridurre al minimo il numero di descrizioni di aree di quadro da utilizzare. Ad esempio, se due aree di quadro classificate positivamente sono completamente incluse una nell’altra, il blocco Descrittore geometria delle aree selezionerà soltanto quella più grande per la descrizione in uscita. Quale ulteriore esempio, se due aree di quadro classificate positivamente condividono un confine, il blocco Descrittore geometria della aree emetterà in uscita il risultato dell’operazione di fusione tra le due aree.
L’uscita del blocco Descrittore geometria delle aree à ̈ quindi un insieme di descrizioni geometriche delle aree di quadro classificate dal blocco Selezione caratteristiche come aree da cui selezionare punti chiave. L’insieme di descrizioni geometriche deve essere interpretato dal blocco Selezione caratteristiche come un’unione logica di aree geometriche elementari, come rettangoli ed ellissi. Ogni area elementare può essere descritta in accordo con le rispettive informazioni minime necessarie per rappresentarla geometricamente su un piano. Ad esempio, per un rettangolo saranno le coordinate di due vertici opposti, per un’ellisse i tre coefficienti a, b, c,x0,y0 che ne caratterizzano l’espressione equazionale a(x-x0)^2 b(y-y0)^2 = c. L’uscita complessiva di questo blocco può quindi essere considerata una lista di tuple <t,C>, in cui t à ̈ il tipo di area (ad esempio, “rettangolo†o “ellisse†) e C à ̈ il vettore di coordinate, opportunamente assegnato al tipo.
Preferibilmente, parallelamente alla pipeline basata sull’analisi dei contenuti sopra descritta, l’utente può anche selezionare un’area di proprio interesse. Un ulteriore blocco Selezione aree (criterio esterno) à ̈ previsto a questo scopo, il quale riceve i quadri chiave dal blocco Estrattore di quadri chiave. Siccome questo criterio (selezione da parte dell’utente) ha sempre un effetto prelazionale sul recupero, le aree selezionate dall’utente sono sempre selezionate per la codifica della geometria delle aree, e vengono quindi alimentate al blocco Descrittore geometria delle aree quali ulteriori aree elementari.
In alternativa à ̈ possibile scartare sempre l’uscita della pipeline di classificazione automatica ogniqualvolta sia presente un input definito dall’utente, in modo da essere ancora più selettivi.
L’uscita del blocco Descrittore geometria delle aree giunge al blocco Selezione caratteristiche (già descritto con riferimento a Fig. 1). Quest’ultimo utilizza le informazioni provenienti dal blocco Descrittore geometria delle aree per filtrare i descrittori estratti che non rientrano nell’unione geometrica delle aree in ingresso.
Una possibile alternativa consiste nel disabilitare il blocco Analizzatore di contenuti o non attivare i classificatori: in questo caso, al blocco Selezione caratteristiche verrà sempre trasferita l’area predefinita corrispondente all’intero quadro.
Nel blocco Selezione caratteristiche possono essere utilizzati diversi schemi di ponderazione, in modo da accrescere o ridurre l’importanza relativa delle aree di quadro identificate dal blocco Segmentazione spaziale e successivamente classificate come di interesse dal blocco Classificatore di assieme tenendo conto di quelle selezionate dall’utente. In un esempio di realizzazione si potrebbe utilizzare l’area di quadro selezionata dall’utente in AND logico pixel-wise con le altre aree di quadro in modo tale che essa sia sempre prelazionale ed esclusiva. Un altro approccio potrebbe operare influenzando i criteri di selezione interna del blocco Selezione caratteristiche mediante una rideterminazione della funzione di densità di probabilità dei punti chiave estratti, utilizzando le probabilità di input delle singole aree di quadro e considerando sempre le aree di quadro selezionate dall’utente con massima probabilità (=1).
Dopo che i quadri chiave sono stati selezionati e temporalmente arricchiti, che le aree di interesse e/o selezionate dall’utente dei quadri chiave sono state comunicate al blocco Selezione caratteristiche, e che quest’ultimo ha operato le proprie scelte interne di selezione, all’uscita della catena (blocco Codifica posizione) viene generato un flusso di descrittori, in modo tale da associare gruppi di descrittori a specifici quadri chiave.
Per applicare funzionalità avanzate di recupero di contenuti video che prendano in considerazione non solo il confronto spaziale di singole immagini, ma anche la correlazione tra tali confronti lungo la timeline del video, à ̈ necessario codificare la posizione temporale dei descrittori.
Ciò avviene nel blocco Codifica temporale (Fig.1), che sfrutta la distanza temporale dei quadri chiave estratti. Le posizioni temporali sono tuttavia rappresentate in modo relativo, così da coprire situazioni in cui i video siano stati editati variando la frequenza di quadro (ad esempio, conversione globale della frequenza di quadro) o eseguendo operazioni grossolane di taglio (eliminazione di riprese).
Un esempio di algoritmo eseguito dal blocco Codifica temporale à ̈ il seguente:
1. Iniziare dal primo quadro chiave K(0) a cui sono associati i descrittori compatti D(0) estratti dal blocco Estrattore di descrittori. Dato che K(0) Ã ̈ il primo quadro chiave, la distanza temporale dal quadro chiave precedente, L(0), Ã ̈ indeterminata.
2. i=0
3. Uscita D(0)
4. Per ogni nuovo quadro chiave K(i) di lunghezza L(i), avente l’insieme di descrittori D(i)
a. IF i>1
i. Calcolare T(i) = L(i)/L(i-1)
ii. Facoltativamente, emettere in uscita L(i) (risincronizzazione lunghezza) secondo un qualche criterio (ad es. un’uscita ogni 10 secondi di materiale elaborato)
iii. Uscita T(i)D(i)
b. ELSE IF i=1
i. Uscita L(1)D(1)
5. END FOR
I vantaggi di questo approccio rispetto alla codifica semplice dei codici temporali dei quadri chiave sono molteplici:
• le distanze temporali originali tra quadri chiave possono essere recuperate dal flusso dopo aver rilevato la prima L(k) applicando in modo sequenziale la formula seguente:
o L(k+1) = L(k) T(k+1)
• Tutti i possibili sottosegmenti del materiale possono essere utilizzati come query indipendenti rispetto allo stesso indice strutturato ad albero dal lato di recupero, e queste query possono essere eseguite in parallelo.
• Le query sono robuste rispetto alla conversione globale della frequenza di quadro.
• Le query sono robuste rispetto all’eliminazione/aggiunta di quadri chiave, purché dal lato server vengano indicizzati tutti i risultati parziali per un certo video nel database, e che tali risultati possano essere recuperati separatamente.
L’uscita del blocco Codifica temporale consiste in descrittori sotto forma di informazioni multiplate sui punti temporali in cui i quadri chiave sono stati estratti e su detti descrittori compatti di quadri chiave.
Questa uscita permette una ricerca di prossimità che tiene in considerazione la ricerca temporale dei descrittori.
Un esempio di uscita del blocco Codifica temporale per 8 quadri chiave con risincronizzazione della lunghezza al sesto quadro chiave à ̈ il seguente:
D(0)L(1)D(1)T(2)D(2)T(3)D(3)T(4)D(4)L(5)T(5)D(5)T(6)D(6)T(7)D(7)
La ricostruzione della sequenza delle distanze temporali dei quadri chiave l(n) = {l(1) … l(7)} avviene come segue:
l(1)=L(1)
l(2)=T(2)L(1)=T(2)l(1)
l(3)=T(3)l(2)=T(3)T(2)l(1)
l(4)=T(4)l(3)=T(4)T(3)T(2)l(1)
l(5)=L(5) (risincronizzazione lunghezza)
l(6)=T(6)l(5)=T(6)l(5)
l(7)=T(7)l(6)=T(7)T(6)l(5)
La presente invenzione può essere vantaggiosamente implementata attraverso un programma informatico comprendente mezzi di codifica atti a realizzare uno o più passi del metodo quando detto programma viene eseguito su un computer. Si comprende quindi come l’ambito di protezione sia esteso a tale programma informatico nonché a mezzi leggibili da computer su cui sia stato registrato un messaggio, detti mezzi leggibili da computer comprendendo mezzi di codifica di programma per la realizzazione di uno o più passi del metodo quando detto programma viene eseguito su un computer.
La presente invenzione consente di ottenere una serie di vantaggi.
La codifica dei descrittori à ̈ in grado di codificare in modo efficiente sequenze video e immagini statiche, sfruttando la ridondanza delle informazioni temporali e ottenendo una raffica più compatta di query.
Il metodo raggiunge prestazioni migliori in termini di precisione e richiamo grazie al fatto che una raffica di descrittori di quadri à ̈ incorporata nel bit-stream.
Il metodo à ̈ in grado di selezionare i descrittori in modo più efficiente grazie al contenuto informativo racchiuso in particolari regioni di interesse rilevate automaticamente.
Il metodo à ̈ in grado di codificare quadri chiave significativi in cui le informazioni sono particolarmente ricche e temporalmente persistenti.
Le numerose alterazioni, modifiche e variazioni possibili e i vari altri impieghi e applicazioni della presente invenzione appariranno chiare agli esperti del ramo alla luce della descrizione e dei disegni allegati che ne illustrano alcune forme di realizzazione preferite. Tutte tali alterazioni, modifiche, variazioni e altri impieghi e applicazioni che non si discostino dallo spirito e dall’ambito dell’invenzione rientrano comunque nella presente invenzione.
Un esempio di assieme di apparato secondo l’invenzione à ̈ dato dal processore applicativo raffigurato in Fig.4. Esso comprende un superinsieme di blocchi da cui à ̈ possibile derivare un processore specializzato per un’applicazione specializzata, come applicazioni mobili, applicazioni di TV digitale, Set Top Box, imaging o altro, mediante la selezione di alcuni di tali blocchi per creare l’apparato finale.
Il processore che comprende (sullo stesso chipset o su un chipset separato) la circuiteria che implementa il metodo per l’estrazione di descrittori secondo l’invenzione à ̈ quello identificato come “Estrazione descrittori 2D/3D†.
Il video in ingresso può provenire da qualsiasi sorgente, come ad esempio uno o più sensori di immagini, videocamere 2D/3D, dispositivi di memorizzazione di filmati o immagini statiche, un decodificatore video, uno stadio di miglioramento della qualità dell’immagine, ecc. Per video 3D può essere necessario un ulteriore blocco Estrazione mappe di profondità, in aggiunta ai blocchi Decodifica video 2D/3D e Codifica video 2D/3D. Altri componenti possono essere una GPU (Graphics Processing Unit, unità di elaborazione grafica) e una o più Host CPU.
Non si descrivono qui ulteriori dettagli di implementazione in quanto l’uomo del ramo sarà certamente in grado di realizzare l’invenzione sulla base degli insegnamenti riportati nella presente descrizione.

Claims (14)

  1. RIVENDICAZIONI 1. Metodo per l’estrazione di descrittori da contenuti video, comprendente i passi seguenti: - un passo di Estrazione di quadri chiave, che applica un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video; - un passo di Analisi di contenuti, che analizza il contenuto di detti quadri chiave e classifica aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori; - un passo di Estrazione di descrittori, che estrae descrittori compatti da detti quadri chiave selezionati e definisce un insieme di immagini circostanti anche sulla base dell’ingresso ricevuto da detto passo di Analisi di contenuti; - un passo di Codifica temporale, che sottopone a multiplazione informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti in detto passo di Estrazione di quadri chiave con detti descrittori compatti estratti in detto passo di Estrazione di descrittori, ottenendo detti descrittori.
  2. 2. Metodo secondo la rivendicazione 1, in cui detto passo di Estrazione di quadri chiave comprende i passi seguenti: - rilevare punti di interesse in dette immagini in ingresso, rappresentati tramite le loro coordinate [x, y], il loro score e l’area di pixel circostante MxN; - impostare e mantenere come target il numero di detti punti di interesse; - raccogliere detto numero di punti di interesse e raggrupparli in superblocchi più ampi di dimensioni RxS, in modo tale che l’intersezione di ogni coppia di superblocchi RxS sia vuota; - associare stringhe binarie all’interno di detti superblocchi a detti punti di interesse; - confrontare dette stringhe binarie all’interno di detti superblocchi, abbattendo quelle al di sotto di una soglia di similarità e conservando come descrittori quelle al di sopra della soglia; - effettuare un confronto inter-quadro tra detti descrittori; - rimuovere i descrittori anomali da detti descrittori conservati, trattandosi di valori anomali rispetto a una serie ordinata e coerente di campi vettoriali di movimento previsto in grado di catturare il movimento naturale fondamentale di un oggetto; - ripetere i passi precedenti per quadri consecutivi, ottenendo una lista di valori connessi di punti di interesse comprendente i relativi descrittori per ciascun quadro e la relativa associazione/corrispondenza con altri punti di interesse e i relativi descrittori appartenenti a un quadro temporalmente successivo; - determinare se un quadro candidato à ̈ un quadro chiave mediante una decisione basata sul confronto tra il numero di punti di interesse comuni nella lista di valori connessi associata al quadro candidato e una o più soglie.
  3. 3. Metodo secondo la rivendicazione 2, in cui detto passo di Analisi di contenuti comprende i passi seguenti: - effettuare una segmentazione spaziale di detti quadri chiave determinati, ottenendo un insieme di aree di quadro identificate da caratterizzazioni geometriche; - classificare le aree di quadro spazialmente segmentate in un numero di passi paralleli di classificazione di aree di quadro; - combinare dette aree di quadro classificate mediante un passo di classificazione di assieme, ottenendo in uscita una stima di probabilità circa la rilevanza di ciascuna delle aree di quadro in ingresso; - associare una soglia a detta probabilità; - descrivere geometricamente dette aree di quadro che superano detta soglia, rappresentando aree di dette aree di quadro come un insieme di descrizioni geometriche da cui selezionare punti chiave.
  4. 4. Metodo secondo la rivendicazione 3, in cui detto passo di Estrazione di descrittori comprende i passi seguenti: - rilevare punti di interesse in detti quadri chiave determinati di quadri consecutivi o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - estrarre descrittori da detti punti di interesse rilevati; - selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati; - confrontare detti descrittori estratti con descrittori estratti selezionati da quadri temporalmente adiacenti al quadro chiave corrente, e selezionare i descrittori più vicini; - sottoporre a quantizzazione vettoriale le differenze relative tra detti descrittori estratti più vicini; - codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
  5. 5. Metodo secondo la rivendicazione 3, in cui detto passo di Estrazione di descrittori comprende i passi seguenti: - rilevare punti di interesse in detti quadri chiave determinati di un quadro o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - estrarre descrittori da detti punti di interesse rilevati; - selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati; - sottoporre a quantizzazione vettoriale le differenze relative tra detti descrittori estratti; - codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
  6. 6. Metodo secondo la rivendicazione 4 o 5, in cui in detto passo di Estrazione di descrittori i punti di interesse rilevati in detti quadri chiave sono gli stessi punti di interesse, o un loro sottoinsieme, ottenuti per detti quadri chiave nel passo di Estrazione di quadri chiave.
  7. 7. Apparato per l’estrazione di descrittori da contenuti video, comprendente: - un Estrattore di quadri chiave, atto ad applicare un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video; - un Analizzatore di contenuti, atto ad analizzare il contenuto di detti quadri chiave e a classificare aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori; - un Estrattore di descrittori, atto ad estrarre descrittori compatti da detti quadri chiave selezionati e a definire un insieme di immagini circostanti anche sulla base dell’ingresso ricevuto da detto Analizzatore di contenuti; - un Codificatore temporale, atto a multiplare informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti dall’Estrattore di quadri chiave con detti descrittori compatti ricevuti da detto Estrattore di descrittori, ottenendo detti descrittori.
  8. 8. Apparato secondo la rivendicazione 7, in cui detto Estrattore di quadri chiave comprende: - un rivelatore di punti di interesse in dette immagini in ingresso, rappresentati dalle loro coordinate [x, y], dal loro score e dell’area di pixel circostante MxN; - un’unità di impostazione, atta a impostare e mantenere come target il numero di detti punti di interesse; - un’unità di raccolta, atta a raccogliere detto numero di punti di interesse e a raggrupparli in superblocchi più ampi di dimensioni RxS, in modo tale che l’intersezione di ciascuna coppia di superblocchi RxS sia vuota; - un’unità di associazione, atta ad associare dette stringhe binarie all’interno di detti superblocchi a detti punti di interesse; - un’unità di confronto, atta a confrontare dette stringhe binarie all’interno di detti superblocchi, abbattendo quelle al di sotto di una soglia di similarità e conservando come descrittori quelle al di sopra della soglia, e ad effettuare un confronto inter-quadro tra detti descrittori conservati; - un’unità di rimozione, atta a rimuovere descrittori anomali da detti descrittori conservati, trattandosi di valori anomali rispetto a una serie ordinata e coerente di campi vettoriali di movimento previsto in grado di catturare il movimento naturale fondamentale di un oggetto; - un’unità di connessione, atta ad ottenere una lista di valori connessi di punti di interesse comprendente i relativi descrittori per ciascun quadro di un numero di quadri consecutivi e la relativa associazione/corrispondenza con altri punti di interesse e i relativi descrittori appartenenti a un quadro temporalmente successivo; - un’unità di decisione, atta a determinare se un quadro candidato à ̈ un quadro chiave mediante una decisione basata sul confronto tra il numero di punti di interesse comuni nella lista di valori connessi associata al quadro candidato e una o più soglie.
  9. 9. Apparato secondo la rivendicazione 8, in cui detto Analizzatore di contenuti comprende: - un’unità di segmentazione, atta ad effettuare una segmentazione spaziale di detti quadri chiave determinati, ottenendo un insieme di aree di quadro identificate da caratterizzazioni geometriche; - un’unità di classificazione, atta a classificare le aree di quadro spazialmente segmentate in un numero di passi paralleli di classificazione di aree di quadro; - un’unità di combinazione, atta a combinare dette aree di quadro classificate mediante un passo di classificazione di assieme, ottenendo in uscita una stima di probabilità circa la rilevanza di ciascuna area di quadro in ingresso; - un’unità di associazione, atta ad associare una soglia a detta probabilità; - un’unità di descrizione, atta a descrivere geometricamente dette aree di quadro che superano detta soglia, rappresentando aree di dette aree di quadro come un insieme di descrizioni geometriche da cui selezionare punti chiave.
  10. 10. Apparato secondo la rivendicazione 9, in cui detto Estrattore di descrittori comprende: - un rivelatore di punti di interesse in detti quadri chiave determinati di quadri consecutivi o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - un’unità di estrazione, atta ad estrarre descrittori da detti punti di interesse rilevati; - un’unità di selezione, atta a selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati, a confrontare detti descrittori estratti con descrittori estratti selezionati da quadri temporalmente adiacenti al quadro chiave corrente, e a selezionare i descrittori più vicini; - un quantizzatore, atto a quantizzare vettorialmente le differenze relative tra detti descrittori estratti più vicini; - un codificatore, atto a codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
  11. 11. Apparato secondo la rivendicazione 10, in cui detto Estrattore di descrittori comprende: - un rivelatore di punti di interesse in detti quadri chiave determinati di un quadro o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - un’unità di estrazione, atta ad estrarre descrittori da detti punti di interesse rilevati; - un’unità di selezione, atta a selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati; - un quantizzatore, atto a quantizzare vettorialmente le differenze relative tra detti descrittori estratti; - un codificatore, atto a codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
  12. 12. Apparato secondo la rivendicazione 10 o 11, in cui in detto Estrattore di descrittori i punti di interesse rilevati in detti quadri chiave sono gli stessi punti di interesse, o un loro sottoinsieme, ottenuti per detti quadri chiave nell’Estrattore di quadri chiave.
  13. 13. Programma informatico comprendente mezzi di codifica di programma informatico atti a realizzare tutti i passi delle rivendicazioni da 1 a 6 quando detto programma viene eseguito su un computer.
  14. 14. Supporto leggibile da computer su cui à ̈ registrato un programma, detto supporto leggibile da computer comprendendo mezzi di codifica di programma informatico atti a realizzare tutti i passi delle rivendicazioni da 1 a 6 quando detto programma viene eseguito su un computer.
IT001210A 2012-07-11 2012-07-11 A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose ITMI20121210A1 (it)

Priority Applications (4)

Application Number Priority Date Filing Date Title
IT001210A ITMI20121210A1 (it) 2012-07-11 2012-07-11 A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose
PCT/EP2013/064729 WO2014009490A1 (en) 2012-07-11 2013-07-11 A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose
US14/414,048 US10127454B2 (en) 2012-07-11 2013-07-11 Method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose
CN201380036591.1A CN104520875B (zh) 2012-07-11 2013-07-11 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT001210A ITMI20121210A1 (it) 2012-07-11 2012-07-11 A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose

Publications (1)

Publication Number Publication Date
ITMI20121210A1 true ITMI20121210A1 (it) 2014-01-12

Family

ID=46800262

Family Applications (1)

Application Number Title Priority Date Filing Date
IT001210A ITMI20121210A1 (it) 2012-07-11 2012-07-11 A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose

Country Status (4)

Country Link
US (1) US10127454B2 (it)
CN (1) CN104520875B (it)
IT (1) ITMI20121210A1 (it)
WO (1) WO2014009490A1 (it)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727237A (zh) * 2018-12-27 2019-05-07 辽宁师范大学 基于均匀特征点混合描述的图像篡改检测方法
CN112070047A (zh) * 2020-09-15 2020-12-11 北京金山云网络技术有限公司 视频处理方法、装置及电子设备

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558396B2 (en) * 2013-10-22 2017-01-31 Samsung Electronics Co., Ltd. Apparatuses and methods for face tracking based on calculated occlusion probabilities
US9465995B2 (en) * 2013-10-23 2016-10-11 Gracenote, Inc. Identifying video content via color-based fingerprint matching
US9875301B2 (en) * 2014-04-30 2018-01-23 Microsoft Technology Licensing, Llc Learning multimedia semantics from large-scale unstructured data
US9785866B2 (en) 2015-01-22 2017-10-10 Microsoft Technology Licensing, Llc Optimizing multi-class multimedia data classification using negative data
US10013637B2 (en) 2015-01-22 2018-07-03 Microsoft Technology Licensing, Llc Optimizing multi-class image classification using patch features
US10198667B2 (en) * 2015-09-02 2019-02-05 Pocketguardian, Llc System and method of detecting offensive content sent or received on a portable electronic device
US9818032B2 (en) * 2015-10-28 2017-11-14 Intel Corporation Automatic video summarization
EP3239896B1 (en) * 2016-04-28 2018-11-28 Joanneum Research Forschungsgesellschaft mbH Data structure for describing an image sequence, and methods for extracting and matching these data structures
CN106095588B (zh) * 2016-06-28 2019-03-15 北京大学深圳研究生院 基于gpgpu平台的cdvs提取过程加速方法
CN106503639A (zh) * 2016-10-15 2017-03-15 成都育芽科技有限公司 基于描述符的视频特征提取方法及装置
EP3559804B1 (en) * 2017-01-19 2024-03-06 Samsung Electronics Co., Ltd. Vision intelligence management for electronic devices
US10318834B2 (en) * 2017-05-01 2019-06-11 Intel Corporation Optimized image feature extraction
CN108267121A (zh) * 2018-01-24 2018-07-10 锥能机器人(上海)有限公司 一种可变场景下多设备的视觉导航方法及系统
CN111819567A (zh) * 2018-03-01 2020-10-23 英特尔公司 使用语义特征来匹配图像的方法和装置
CN108597036B (zh) * 2018-05-03 2022-04-12 三星电子(中国)研发中心 虚拟现实环境危险感知方法及装置
CN109635707A (zh) * 2018-12-06 2019-04-16 安徽海豚新媒体产业发展有限公司 一种基于特征识别的视频镜头提取方法
CN110378215B (zh) * 2019-06-12 2021-11-02 北京大学 基于第一人称视角购物视频的购物分析方法
CN111160286B (zh) * 2019-12-31 2023-02-28 中国电子科技集团公司信息科学研究院 一种视频真伪鉴别方法
US11568326B2 (en) * 2020-01-13 2023-01-31 Microsoft Technology Licensing, Llc Location sensitive ensemble classifier
EP4083850A1 (en) 2021-04-27 2022-11-02 Onfido Ltd Method for detecting fraud in documents
CN114697762B (zh) * 2022-04-07 2023-11-28 脸萌有限公司 一种处理方法、装置、终端设备及介质
CN117809061B (zh) * 2024-01-02 2024-08-23 广州简灿科技有限公司 基于aigc的视频素材匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310731A1 (en) * 2007-06-18 2008-12-18 Zeitera, Llc Methods and Apparatus for Providing a Scalable Identification of Digital Video Sequences
US20090304082A1 (en) * 2006-11-30 2009-12-10 Regunathan Radhakrishnan Extracting features of video & audio signal conten to provide reliable identification of the signals
US20100007797A1 (en) * 2008-07-08 2010-01-14 Zeitera, Llc Digital Video Fingerprinting Based on Resultant Weighted Gradient Orientation Computation
US20100318515A1 (en) * 2009-06-10 2010-12-16 Zeitera, Llc Media Fingerprinting and Identification System
US20110081075A1 (en) * 2009-10-05 2011-04-07 John Adcock Systems and methods for indexing presentation videos

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7773670B1 (en) * 2001-06-05 2010-08-10 At+T Intellectual Property Ii, L.P. Method of content adaptive video encoding
US7813552B2 (en) * 2004-09-23 2010-10-12 Mitsubishi Denki Kabushiki Kaisha Methods of representing and analysing images
CN101420595B (zh) * 2007-10-23 2012-11-21 华为技术有限公司 一种描述和捕获视频对象的方法及设备
CN101198045B (zh) * 2007-12-20 2012-07-25 清华大学 一种流媒体数字水印系统
CN102156686B (zh) * 2011-04-08 2014-08-20 上海交通大学 基于组示多示例学习模型的视频特定包含语义检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090304082A1 (en) * 2006-11-30 2009-12-10 Regunathan Radhakrishnan Extracting features of video & audio signal conten to provide reliable identification of the signals
US20080310731A1 (en) * 2007-06-18 2008-12-18 Zeitera, Llc Methods and Apparatus for Providing a Scalable Identification of Digital Video Sequences
US20100007797A1 (en) * 2008-07-08 2010-01-14 Zeitera, Llc Digital Video Fingerprinting Based on Resultant Weighted Gradient Orientation Computation
US20100318515A1 (en) * 2009-06-10 2010-12-16 Zeitera, Llc Media Fingerprinting and Identification System
US20110081075A1 (en) * 2009-10-05 2011-04-07 John Adcock Systems and methods for indexing presentation videos

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALBERTO MESSINA ET AL: "MPEG-7 AudioVisual Description Profile (AVDP)", 93. MPEG MEETING; 26-7-2010 - 30-7-2010; GENEVA; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11),, no. M17744, 22 July 2010 (2010-07-22), XP030046334 *
JIAN LU: "Video fingerprinting for copy identification: from research to industry applications", PROCEEDINGS OF SPIE, S P I E - INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING, US, vol. 7254, 19 January 2009 (2009-01-19), pages 725402 - 1, XP008127837, ISSN: 0277-786X, [retrieved on 20090204], DOI: 10.1117/12.805709 *
JULIEN LAW-TO ET AL: "Robust voting algorithm based on labels of behavior for video copy detection", PROCEEDINGS OF THE 14TH ANNUAL ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA , MULTIMEDIA '06, 1 January 2006 (2006-01-01), New York, New York, USA, pages 835, XP055066273, ISBN: 978-1-59-593447-5, DOI: 10.1145/1180639.1180826 *
MASANORI SANO ET AL: "Draft text of ISO/IEC 15938-9:2005/FDAM1 Extensions to profiles and levels", 98. MPEG MEETING; 28-11-2011 - 2-12-2011; GENEVA; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11),, no. m22607, 19 November 2011 (2011-11-19), XP030051170 *
RAPHAÃ Â L TRONCY ET AL: "VAMP: a service for validating MPEG-7 descriptions w.r.t. to formal profile definitions", MULTIMEDIA TOOLS AND APPLICATIONS, KLUWER ACADEMIC PUBLISHERS, BO, vol. 46, no. 2-3, 17 October 2009 (2009-10-17), pages 307 - 329, XP019773172, ISSN: 1573-7721 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727237A (zh) * 2018-12-27 2019-05-07 辽宁师范大学 基于均匀特征点混合描述的图像篡改检测方法
CN109727237B (zh) * 2018-12-27 2023-05-23 辽宁师范大学 基于均匀特征点混合描述的图像篡改检测方法
CN112070047A (zh) * 2020-09-15 2020-12-11 北京金山云网络技术有限公司 视频处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN104520875B (zh) 2019-06-07
US20150154456A1 (en) 2015-06-04
CN104520875A (zh) 2015-04-15
WO2014009490A1 (en) 2014-01-16
US10127454B2 (en) 2018-11-13

Similar Documents

Publication Publication Date Title
ITMI20121210A1 (it) A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose
Abbas et al. A comprehensive review of recent advances on deep vision systems
Shi et al. Photo album compression for cloud storage using local features
Saoudi et al. A distributed Content-Based Video Retrieval system for large datasets
Duta et al. Histograms of motion gradients for real-time video classification
Ding et al. Survsurf: human retrieval on large surveillance video data
Castanon et al. Retrieval in long-surveillance videos using user-described motion and object attributes
Peluso et al. Monocular depth perception on microcontrollers for edge applications
Naveen Kumar et al. Detection of shot boundaries and extraction of key frames for video retrieval
Li et al. Detection of blotch and scratch in video based on video decomposition
Lin et al. Multi-motion segmentation via co-attention-induced heterogeneous model fitting
Mohamadzadeh et al. Content based video retrieval based on hdwt and sparse representation
Kim et al. GeoTree: Using spatial information for georeferenced video search
Naveen Kumar et al. High performance algorithm for content-based video retrieval using multiple features
Xu et al. Fast and accurate object detection using image cropping/resizing in multi-view 4K sports videos
Mizher et al. Action key frames extraction using l1-norm and accumulative optical flow for compact video shot summarisation
Bekhet et al. Video Matching Using DC-image and Local
Sharma et al. Performance Analysis of Object Detection Algorithms on YouTube Video Object Dataset.
Kong SIFT Feature‐Based Video Camera Boundary Detection Algorithm
Garcia et al. Asymmetric spatio-temporal embeddings for large-scale image-to-video retrieval
Hu et al. MmFilter: Language-guided video analytics at the edge
Uchida et al. KDDI LABS at TRECVID 2011: Content-Based Copy Detection.
Jamil et al. Local statistical features for multilingual artificial text detection from video images
JP5713398B2 (ja) 画像照合装置、画像照合方法及びコンピュータプログラム
Zhong et al. TVM: A Tile-based Video Management Framework