ITMI20121210A1

ITMI20121210A1 - A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose

Info

Publication number: ITMI20121210A1
Application number: IT001210A
Authority: IT
Inventors: Alberto Messina; Danilo Pau
Original assignee: Rai Radiotelevisione Italiana; St Microelectronics Srl
Priority date: 2012-07-11
Filing date: 2012-07-11
Publication date: 2014-01-12
Also published as: CN104520875B; US20150154456A1; CN104520875A; WO2014009490A1; US10127454B2

Description

METODO E APPARATO PER Lâ€™ESTRAZIONE DI DESCRITTORI DA CONTENUTI VIDEO, PREFERIBILMENTE PER SCOPI DI RICERCA E RECUPERO

DESCRIZIONE

Campo dellâ€™invenzione

La presente invenzione riguarda un metodo e un apparato per lâ€™estrazione di descrittori da contenuti video, preferibilmente per scopi di ricerca e recupero.

Descrizione dellâ€™arte nota

La crescente quantitÃ di contenuti video digitali prodotti e fruiti quotidianamente e lâ€™esigenza di cercare oggetti, luoghi e persone facenti parte del contenuto rendono sempre piÃ¹ importante il problema di estrarre descrittori compatti da segnali video allo scopo di utilizzare tali descrittori in applicazioni di ricerca e recupero di contenuti video.

Il saggio di Miroslaw Bober et al. â€œTest Model 2: Compact Descriptors for Visual Search, Video Subgroupâ€ , Maggio 2012, Ginevra, CH, ISO/IEC JTC1/SC29/WG11/W12734, qui allegato nella sua interezza a titolo di riferimento, descrive un modello di MPEG Compact Descriptors for Visual Search (CDVS) che prevede, in particolare, lâ€™impiego di un modulo di estrazione (Figura 3) atto a produrre un descrittore compatto composto da due elementi principali, ossia un numero selezionato di descrittori locali compressi e un singolo descrittore globale, rappresentanti lâ€™intera immagine.

Questo modello noto presenta unâ€™inefficienza potenzialmente seria in fase di elaborazione di un video, e tale inefficienza cresce allâ€™aumentare della ridondanza temporale (staticitÃ ) del video, in quanto la ridondanza temporale del video non Ã ̈ tenuta in considerazione. In una singola ripresa visiva i quadri adiacenti sono molto simili lâ€™uno allâ€™altro: questa caratteristica dovrebbe essere presa in considerazione in modo da limitare la quantitÃ di informazioni in ingresso da elaborare.

Inoltre questo modello noto prevede lâ€™uso di un blocco di selezione di punti chiave che impiega una combinazione di caratteristiche statistiche, tra cui la distanza dei punti chiave dal centro dellâ€™immagine, per pesare, e quindi classificare in vista della selezione, i punti chiave prima di trasferirli a un blocco di quantizzazione vettoriale.

Sebbene questo approccio presenti vari benefici, tra cui lâ€™adattivitÃ nativa alla natura statistica dei dati in ingresso senza necessitÃ di alcun tipo di conoscenza a priori, esso Ã ̈ tuttavia intrinsecamente privo di alcune caratteristiche naturali del contenuto video che sarebbero invece importanti per predire aree di interesse in immagini video da un punto di vista semantico (ad esempio, la posizione di volti). Tali caratteristiche naturali mancanti del contenuto video includono:

â€¢ Le grammatiche di produzione fotografica, e per estensione le loro controparti video, utilizzano spesso costrutti linguistici piÃ¹ complessi della ovvia nozione che associa maggiore importanza alle regioni centrali dellâ€™immagine;

â€¢ Il dinamismo dei contenuti video, imposto dagli autori dei contenuti stessi, Ã ̈ altamente variabile a seconda del genere, delle intenzioni e del pubblico di riferimento, cosicchÃ© i â€œcentriâ€ di attenzione sono determinati da registi che sfruttano lâ€™intera gamma di opzioni disponibile. Inoltre tali centri di attenzione possono variare lungo la timeline del contenuto stesso, a seconda del contenuto specifico ripreso (persone, natura) o delle condizioni di ripresa (campi larghi, primi piani).

â€¢ Per sua stessa natura, un video puÃ² essere trasformato mediante lâ€™applicazione di vari passi di elaborazione: ritaglio dinamico di immagini (regione di interesse), â€œmotion warpingâ€ , scrematura e sommarizzazione, sovrapposizione di elementi grafici. La ragione fondamentale dellâ€™applicazione di tali trasformazioni si basa sullâ€™esigenza di adattare il contenuto video alle varie condizioni di distribuzione o pubblicazione, in modo tale che i risultati di tali trasformazioni, sebbene fisicamente differenti, possano essere considerati equivalenti tra loro dal punto di vista editoriale e semantico, ossia per quanto concerne oggetti, persone e luoghi che concorrono a realizzare la â€œstoriaâ€ dietro al video.

Un altro saggio di Duy-Nguyen Ta et al. â€œSURFTrac: Efficient Tracking and Continuous Object Recognition using Local Feature Descriptorsâ€ , IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), Giugno 2009, qui allegato nella sua interezza a titolo di riferimento, descrive un algoritmo (SURFTrac) per lâ€™estrazione di descrittori da una serie di immagini video digitali. Per la prima immagine lâ€™algoritmo inizializza una lista di punti di interesse effettuando una rilevazione completa. I punti di interesse vengono quindi aggiornati e tracciati al ricevimento di nuove immagini. I descrittori sono utilizzati per scopi di riconoscimento, e lâ€™algoritmo li calcola secondo necessitÃ .

PiÃ¹ in particolare, questo algoritmo dapprima crea una mappa di caratteristiche SURF estratte da un insieme di immagini di quadri chiave catturate dallâ€™ambiente circostante. Dopo aver estratto e confrontato le caratteristiche SURF del primo quadro video con questa mappa, lâ€™algoritmo traccia localmente tali caratteristiche nei quadri successivi. Il quadro chiave avente la maggiore area di sovrapposizione con il quadro video corrente Ã ̈ denominato nodo chiave. Le aree di sovrapposizione dei quadri chiave vicini vengono aggiornate in ogni quadro sulla base delle relative omografie interquadro, e il nodo chiave viene quindi continuamente commutato sullâ€™immagine piÃ¹ simile nel database, consentendo una tracciatura e unâ€™esplorazione costante di nuove regioni nelle sequenze video.

Durante lâ€™inizializzazione esso calcola anche tutti i descrittori delle caratteristiche SURF dalla prima immagine video e li confronta con le immagini.

Questo metodo realizza un albero NNT (Nearest Neighbor Tree) approssimativo per tutte le caratteristiche dellâ€™immagine nel database, seguito da una verifica geometrica (algoritmo RANSAC "RANdom SAmple Consensus", che sarÃ citato anche in seguito). Dopo aver identificato con successo le immagini corrispondenti, lâ€™immagine migliore viene marcata come nodo chiave corrente, e lâ€™insieme di immagini preso in considerazione viene ridotto solamente a quelle immagini che sono collegate da un percorso nel database. Il database di immagini Ã ̈ organizzato come segue: V Ã ̈ una raccolta di immagini; G Ã ̈ un grafico non orientato in cui immagini formano i nodi nel grafico e i bordi descrivono le relazioni tra le immagini. Un bordo tra due immagini indica una relazione geometrica quando tali due immagini possono essere messe in relazione mediante un normale confronto a coppie. Ogni immagine Ã ̈ ulteriormente identificata con uno o piÃ¹ identificativi, e due immagini che condividono lo stesso identificativo sono anche collegate da un bordo aggiuntivo. Questa organizzazione Ã ̈ simile a un grafico di immagini costruito per scopi di navigazione gerarchica. Un esempio di grafico di immagini Ã ̈ mostrato nella Figura 1(b) del documento citato.

Dopo aver identificato unâ€™immagine di nodo chiave e il relativo ID di oggetto, lâ€™algoritmo puÃ² continuamente confrontare e aggiornare il nodo chiave ad un costo relativamente basso, in quanto si puÃ² essere ragionevolmente sicuri che tutti gli oggetti potenzialmente rilevanti siano inclusi nel sottografico del database corrente.

Questo metodo si basa quindi su una sorta di confronto tra oggetti, il quale non Ã ̈ efficiente perchÃ© non Ã ̈ in grado di trovare quadri chiave, ma un numero incrementale di punti di interesse, e non Ã ̈ in grado di tracciare un numero decrementale di punti a partire dal primo quadro perchÃ© non utilizza la potenza degli strumenti di confronto dei descrittori, essendo basato su considerazioni probabilistiche che non assicurano prestazioni ottimali in termini di precisione e utilizzando un database creato off-line che occupa memoria e richiede notevoli risorse computazionali per lâ€™esecuzione di una ricerca al suo interno.

Dalla suddetta analisi della tecnica nota Ã ̈ possibile concludere che lâ€™attuale stato dellâ€™arte dei metodi di ricerca di contenuti visivi per immagini appare deficitario di importanti requisiti di ricerca visiva nel dominio video, come ad esempio la riduzione della ridondanza temporale nella sequenza video, la predizione di aree di interesse in immagini video dal punto di vista semantico (ad esempio, posizione di volti), analisi completa dei contenuti, ecc.

Breve descrizione dellâ€™invenzione

Lo scopo principale della presente invenzione consiste quindi nellâ€™indicare un metodo e un apparato per lâ€™estrazione di descrittori da contenuti video, preferibilmente per scopi di ricerca e recupero, i quali risolvono i suddetti problemi/svantaggi.

Lâ€™idea alla base della presente invenzione consiste nellâ€™indicare un metodo e un apparato per lâ€™estrazione di descrittori da contenuti video, i quali comprendono i seguenti componenti principali:

- un blocco Estrattore di quadri chiave, che utilizza un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video;

- un blocco Analizzatore di contenuti, che analizza il contenuto di detti quadri chiave e classifica aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori compatti;

- un blocco Estrattore di descrittori, che estrae descrittori compatti da detti quadri chiave selezionati e definisce un insieme di immagini circostanti anche sulla base dellâ€™ingresso ricevuto da detto blocco Analizzatore di contenuti;

- un blocco Codifica temporale, che sottopone a multiplazione informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti dallâ€™Estrattore di quadri chiave con detti descrittori compatti ricevuti da detto blocco Estrattore di descrittori, ottenendo detti descrittori.

Questi e altri scopi sono raggiunti per mezzo di un apparato e un metodo per lâ€™estrazione di descrittori da contenuti video descritti nelle rivendicazioni allegate, le quali sono da intendersi parte integrante della presente descrizione.

Breve descrizione dei disegni

Lâ€™invenzione apparirÃ chiara dalla descrizione dettagliata che segue, fornita a puro titolo esemplificativo e non limitativo, con riferimento ai disegni allegati, in cui:

- La Figura 1 mostra uno schema a blocchi dei componenti principali del metodo e dellâ€™apparato secondo lâ€™invenzione;

- La Figura 2 mostra uno schema a blocchi dei componenti principali del blocco Estrattore di quadri chiave di Fig.1;

- La Figura 3 mostra uno schema a blocchi dei componenti principali del blocco Analizzatore di contenuti di Fig.1;

- La Figura 4 mostra uno schema a blocchi che racchiude un superinsieme di blocchi da cui derivare un circuito specifico per una determinata applicazione realizzando il metodo dellâ€™invenzione mediante la selezione di un sottoinsieme di tali blocchi;

- La Figura 5 mostra alcuni esempi di un flusso video acquisito da un sensore di immagini o da un apparato ricevitore/decodificatore, nonchÃ© la definizione del video in termini di sequenza di quadri, ciascuno dei quali si compone ulteriormente di quattro matrici, tre per le componenti di colore e una per la profonditÃ (utilizzate per video 3D).

Descrizione dettagliata delle forme di realizzazione preferite

La Figura 1 illustra una panoramica dei componenti principali del sistema. Ciascun componente sarÃ ulteriormente descritto nel seguito. Il sistema nel suo complesso puÃ² essere visto come una macchina che elabora un video in ingresso e produce un flusso di descrittori.

Nellâ€™ambito della presente invenzione, il significato del termine â€œvideoâ€ Ã ̈ esteso a immagini statiche, flussi video 2D e flussi video 3D. Questi ultimi si intendono come video 2D piÃ¹ profonditÃ per ogni immagine. A titolo di esempio, una matrice aggiuntiva dello stesso formato dellâ€™immagine contiene informazioni di profonditÃ per ogni pixel, come mostrato in Fig. 5. Tre matrici contengono informazioni sui pixel video delle componenti â€œYâ€ , â€œUâ€ e â€œVâ€ per ogni quadro temporale.

Secondo un aspetto fondamentale della presente invenzione, un metodo per lâ€™estrazione di descrittori da contenuti video comprende i seguenti passi principali:

- un passo di Estrazione di quadri chiave, che applica un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video;

- un passo di Analisi di contenuti, che analizza il contenuto di detti quadri chiave e classifica aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori;

- un passo di Estrazione di descrittori, che estrae descrittori compatti da detti quadri chiave selezionati e definisce un insieme di immagini circostanti anche sulla base dellâ€™ingresso ricevuto da detto passo di Analisi di contenuti;

- un passo di Codifica temporale, che sottopone a multiplazione informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti dallâ€™Estrattore di quadri chiave con detti descrittori compatti ricevuti da detto passo di Estrazione di descrittori, ottenendo detti descrittori.

La Figura 2 mostra uno schema a blocchi dei componenti principali dellâ€™Estrattore di quadri chiave di Fig.1.

Lâ€™Estrattore di quadri chiave riceve in ingresso una sequenza video con una determinata frequenza di quadro e una determinata risoluzione, composta da un certo numero di quadri temporalmente distanti tra loro dellâ€™inverso della frequenza di quadro. In uscita esso indica un quadro come â€œquadro chiaveâ€ quando esso soddisfa alcune condizioni, che dipendono dallâ€™analisi eseguita su di esso dai blocchi del componente.

Il blocco Acquisizione quadri acquisisce immagini in ingresso con determinati valori di frequenza di quadro, risoluzione, rapporto dâ€™aspetto e profonditÃ di bit. Nel seguito della presente descrizione si ipotizzerÃ che le componenti di luminanza siano estratte e inoltrate ai successivi blocchi di elaborazione. Gli stessi passi algoritmici possono tuttavia essere applicati a qualsiasi canale di componente dellâ€™immagine o a qualsiasi combinazione lineare di questi.

Il blocco Rivelatore punti di interesse elabora le immagini ricevute dal blocco Acquisizione quadri e individua alcuni punti distintivi. Alcuni esempi di algoritmi applicabili allo scopo di rilevare tali punti distintivi sono descritti nel saggio di Agrawal et al.: â€œCensure: Center Surround Extremas for Realtime Feature Detection and Matchingâ€ , in European Conference on Computer Vision. (2008), (in particolare ai paragrafi 2.1, 2.2, 2.3), qui allegato nella sua interezza a titolo di riferimento. Gli algoritmi descritti sono i Center-Surround Feature Detectors (CenSurE) e una versione modificata del descrittore Upright SURF (MU-SURF).

Un altro esempio Ã ̈ descritto in Rosten et al.:â€ Machine Learning for High-Speed Corner Detectionâ€ , in European Conference on Computer Vision. (2006), (in particolare ai paragrafi 2.1, 2.7), qui allegato nella sua interezza a titolo di riferimento.

Inoltre, per video 3D, un esempio di algoritmo che puÃ² essere applicato per rilevare tali punti distintivi Ã ̈ descritto nel saggio â€œPerformance Evaluation of 3D Keypoint Detectorsâ€ di Federico Tombari et al., International Journal of Computer Vision, manoscritto No. IIjCV2011, qui allegato nella sua interezza a titolo di riferimento.

I punti di interesse, rappresentati dalle loro coordinate [x, y], dal loro score e dallâ€™area di pixel circostante MxN, vengono poi inviati al blocco successivo Campionatore uniforme.

Il blocco Controllore target imposta e mantiene come target il numero di punti di interesse calcolati dal Rivelatore di punti di interesse. A titolo di esempio non limitativo, esso puÃ² iterare lo stesso algoritmo piÃ¹ volte, in numero minore o uguale a un certo tetto massimo, modificando le soglie del rivelatore fino allâ€™ottenimento del target o di un valore inferiore mediante lâ€™applicazione di una formula di predizione target lineare come quella sotto riportata quale esempio non limitativo:

<point sDetected âˆ’ pointsT arg et>Th_new=Th_oldâ‹…(coeff1+coeff2â‹… )

pointT arg et

in cui nellâ€™iterazione/esecuzione corrente la soglia calcolata durante lâ€™iterazione/esecuzione precedente Ã ̈ moltiplicata per un valore che dipende da due costanti e dalla deviazione dallâ€™insieme target rispetto ai punti rilevati ottenuti come risultato dellâ€™iterazione/esecuzione precedente.

Quindi il blocco Campionatore uniforme raccoglie il numero di punti rilevati dal Rivelatore di punti di interesse (comprese le coordinate, gli score e le aree di quadro) e li raggruppa in superblocchi piÃ¹ ampi di dimensioni RxS, in modo tale che lâ€™intersezione di ogni coppia di superblocchi RxS sia vuota (ossia essi non si sovrappongano). Quale ulteriore funzionalitÃ di questo blocco, alcuni dei punti di interesse rilevati che sono troppo vicini tra loro e/o che hanno uno score troppo basso possono essere scartati.

I punti non scartati sono poi inviati dal blocco Campionatore uniforme al blocco Descrittore binario, il quale in una possibile forma di realizzazione implementa un algoritmo come quello indicato nel saggio di Calonder M. et al.: â€œBRIEF: Binary robust independent elementary featuresâ€ , in Proc. of European Conference on Computer Vision (ECCV), Creta, Grecia, 2010, (in particolare ai paragrafi 3.1, 3.2), qui allegato nella sua interezza a titolo di riferimento. Questo algoritmo utilizza stringhe binarie per creare un efficiente descrittore di punti di caratteristiche, il quale descrittore si affida a un numero relativamente modesto di test di differenza di intensitÃ per rappresentare unâ€™area di quadro sotto forma di una stringa binaria di K-bit. La similaritÃ tra i descrittori puÃ² essere valutata utilizzando la distanza di Hamming tra queste stringhe.

Un altro esempio di algoritmo Ã ̈ descritto nel saggio di R. Zabih et al.: â€œNon-parametric local transforms for computing visual correspondenceâ€ , in ECCV â€™94, pagine 151â€“158, 1994 (in particolare al paragrafo 3), qui allegato nella sua interezza a titolo di riferimento.

Lâ€™uscita del blocco Descrittore binario Ã ̈ una firma binaria di K-bit associata a ciascun punto di interesse, la quale viene inviata al blocco Abbattimento descrittori ridondanti.

Il blocco Abbattimento descrittori ridondanti misura la similaritÃ dei descrittori binari a K-bit entro ogni superblocco RxS, ad esempio utilizzando tecniche ben note come la distanza di Hamming (http://en.wikipedia.org/wiki/Hamming_distance) o lâ€™indice di Jaccard (http://en.wikipedia.org/wiki/Jaccard_index).

Il blocco Abbattimento descrittori ridondanti abbatte i descrittori binari al di sotto di una certa soglia, con il vincolo di mantenere una distribuzione spaziale uniforme nel superblocco. I descrittori binari generati dal blocco Descrittore binario che sopravvivono vengono immagazzinati nel Buffer di descrittori di quadri per consentire il confronto inter-quadro dei descrittori, eseguito dal blocco Confronto descrittori. Questo confronto viene anche in questo caso eseguito utilizzando la distanza di Hamming o lâ€™indice di Jaccard per accoppiare i punti di interesse di due quadri temporalmente consecutivi.

Alcuni dei descrittori confrontati e accoppiati con i punti chiave ad essi associati potrebbero ancora non essere corretti, trattandosi di valori anomali rispetto a una serie ordinata e coerente di campi vettoriali di movimento previsto in grado di catturare il movimento naturale fondamentale di un oggetto. I vettori di movimento anomali vengono quindi rimossi dal blocco Rimozione valori anomali, il quale implementa semplici tecniche di post-elaborazione, come il filtraggio mediano di componenti di vettori di movimento, oppure tecniche piÃ¹ sofisticate, come la tecnica RANSAC descritta nel saggio di Martin A., et al.: "Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography", Comm. of the ACM24 (6): 381â€“ 395, Giugno 1981, (in particolare alla sezione IV a), qui allegato nella sua interezza a titolo di riferimento (v. anche http://en.wikipedia.org/wiki/RANSAC).

A questo punto dellâ€™elaborazione si Ã ̈ ottenuto un flusso di coppie di descrittori e di punti di interesse ad essi associati tra quadri consecutivi. Questo processo viene ripetuto per le altre coppie di quadri in ordine temporale e per gli altri punti, etichettati con identificativi univoci, accoppiati tra quadri e tracciati nel tempo, ottenendo cosÃ¬ una lista di punti di interesse comprendente i relativi descrittori per ciascun quadro e la relativa associazione/corrispondenza con altri punti di interesse e i relativi descrittori, appartenenti a un quadro temporalmente successivo e memorizzati nel blocco Lista di valori connessi.

Se il numero di punti correttamente tracciati appartenenti al quadro corrente Ã ̈ inferiore a un certo numero impostato come soglia (che puÃ² essere modificato per ciascun quadro o gruppo di quadri in funzione della ricchezza della informazioni e dei contenuti rappresentati allâ€™interno dei quadri), il quadro corrente interrompe la regolaritÃ dellâ€™intero processo (come mostrato in Fig.2) e viene utilizzato per reinizializzarlo. Quando ciÃ² accade, qualsiasi combinazione dei quadri precedenti contenenti un numero maggiore di punti tracciati puÃ² essere etichettata come quadro chiave e inviata in uscita al blocco Decisione su quadri chiave per ulteriori elaborazioni.

Con riferimento nuovamente alla Fig. 1, di seguito si descriverÃ un esempio di realizzazione del blocco Estrattore di descrittori utilizzabile allorquando sia necessario codificare un certo numero di quadri o una raffica di quadri.

Una volta che i quadri chiave sono stati generati dal blocco Estrattore di quadri chiave, viene effettuata lâ€™estrazione di caratteristiche di una raffica di quadri prima del quadro chiave e dopo il quadro chiave allo scopo di generare piÃ¹ query e rendere piÃ¹ robusto il processo di recupero dal lato server.

Da quadri chiave selezionati ricevuti dal blocco Estrattore di quadri chiave vengono nuovamente rilevati punti di interesse ad opera di un blocco Rivelatore di punti di interesse, ad esempio utilizzando gli stessi metodi indicati nel succitato documento ISO/IEC JTC1/SC29/WG11/W12734 (sezione 2, estrazione di descrittori compatti), allo scopo di aumentare la tolleranza a variazioni di punto di vista, illuminazione e scala.

Un altro possibile metodo Ã ̈ descritto in â€œDistinctive Image Features from Scale-Invariant Keypointsâ€ , David G. Lowe, capitoli 3,4,5, 5 gennaio 2004, qui allegato nella sua interezza a titolo di riferimento.

Il blocco Rivelatore di punti di interesse nel blocco Estrattore di descrittori puÃ² evitare la determinazione di nuovi punti di interesse nei quadri chiave, e puÃ² selezionare gli stessi punti di interesse, o un loro sottoinsieme, giÃ ottenuti per tali quadri chiave nel blocco Estrattore di quadri chiave.

I descrittori sono quindi estratti dal blocco Descrittore, selezionati dal blocco Selettore caratteristiche, e poi quantizzati vettorialmente e dequantizzati (dai blocchi Quantizzatore descrittori e coordinate e Quantizzatore inverso descrittori e coordinate) utilizzando, ad esempio, il metodo descritto nel succitato documento ISO/IEC JTC1/SC29/WG11/W12734, sezione 2.1 (selezione di punti chiave), sezione 2.2 (codifica TSPCVQ) e sezione 2.3 (codifica di coordinate).

Alcuni esempi di metodi per lâ€™estrazione di descrittori relativi a video 3D sono descritti in â€œUnique Signatures of Histograms for Local Surface Descriptionâ€ di Federico Tombari et al., ECCV 2010, qui allegato nella sua interezza a titolo di riferimento, e in â€œA COMBINED TEXTURE-SHAPE DESCRIPTOR FOR ENHANCED 3D FEATURE MATCHINGâ€ di Federico Tombari et al., ICIP2011, qui allegato nella sua interezza a titolo di riferimento.

I descrittori estratti da qualsiasi quadro chiave corrente sono immagazzinati in un Buffer di descrittori e quindi confrontati con i descrittori appartenenti a quadri chiave temporalmente adiacenti. Il confronto tra descrittori puÃ² essere realizzato utilizzando il noto approccio 1-NN basato sulla metrica euclidea.

Dopo che Ã ̈ stato selezionato il descrittore piÃ¹ vicino, viene quantizzata vettorialmente soltanto la differenza tra di essi. Ogni descrittore quantizzato vettorialmente avrÃ associate le relative coordinate x,y, che saranno sottoposte a codifica di coordinate come indicato nel succitato documento ISO/IEC JTC1/SC29/WG11/W12734.

Lâ€™uscita dellâ€™Estrattore di descrittori Ã ̈ lâ€™uscita del blocco Quantizzatore descrittori e coordinate, che fornisce descrittori compatti di quadri chiave. Lâ€™uscita viene poi trasferita al blocco Codifica temporale.

Con riferimento alla Fig. 1bis, si descriverÃ ora una variante realizzativa del blocco Estrattore di descrittori, applicabile al caso in cui occorra codificare un solo quadro chiave.

In questo caso, la procedura di estrazione dei descrittori Ã ̈ applicata solamente a un quadro chiave, senza bisogno di ricevere feedback della quantizzazione inversa di descrittori e coordinate e di operare la memorizzazione nel buffer e il confronto delle caratteristiche. Quindi in questo caso si utilizzeranno soltanto i blocchi Rivelatore di punti di interesse, Descrittore, Selettore caratteristiche e Quantizzatore descrittori e coordinate.

Con riferimento alla Fig. 3, verrÃ ora descritto un esempio di realizzazione del blocco Analizzatore di contenuti.

Un passo aggiuntivo del metodo secondo lâ€™invenzione consiste nellâ€™analizzare il contenuto dei quadri chiave allo scopo di ottimizzare il modo in cui avviene la selezione dei punti chiave. Questa ottimizzazione Ã ̈ necessaria per concentrare il contenuto della query (ossia i descrittori) in aree dellâ€™immagine che siano semanticamente rilevanti per lâ€™utente, scartando invece aree meno o per niente informative.

Lâ€™analisi dei contenuti viene eseguita utilizzando un approccio spaziale parallelizzato alla classificazione delle aree di quadro, ossia operando dapprima una segmentazione spaziale su quadri chiave nel blocco Segmentazione spaziale, ad esempio utilizzando un certo numero di possibili approcci alternativi.

Una prima alternativa, che rappresenta lâ€™approccio piÃ¹ semplice, prevede la segmentazione dellâ€™immagine in una griglia fissa di blocchi quadrati aventi dimensioni predefinite (ad esempio, 16x16 pixel). Questo approccio considera ciascun blocco come unâ€™area di quadro indipendente.

Una seconda alternativa, piÃ¹ complessa, si basa sulla prima e prevede la fusione di blocchi della griglia fissa in aree piÃ¹ grandi sulla base di una qualche misurazione della similaritÃ tra i blocchi, ad esempio fondata su descrittori globali come istogrammi di colore, istogrammi dei bordi, colore dominante.

Una terza alternativa prevede la realizzazione della segmentazione rilevando prima i bordi dellâ€™immagine mediante lâ€™applicazione di un qualche filtro bidimensionale (ad esempio, filtro di Sobel, http://en.wikipedia.org/wiki/Sobel_operator) e quindi di isolare le regioni dellâ€™immagine che ricadono allâ€™interno dei grafici dei bordi.

Ulteriori alternative sono rappresentate, ad esempio, da quelle descritte nel saggio di B. Zhao et al.: â€œImage Segmentation with Topic Random Fieldâ€ , ECCV 2010, qui allegato nella sua interezza a titolo di riferimento.

Le aree di quadro in uscita dal blocco Segmentazione spaziale vengono classificate in un certo numero di blocchi paralleli di Classificazione aree quadro.

Ad esempio, un blocco Classificazione aree quadro puÃ² essere ottimizzato per classificare se unâ€™area di quadro contiene o meno un volto o un logo o un elemento grafico testuale. I classificatori individuali si basano tipicamente su matematica poco complessa, come le macchine a vettori di supporto o le reti neurali feed-forward multistrato, i cui modelli di classificazione sono molto compatti e richiedono poca memoria.

I classificatori individuali includono anche moduli di estrazione di caratteristiche specifici per lâ€™attivitÃ da essi svolta, cosicchÃ© per eseguire il calcolo delle caratteristiche Ã ̈ necessario che allâ€™ingresso di ogni classificatore siano disponibili i dati delle aree di quadro con la relativa localizzazione spaziale.

Eâ€™ anche possibile considerare lâ€™intera immagine come area di quadro predefinita, il che puÃ² essere utile per classificatori che sfruttino vicinati di aree di quadro per classificare le aree di quadro, oppure per il caso particolare di blocchi di classificazione di aree di quadro rappresentati da rivelatori.

In caso di utilizzo di rivelatori, ad esempio rivelatori di volti, rivelatori di RST001_IT

testo e di elementi grafici in sovraimpressione o rivelatori di loghi, la segmentazione spaziale Ã ̈ un risultato collaterale del rilevamento, e comporta una raffinazione della localizzazione delle aree di quadro fornita dal blocco Segmentazione spaziale, che in questi casi opera una pre-elaborazione delle immagini volta a migliorare lâ€™accuratezza e le prestazioni dei rivelatori, i quali possono operare su aree di quadro pre-segmentate anzichÃ© sullâ€™intera immagine.

Alcuni esempi di tecniche di rilevamento e classificazione delle aree di quadro in grado di implementare i singoli blocchi di classificazione di aree di quadro di Figura 3 sono descritti nellâ€™articolo â€œAutomatic text detection and tracking in digital videoâ€ , di Huiping Li, Doermann, D. e Kia, O, IEEE Trans. On Image Processing, 9:1 pp. 147-156, qui allegato nella sua interezza a titolo di riferimento, o nellâ€™articolo â€œLogo recognition in video stills by string matchingâ€ , Proc. of ICIP 2003, di den Hollander, R.J.M.; Hanjalic, A., qui allegato nella sua interezza a titolo di riferimento.

In ogni caso, il risultato della segmentazione spaziale Ã ̈ dato da un insieme di aree di quadro, ad esempio identificate da riquadri rettangolari di delimitazione o da caratterizzazioni geometriche piÃ¹ precise, che possono includere descrizioni di contorni di regioni, ad esempio mediante lâ€™utilizzo di coordinate polari di punti chiave del contorno.

Un altro esempio di approccio alla descrizione delle forme Ã ̈ descritto nel saggio di D. Zhang, G. Lu, â€œGeneric Fourier Descriptor for Shape-based Image Retrievalâ€ , Third CIRP International Seminar on Intelligent Computation in Manufacturing Engineering - ICME 2002, Ischia, Italia, 2002, qui allegato nella sua interezza a titolo di riferimento.

Ulteriori esempi di approcci equivalenti sono descritti nel saggio di D. Zhang, G. Lu, â€œA Comparative Study of Three Region Shape Descriptorsâ€œ, Proc. of the Sixth Digital Image Computing - Techniques and Applications (DICTA02), Melbourne, Australia, pp.86-91, 2002, qui allegato nella sua interezza a titolo di riferimento.

Dopo che i singoli blocchi di Classificazione aree quadro hanno classificato aree di quadro seguendo una serie di criteri indipendenti (v. Figura 3), viene eseguita la classificazione generale delle aree di quadro utilizzando un approccio di classificazione di assieme implementato dal blocco Classificatore di assieme. Il blocco Classificatore di assieme opera combinando le uscite di diversi blocchi paralleli di Classificazione aree quadro ottimizzati per rilevare aspetti specifici del contenuto dellâ€™immagine.

Ogni blocco Classificazione aree quadro (o classificatore) puÃ² avere uno di due possibili ruoli, positivo o negativo, a seconda che la classificazione abbia o meno un effetto positivo sulla rilevanza semantica dellâ€™area di quadro corrispondente. Ad esempio, se il criterio di classificazione Ã ̈ basato sulla presenza di volti, il classificatore avrÃ un ruolo positivo in quanto si presume che i volti abbiano una forte rilevanza semantica nelle immagini. Un classificatore di loghi puÃ² invece essere utilizzato come rafforzatore negativo quando si rilevano loghi specifici (ad esempio, loghi di reti televisive) in posizioni periferiche specifiche dellâ€™immagine (ad esempio, in basso a destra).

Indipendentemente dalla natura, dalla complessitÃ e dal numero dei classificatori, lâ€™uscita di ogni classificatore si compone di due contributi: una decisione di classificazione binaria e un numero reale che rappresenta la confidenza di classificazione.

Il ruolo del blocco Classificatore di assieme Ã ̈ quindi quello di fornire in uscita una stima di probabilitÃ circa la rilevanza di ciascuna delle aree di quadro in ingresso. CiÃ² viene fatto mediante una combinazione lineare ponderata delle decisioni di classificazione, utilizzando gli score di confidenza di classificazione come pesi. I pesi dei classificatori aventi ruoli negativi devono essere considerati con segno negativo nella somma di assieme. Questo approccio ha il vantaggio di non richiedere memoria per lâ€™esecuzione del calcolo di assieme.

Eâ€™ anche possibile utilizzare un approccio alla classificazione di assieme piÃ¹ sofisticato, come quello descritto nel saggio di W. Nick Street e Y. S. Kim " A Streaming Ensemble Algorithm (SEA) for Large-Scale Classification", KDD 01, qui allegato nella sua interezza a titolo di riferimento.

Utilizzando questo approccio spaziale parallelizzato alla classificazione delle aree di quadro e il classificatore di assieme, ogni singola area di quadro viene quindi associata a una probabilitÃ di essere semanticamente rilevante ai fini del recupero. A questa probabilitÃ Ã ̈ associata una soglia, in modo tale che il successivo blocco Descrittore geometria delle aree operi soltanto sulle aree di quadro classificate dal blocco Segmentazione spaziale che superano tale soglia.

A differenza della localizzazione delle aree di quadro operata dal blocco Segmentazione spaziale, che mira a identificare regioni dellâ€™immagine con la maggiore precisione possibile per la successiva attivitÃ di classificazione, il blocco Descrittore geometria delle aree opera sulle aree di quadro utilizzando una logica piÃ¹ vicina al recupero.

Quindi, per ridurre al minimo la complessitÃ dellâ€™attivitÃ di selezione delle caratteristiche, il blocco Descrittore geometria delle aree puÃ² utilizzare solamente riquadri rettangolari o ellissi di delimitazione per rappresentare aree dellâ€™immagine da cui selezionare le caratteristiche estratte dalla pipeline di estrazione. In aggiunta, unâ€™attivitÃ importante di questo blocco consiste nel fondere le diverse aree di quadro risultanti dal passo di classificazione in aree piÃ¹ grandi, allo scopo di ridurre al minimo il numero di descrizioni di aree di quadro da utilizzare. Ad esempio, se due aree di quadro classificate positivamente sono completamente incluse una nellâ€™altra, il blocco Descrittore geometria delle aree selezionerÃ soltanto quella piÃ¹ grande per la descrizione in uscita. Quale ulteriore esempio, se due aree di quadro classificate positivamente condividono un confine, il blocco Descrittore geometria della aree emetterÃ in uscita il risultato dellâ€™operazione di fusione tra le due aree.

Lâ€™uscita del blocco Descrittore geometria delle aree Ã ̈ quindi un insieme di descrizioni geometriche delle aree di quadro classificate dal blocco Selezione caratteristiche come aree da cui selezionare punti chiave. Lâ€™insieme di descrizioni geometriche deve essere interpretato dal blocco Selezione caratteristiche come unâ€™unione logica di aree geometriche elementari, come rettangoli ed ellissi. Ogni area elementare puÃ² essere descritta in accordo con le rispettive informazioni minime necessarie per rappresentarla geometricamente su un piano. Ad esempio, per un rettangolo saranno le coordinate di due vertici opposti, per unâ€™ellisse i tre coefficienti a, b, c,x0,y0 che ne caratterizzano lâ€™espressione equazionale a(x-x0)^2 b(y-y0)^2 = c. Lâ€™uscita complessiva di questo blocco puÃ² quindi essere considerata una lista di tuple <t,C>, in cui t Ã ̈ il tipo di area (ad esempio, â€œrettangoloâ€ o â€œellisseâ€ ) e C Ã ̈ il vettore di coordinate, opportunamente assegnato al tipo.

Preferibilmente, parallelamente alla pipeline basata sullâ€™analisi dei contenuti sopra descritta, lâ€™utente puÃ² anche selezionare unâ€™area di proprio interesse. Un ulteriore blocco Selezione aree (criterio esterno) Ã ̈ previsto a questo scopo, il quale riceve i quadri chiave dal blocco Estrattore di quadri chiave. Siccome questo criterio (selezione da parte dellâ€™utente) ha sempre un effetto prelazionale sul recupero, le aree selezionate dallâ€™utente sono sempre selezionate per la codifica della geometria delle aree, e vengono quindi alimentate al blocco Descrittore geometria delle aree quali ulteriori aree elementari.

In alternativa Ã ̈ possibile scartare sempre lâ€™uscita della pipeline di classificazione automatica ogniqualvolta sia presente un input definito dallâ€™utente, in modo da essere ancora piÃ¹ selettivi.

Lâ€™uscita del blocco Descrittore geometria delle aree giunge al blocco Selezione caratteristiche (giÃ descritto con riferimento a Fig. 1). Questâ€™ultimo utilizza le informazioni provenienti dal blocco Descrittore geometria delle aree per filtrare i descrittori estratti che non rientrano nellâ€™unione geometrica delle aree in ingresso.

Una possibile alternativa consiste nel disabilitare il blocco Analizzatore di contenuti o non attivare i classificatori: in questo caso, al blocco Selezione caratteristiche verrÃ sempre trasferita lâ€™area predefinita corrispondente allâ€™intero quadro.

Nel blocco Selezione caratteristiche possono essere utilizzati diversi schemi di ponderazione, in modo da accrescere o ridurre lâ€™importanza relativa delle aree di quadro identificate dal blocco Segmentazione spaziale e successivamente classificate come di interesse dal blocco Classificatore di assieme tenendo conto di quelle selezionate dallâ€™utente. In un esempio di realizzazione si potrebbe utilizzare lâ€™area di quadro selezionata dallâ€™utente in AND logico pixel-wise con le altre aree di quadro in modo tale che essa sia sempre prelazionale ed esclusiva. Un altro approccio potrebbe operare influenzando i criteri di selezione interna del blocco Selezione caratteristiche mediante una rideterminazione della funzione di densitÃ di probabilitÃ dei punti chiave estratti, utilizzando le probabilitÃ di input delle singole aree di quadro e considerando sempre le aree di quadro selezionate dallâ€™utente con massima probabilitÃ (=1).

Dopo che i quadri chiave sono stati selezionati e temporalmente arricchiti, che le aree di interesse e/o selezionate dallâ€™utente dei quadri chiave sono state comunicate al blocco Selezione caratteristiche, e che questâ€™ultimo ha operato le proprie scelte interne di selezione, allâ€™uscita della catena (blocco Codifica posizione) viene generato un flusso di descrittori, in modo tale da associare gruppi di descrittori a specifici quadri chiave.

Per applicare funzionalitÃ avanzate di recupero di contenuti video che prendano in considerazione non solo il confronto spaziale di singole immagini, ma anche la correlazione tra tali confronti lungo la timeline del video, Ã ̈ necessario codificare la posizione temporale dei descrittori.

CiÃ² avviene nel blocco Codifica temporale (Fig.1), che sfrutta la distanza temporale dei quadri chiave estratti. Le posizioni temporali sono tuttavia rappresentate in modo relativo, cosÃ¬ da coprire situazioni in cui i video siano stati editati variando la frequenza di quadro (ad esempio, conversione globale della frequenza di quadro) o eseguendo operazioni grossolane di taglio (eliminazione di riprese).

Un esempio di algoritmo eseguito dal blocco Codifica temporale Ã ̈ il seguente:

1. Iniziare dal primo quadro chiave K(0) a cui sono associati i descrittori compatti D(0) estratti dal blocco Estrattore di descrittori. Dato che K(0) Ã ̈ il primo quadro chiave, la distanza temporale dal quadro chiave precedente, L(0), Ã ̈ indeterminata.

2. i=0

3. Uscita D(0)

4. Per ogni nuovo quadro chiave K(i) di lunghezza L(i), avente lâ€™insieme di descrittori D(i)

a. IF i>1

i. Calcolare T(i) = L(i)/L(i-1)

ii. Facoltativamente, emettere in uscita L(i) (risincronizzazione lunghezza) secondo un qualche criterio (ad es. unâ€™uscita ogni 10 secondi di materiale elaborato)

iii. Uscita T(i)D(i)

b. ELSE IF i=1

i. Uscita L(1)D(1)

5. END FOR

I vantaggi di questo approccio rispetto alla codifica semplice dei codici temporali dei quadri chiave sono molteplici:

â€¢ le distanze temporali originali tra quadri chiave possono essere recuperate dal flusso dopo aver rilevato la prima L(k) applicando in modo sequenziale la formula seguente:

o L(k+1) = L(k) T(k+1)

â€¢ Tutti i possibili sottosegmenti del materiale possono essere utilizzati come query indipendenti rispetto allo stesso indice strutturato ad albero dal lato di recupero, e queste query possono essere eseguite in parallelo.

â€¢ Le query sono robuste rispetto alla conversione globale della frequenza di quadro.

â€¢ Le query sono robuste rispetto allâ€™eliminazione/aggiunta di quadri chiave, purchÃ© dal lato server vengano indicizzati tutti i risultati parziali per un certo video nel database, e che tali risultati possano essere recuperati separatamente.

Lâ€™uscita del blocco Codifica temporale consiste in descrittori sotto forma di informazioni multiplate sui punti temporali in cui i quadri chiave sono stati estratti e su detti descrittori compatti di quadri chiave.

Questa uscita permette una ricerca di prossimitÃ che tiene in considerazione la ricerca temporale dei descrittori.

Un esempio di uscita del blocco Codifica temporale per 8 quadri chiave con risincronizzazione della lunghezza al sesto quadro chiave Ã ̈ il seguente:

D(0)L(1)D(1)T(2)D(2)T(3)D(3)T(4)D(4)L(5)T(5)D(5)T(6)D(6)T(7)D(7)

La ricostruzione della sequenza delle distanze temporali dei quadri chiave l(n) = {l(1) â€¦ l(7)} avviene come segue:

l(1)=L(1)

l(2)=T(2)L(1)=T(2)l(1)

l(3)=T(3)l(2)=T(3)T(2)l(1)

l(4)=T(4)l(3)=T(4)T(3)T(2)l(1)

l(5)=L(5) (risincronizzazione lunghezza)

l(6)=T(6)l(5)=T(6)l(5)

l(7)=T(7)l(6)=T(7)T(6)l(5)

La presente invenzione puÃ² essere vantaggiosamente implementata attraverso un programma informatico comprendente mezzi di codifica atti a realizzare uno o piÃ¹ passi del metodo quando detto programma viene eseguito su un computer. Si comprende quindi come lâ€™ambito di protezione sia esteso a tale programma informatico nonchÃ© a mezzi leggibili da computer su cui sia stato registrato un messaggio, detti mezzi leggibili da computer comprendendo mezzi di codifica di programma per la realizzazione di uno o piÃ¹ passi del metodo quando detto programma viene eseguito su un computer.

La presente invenzione consente di ottenere una serie di vantaggi.

La codifica dei descrittori Ã ̈ in grado di codificare in modo efficiente sequenze video e immagini statiche, sfruttando la ridondanza delle informazioni temporali e ottenendo una raffica piÃ¹ compatta di query.

Il metodo raggiunge prestazioni migliori in termini di precisione e richiamo grazie al fatto che una raffica di descrittori di quadri Ã ̈ incorporata nel bit-stream.

Il metodo Ã ̈ in grado di selezionare i descrittori in modo piÃ¹ efficiente grazie al contenuto informativo racchiuso in particolari regioni di interesse rilevate automaticamente.

Il metodo Ã ̈ in grado di codificare quadri chiave significativi in cui le informazioni sono particolarmente ricche e temporalmente persistenti.

Le numerose alterazioni, modifiche e variazioni possibili e i vari altri impieghi e applicazioni della presente invenzione appariranno chiare agli esperti del ramo alla luce della descrizione e dei disegni allegati che ne illustrano alcune forme di realizzazione preferite. Tutte tali alterazioni, modifiche, variazioni e altri impieghi e applicazioni che non si discostino dallo spirito e dallâ€™ambito dellâ€™invenzione rientrano comunque nella presente invenzione.

Un esempio di assieme di apparato secondo lâ€™invenzione Ã ̈ dato dal processore applicativo raffigurato in Fig.4. Esso comprende un superinsieme di blocchi da cui Ã ̈ possibile derivare un processore specializzato per unâ€™applicazione specializzata, come applicazioni mobili, applicazioni di TV digitale, Set Top Box, imaging o altro, mediante la selezione di alcuni di tali blocchi per creare lâ€™apparato finale.

Il processore che comprende (sullo stesso chipset o su un chipset separato) la circuiteria che implementa il metodo per lâ€™estrazione di descrittori secondo lâ€™invenzione Ã ̈ quello identificato come â€œEstrazione descrittori 2D/3Dâ€ .

Il video in ingresso puÃ² provenire da qualsiasi sorgente, come ad esempio uno o piÃ¹ sensori di immagini, videocamere 2D/3D, dispositivi di memorizzazione di filmati o immagini statiche, un decodificatore video, uno stadio di miglioramento della qualitÃ dellâ€™immagine, ecc. Per video 3D puÃ² essere necessario un ulteriore blocco Estrazione mappe di profonditÃ , in aggiunta ai blocchi Decodifica video 2D/3D e Codifica video 2D/3D. Altri componenti possono essere una GPU (Graphics Processing Unit, unitÃ di elaborazione grafica) e una o piÃ¹ Host CPU.

Non si descrivono qui ulteriori dettagli di implementazione in quanto lâ€™uomo del ramo sarÃ certamente in grado di realizzare lâ€™invenzione sulla base degli insegnamenti riportati nella presente descrizione.

Claims

RIVENDICAZIONI 1. Metodo per lâ€™estrazione di descrittori da contenuti video, comprendente i passi seguenti: - un passo di Estrazione di quadri chiave, che applica un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video; - un passo di Analisi di contenuti, che analizza il contenuto di detti quadri chiave e classifica aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori; - un passo di Estrazione di descrittori, che estrae descrittori compatti da detti quadri chiave selezionati e definisce un insieme di immagini circostanti anche sulla base dellâ€™ingresso ricevuto da detto passo di Analisi di contenuti; - un passo di Codifica temporale, che sottopone a multiplazione informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti in detto passo di Estrazione di quadri chiave con detti descrittori compatti estratti in detto passo di Estrazione di descrittori, ottenendo detti descrittori.
2. Metodo secondo la rivendicazione 1, in cui detto passo di Estrazione di quadri chiave comprende i passi seguenti: - rilevare punti di interesse in dette immagini in ingresso, rappresentati tramite le loro coordinate [x, y], il loro score e lâ€™area di pixel circostante MxN; - impostare e mantenere come target il numero di detti punti di interesse; - raccogliere detto numero di punti di interesse e raggrupparli in superblocchi piÃ¹ ampi di dimensioni RxS, in modo tale che lâ€™intersezione di ogni coppia di superblocchi RxS sia vuota; - associare stringhe binarie allâ€™interno di detti superblocchi a detti punti di interesse; - confrontare dette stringhe binarie allâ€™interno di detti superblocchi, abbattendo quelle al di sotto di una soglia di similaritÃ e conservando come descrittori quelle al di sopra della soglia; - effettuare un confronto inter-quadro tra detti descrittori; - rimuovere i descrittori anomali da detti descrittori conservati, trattandosi di valori anomali rispetto a una serie ordinata e coerente di campi vettoriali di movimento previsto in grado di catturare il movimento naturale fondamentale di un oggetto; - ripetere i passi precedenti per quadri consecutivi, ottenendo una lista di valori connessi di punti di interesse comprendente i relativi descrittori per ciascun quadro e la relativa associazione/corrispondenza con altri punti di interesse e i relativi descrittori appartenenti a un quadro temporalmente successivo; - determinare se un quadro candidato Ã ̈ un quadro chiave mediante una decisione basata sul confronto tra il numero di punti di interesse comuni nella lista di valori connessi associata al quadro candidato e una o piÃ¹ soglie.
3. Metodo secondo la rivendicazione 2, in cui detto passo di Analisi di contenuti comprende i passi seguenti: - effettuare una segmentazione spaziale di detti quadri chiave determinati, ottenendo un insieme di aree di quadro identificate da caratterizzazioni geometriche; - classificare le aree di quadro spazialmente segmentate in un numero di passi paralleli di classificazione di aree di quadro; - combinare dette aree di quadro classificate mediante un passo di classificazione di assieme, ottenendo in uscita una stima di probabilitÃ circa la rilevanza di ciascuna delle aree di quadro in ingresso; - associare una soglia a detta probabilitÃ ; - descrivere geometricamente dette aree di quadro che superano detta soglia, rappresentando aree di dette aree di quadro come un insieme di descrizioni geometriche da cui selezionare punti chiave.
4. Metodo secondo la rivendicazione 3, in cui detto passo di Estrazione di descrittori comprende i passi seguenti: - rilevare punti di interesse in detti quadri chiave determinati di quadri consecutivi o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - estrarre descrittori da detti punti di interesse rilevati; - selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati; - confrontare detti descrittori estratti con descrittori estratti selezionati da quadri temporalmente adiacenti al quadro chiave corrente, e selezionare i descrittori piÃ¹ vicini; - sottoporre a quantizzazione vettoriale le differenze relative tra detti descrittori estratti piÃ¹ vicini; - codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
5. Metodo secondo la rivendicazione 3, in cui detto passo di Estrazione di descrittori comprende i passi seguenti: - rilevare punti di interesse in detti quadri chiave determinati di un quadro o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - estrarre descrittori da detti punti di interesse rilevati; - selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati; - sottoporre a quantizzazione vettoriale le differenze relative tra detti descrittori estratti; - codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
6. Metodo secondo la rivendicazione 4 o 5, in cui in detto passo di Estrazione di descrittori i punti di interesse rilevati in detti quadri chiave sono gli stessi punti di interesse, o un loro sottoinsieme, ottenuti per detti quadri chiave nel passo di Estrazione di quadri chiave.
7. Apparato per lâ€™estrazione di descrittori da contenuti video, comprendente: - un Estrattore di quadri chiave, atto ad applicare un approccio basato su descrittori locali per selezionare immagini del video in ingresso quali quadri chiave rappresentativi di una regione temporale visivamente omogenea del video; - un Analizzatore di contenuti, atto ad analizzare il contenuto di detti quadri chiave e a classificare aree di quadro di detti quadri chiave come di interesse oppure come non idonee per detta estrazione di descrittori; - un Estrattore di descrittori, atto ad estrarre descrittori compatti da detti quadri chiave selezionati e a definire un insieme di immagini circostanti anche sulla base dellâ€™ingresso ricevuto da detto Analizzatore di contenuti; - un Codificatore temporale, atto a multiplare informazioni circa i punti temporali in cui detti quadri chiave sono stati estratti dallâ€™Estrattore di quadri chiave con detti descrittori compatti ricevuti da detto Estrattore di descrittori, ottenendo detti descrittori.
8. Apparato secondo la rivendicazione 7, in cui detto Estrattore di quadri chiave comprende: - un rivelatore di punti di interesse in dette immagini in ingresso, rappresentati dalle loro coordinate [x, y], dal loro score e dellâ€™area di pixel circostante MxN; - unâ€™unitÃ di impostazione, atta a impostare e mantenere come target il numero di detti punti di interesse; - unâ€™unitÃ di raccolta, atta a raccogliere detto numero di punti di interesse e a raggrupparli in superblocchi piÃ¹ ampi di dimensioni RxS, in modo tale che lâ€™intersezione di ciascuna coppia di superblocchi RxS sia vuota; - unâ€™unitÃ di associazione, atta ad associare dette stringhe binarie allâ€™interno di detti superblocchi a detti punti di interesse; - unâ€™unitÃ di confronto, atta a confrontare dette stringhe binarie allâ€™interno di detti superblocchi, abbattendo quelle al di sotto di una soglia di similaritÃ e conservando come descrittori quelle al di sopra della soglia, e ad effettuare un confronto inter-quadro tra detti descrittori conservati; - unâ€™unitÃ di rimozione, atta a rimuovere descrittori anomali da detti descrittori conservati, trattandosi di valori anomali rispetto a una serie ordinata e coerente di campi vettoriali di movimento previsto in grado di catturare il movimento naturale fondamentale di un oggetto; - unâ€™unitÃ di connessione, atta ad ottenere una lista di valori connessi di punti di interesse comprendente i relativi descrittori per ciascun quadro di un numero di quadri consecutivi e la relativa associazione/corrispondenza con altri punti di interesse e i relativi descrittori appartenenti a un quadro temporalmente successivo; - unâ€™unitÃ di decisione, atta a determinare se un quadro candidato Ã ̈ un quadro chiave mediante una decisione basata sul confronto tra il numero di punti di interesse comuni nella lista di valori connessi associata al quadro candidato e una o piÃ¹ soglie.
9. Apparato secondo la rivendicazione 8, in cui detto Analizzatore di contenuti comprende: - unâ€™unitÃ di segmentazione, atta ad effettuare una segmentazione spaziale di detti quadri chiave determinati, ottenendo un insieme di aree di quadro identificate da caratterizzazioni geometriche; - unâ€™unitÃ di classificazione, atta a classificare le aree di quadro spazialmente segmentate in un numero di passi paralleli di classificazione di aree di quadro; - unâ€™unitÃ di combinazione, atta a combinare dette aree di quadro classificate mediante un passo di classificazione di assieme, ottenendo in uscita una stima di probabilitÃ circa la rilevanza di ciascuna area di quadro in ingresso; - unâ€™unitÃ di associazione, atta ad associare una soglia a detta probabilitÃ ; - unâ€™unitÃ di descrizione, atta a descrivere geometricamente dette aree di quadro che superano detta soglia, rappresentando aree di dette aree di quadro come un insieme di descrizioni geometriche da cui selezionare punti chiave.
10. Apparato secondo la rivendicazione 9, in cui detto Estrattore di descrittori comprende: - un rivelatore di punti di interesse in detti quadri chiave determinati di quadri consecutivi o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - unâ€™unitÃ di estrazione, atta ad estrarre descrittori da detti punti di interesse rilevati; - unâ€™unitÃ di selezione, atta a selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati, a confrontare detti descrittori estratti con descrittori estratti selezionati da quadri temporalmente adiacenti al quadro chiave corrente, e a selezionare i descrittori piÃ¹ vicini; - un quantizzatore, atto a quantizzare vettorialmente le differenze relative tra detti descrittori estratti piÃ¹ vicini; - un codificatore, atto a codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
11. Apparato secondo la rivendicazione 10, in cui detto Estrattore di descrittori comprende: - un rivelatore di punti di interesse in detti quadri chiave determinati di un quadro o in aree di pixel intorno a punti di interesse, come specificato da detta lista di valori connessi; - unâ€™unitÃ di estrazione, atta ad estrarre descrittori da detti punti di interesse rilevati; - unâ€™unitÃ di selezione, atta a selezionare caratteristiche da detti descrittori estratti di detti punti di interesse rilevati; - un quantizzatore, atto a quantizzare vettorialmente le differenze relative tra detti descrittori estratti; - un codificatore, atto a codificare coordinate di detti descrittori quantizzati vettorialmente, ottenendo detti descrittori compatti.
12. Apparato secondo la rivendicazione 10 o 11, in cui in detto Estrattore di descrittori i punti di interesse rilevati in detti quadri chiave sono gli stessi punti di interesse, o un loro sottoinsieme, ottenuti per detti quadri chiave nellâ€™Estrattore di quadri chiave.
13. Programma informatico comprendente mezzi di codifica di programma informatico atti a realizzare tutti i passi delle rivendicazioni da 1 a 6 quando detto programma viene eseguito su un computer.
14. Supporto leggibile da computer su cui Ã ̈ registrato un programma, detto supporto leggibile da computer comprendendo mezzi di codifica di programma informatico atti a realizzare tutti i passi delle rivendicazioni da 1 a 6 quando detto programma viene eseguito su un computer.