EP2245555A1 - Method of identifying a multimedia document in a reference base, corresponding computer program and identification device - Google Patents
Method of identifying a multimedia document in a reference base, corresponding computer program and identification deviceInfo
- Publication number
- EP2245555A1 EP2245555A1 EP09706882A EP09706882A EP2245555A1 EP 2245555 A1 EP2245555 A1 EP 2245555A1 EP 09706882 A EP09706882 A EP 09706882A EP 09706882 A EP09706882 A EP 09706882A EP 2245555 A1 EP2245555 A1 EP 2245555A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- multimedia
- document
- documents
- votes
- multimedia document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Definitions
- a method of identifying a multimedia document in a reference database, computer program, and corresponding identification device is a method of identifying a multimedia document in a reference database, computer program, and corresponding identification device.
- the field of the invention is that of the transmission or exchange of multimedia documents, for example an image, a video, an audio content, a textual content, etc.
- the invention relates to the identification of such multimedia documents, in particular for the detection of copies of a referenced document (for example illegal copies of a protected document).
- ADSL Advanced Driver Assistance Systems
- the historical suppliers such as France Television, TFl, Gaumont, etc. (registered trademarks) as well as other players from the world of telecoms, such as Orange, Neuf, Free, etc. (trademarks), search engines like Google video, Yahoo video, etc. (registered trademarks) or specialized companies such as vodeo.fr, glowria, blinkx, TVEyes, skouk, etc. (trademarks), thus offer online part of their video catalog.
- the multimedia documents offered by these services are protected, and for example subject to the payment of a fee to be able to download them.
- the detection of video copies makes it possible: to identify the contents referenced in a catalog, that is to say referenced in a reference database, in order to detect the illicit copies of the reference contents; Highly copied content (de-doubling) to detect content that generates audience, or to limit storage sizes; - locate an entire program from a short excerpt.
- Such detection must be able to take into account the usual alterations that a multimedia document can undergo in this context: high compression, resampling, reframing, but also text embedding, logos, filmed projections (in English "camcording"), etc. Indeed, a copied multimedia document generally undergoes intentional transformations, in order to make it difficult to detect, as well as unintentional transformations, due to the recording of the document, its transcoding, or even editorial constraints during its republication. .
- the descriptor of a document is a digital vector that represents, by summarizing, the content of the document or part of the document.
- a description based on keyframes is commonly used. This technique consists of selecting from a video-type document a subset of images, called keyframes, and describing these keyframes.
- these keyframes may come from an algorithm adaptively selecting the representative images of the video, or a regular time sub-sampling selecting for example one frame per second.
- These keyframes are represented by one or more descriptors calculated from the visual content of the image.
- descriptors There are two approaches to the descriptors: - local approaches: from each key image, a set of points of interest is selected in the image. These points of interest correspond to visually remarkable points of the image that can be found even after alteration. A descriptor is then calculated in the vicinity of each point of interest; - global approaches: each image of the video, or each key image is described as a whole by calculating a single descriptor. In particular, the descriptors must be robust to the alterations of the documents.
- the detection of copies of multimedia documents consists of searching for the presence or absence of a request document to be identified in a protected database.
- This research is based on two distinct phases: an "offline” phase for the construction of the multimedia reference database; a so-called “online” phase for searching for the presence or absence of the document to be identified in the reference database.
- the search phase associates a measure of similarity (often a distance) with a document to be identified.
- This measure of similarity makes it possible to quantify the similarity between two documents by measuring the proximity between their respective descriptors.
- a measure of similarity for example, not only identical documents, but also documents of moderate resemblance are searched for, in order to take into account any alterations suffered by the video.
- a threshold that is too low leads to the presence of many false alarms, considering multimedia documents that are not similar as similar, while a threshold that is too high leads to non-detections, by not detecting certain similar documents (similar documents not returned by the system).
- FIG. 1 illustrates more precisely the various steps implemented for the online search phase of the presence or absence of a document to be identified in the reference database.
- a document to identify QI 1, corresponding to an image For example, consider a document to identify QI 1, corresponding to an image.
- a set of local descriptors m is extracted from the document to be identified. It is considered that the more complex the image, the more the number of local descriptors increases. Conversely, if the image is simple (image representing the sky for example), the number of descriptors is low.
- a request to the multimedia reference database 14 returns, for each of the m descriptors, a set of candidate documents (zero, one or more) from the reference base and having a similar descriptor.
- a set of candidate documents zero, one or more from the reference base and having a similar descriptor.
- a next step of selecting similar documents 15 it is decided, based on the number of their appearances, which documents can be considered as similar to the document to be identified 11.
- the step 15 of selecting similar documents can therefore be assimilated to a vote counting stage: it is considered that each descriptor j of the document to be identified 11 "votes" for candidate documents (zero, one or more), and that the candidate documents receiving the most votes will be the closest of the document to be identified. A set of documents similar to the document to be identified is thus obtained.
- Different techniques are presented in the literature for the counting of votes in a search system of similar documents in a reference database.
- a first technique is based on an absolute thresholding system. In other words, only candidate documents that have received a number of votes above a predetermined threshold are retained. It should be noted that such a technique is not very efficient because it does not adapt to the total number of votes cast or the size of the reference base. It therefore generates an increased number of false alarms and no detections.
- New Orleans, Louisiana, USA, November 2003 is based on an analysis of the orderly list of candidate documents in ascending order of the number of votes.
- a jump search method (the so-called Page-Hinkley method) separates the list of non-significant votes from those that are.
- this technique requires a phase of scheduling candidate documents by the number of votes received. This technique also requires that candidate documents whose similarity is significant are clearly distinguishable from background noise (corresponding to non-significant votes). Such a technique is therefore restrictive, and expensive in terms of resource and time.
- the invention proposes a new solution that does not have these disadvantages of the prior art, in the form of a method for identifying a multimedia document, aimed at checking whether the multimedia document to be identified is similar to least one reference multimedia document referenced in a reference multimedia database, comprising the following steps: assigning a number of votes to at least one reference multimedia document, each of said votes being indicative of a proximity between a descriptor of said reference document multimedia reference document and a descriptor of said multimedia document to be identified, selecting from among said at least one multimedia reference document, multimedia documents similar to said multimedia document to be identified.
- the selection step comprises the following sub-steps: - determining a probabilistic distribution of the number of votes allocated to a reference multimedia document, based on the total number of documents referenced in said database and the total number of votes, under a random voting hypothesis, obtaining a selection threshold for said similar multimedia documents, among the multimedia reference documents, from said probability distribution.
- the invention proposes a novel and inventive solution for automatically determining a selection threshold of reference multimedia documents similar to the multimedia document to be identified. To do this, we consider a number of votes assigned to at least one reference multimedia document, and for example to all documents referenced in the database. Thus, this number of votes will be zero for a document that has not received a vote.
- Multimedia documents can be still images, videos, audio contents, textual contents, etc. These multimedia documents are each described by at least one descriptor.
- a vote is assigned to a reference multimedia document when one of the descriptors the multimedia document to be identified is similar to one of the descriptors of the reference multimedia document.
- a vote is assigned to a reference multimedia document when one of the components (or subset of components) of the descriptor the multimedia document to be identified is similar to one of the components (or subset of components) of the descriptor of the reference multimedia document.
- a probabilistic distribution of the number of votes assigned to a reference multimedia document is then determined, based on the total number of votes cast. referenced documents in the database and the total number of votes. In other words, this probability distribution is valid for all the reference documents. It allows to represent the number of votes assigned to a document i, under a hypothesis of random voting. This probabilistic distribution is also called probabilistic representation of the distribution of the number of votes, or probabilistic modeling.
- the selection threshold is defined taking into account the number of false alarms possible, estimated from said probability distribution, so that the number of false alarms for the selection threshold is less than a predetermined decision value ⁇ .
- This selection threshold therefore takes into account the probabilistic distribution previously determined.
- a "false alarm" for a reference multimedia document amounts to considering this document as similar to the document to be identified, whereas it is not.
- the number of false alarms can be expressed by the product of the total number of multimedia documents referenced in the database and the probability that a reference multimedia document has a number of votes greater than or equal to the selection threshold S. Again, this probability is calculated under a hypothesis of random voting.
- the choice of this decision value makes it possible in particular to omit a parameter.
- the probabilistic distribution implements a binomial law of parameters V and XIn, denoted B iv ⁇ V, -, where: vn )
- - n is the total number of multimedia documents referenced in the database
- - V is the total number of votes
- the step of obtaining a selection threshold implements an iterative algorithm from an initialization value of the selection threshold equal to zero and as long as the number of false alarms for the selection threshold is greater than the decision value ⁇ .
- This iterative algorithm can in particular be implemented when the binomial law is approximated by a Poisson law.
- the selection threshold S is determined prior to the selection step for different values of the total number of multimedia documents referenced in said base (n) and of the total number of votes (V), and stored in a table. Obtaining the selection threshold then implements a reading of the table.
- Another aspect of the invention relates to a computer program product downloadable from a communication network and / or recorded on a computer-readable and / or executable medium by a processor comprising program code instructions for the implementation of the identification method described above.
- the invention in another embodiment, relates to a device for identifying a multimedia document, intended to verify whether the multimedia document to be identified is similar or different from at least one reference multimedia document referenced in a multimedia document database. reference, said multimedia documents to be identified and referenced being described by at least one descriptor, comprising: means for allocating a number of votes to at least one reference multimedia document, each of said votes being significant of a proximity between a descriptor of said reference multimedia document and a descriptor of said multimedia document to be identified, means for selecting, from said at least one multimedia reference document, multimedia documents similar to said multimedia document to be identified.
- the selection means comprise: means for determining a probabilistic distribution of the number of votes allocated to a reference multimedia document, as a function of the total number of documents referenced in said database and the total number of votes , under a hypothesis of random voting, means for obtaining a threshold for selecting said similar multimedia documents from the multimedia reference documents, from said probabilistic distribution.
- Such an identification device is particularly suitable for implementing the identification method described above. It is for example included in an analysis server, allowing the exchange or downloading of multimedia documents, and in particular the detection of copies of multimedia documents.
- FIG. 1 presents the various steps implemented for the search for similar documents according to the prior art
- FIG. 2 illustrates the main steps of the identification method according to the invention
- Figure 3 represents an example of a probability distribution of the number of votes under the hypothesis of random voting
- Figure 4 shows the structure of an identification device according to a particular embodiment of the invention.
- the general principle of the invention relies on the use of a probabilistic approach to identify a multimedia document, that is to say to check if one or more multimedia documents referenced in a multimedia reference database are similar ( or not) with the multimedia document to be identified.
- a multimedia document can be an image (possibly extracted from a video), a video, an audio content, a textual content, etc.
- the invention makes it possible to decide which multimedia reference documents can be considered as similar to the document to be identify, taking into account an automatically determined threshold of selection.
- FIG. 2 illustrates more precisely the general principle of the identification of a multimedia document according to the invention, aimed at checking whether a multimedia document to be identified is similar or not to at least one multimedia document referenced in a database 22 reference multimedia each described by at least one descriptor.
- a number of votes is assigned to at least one of the multimedia documents referenced in the base 22. Each of these votes is indicative of a proximity between a descriptor of the reference multimedia document. and a descriptor of the multimedia document to be identified. For example, we assign a number of votes to each of the documents referenced in base 22. Reference documents not receiving a vote are given a number of votes equal to zero.
- each descriptor j of the document is identified "vote" for reference multimedia documents (zero, one or more).
- each component of the global descriptor of the document In the case of a multimedia document described from a global descriptor, zero, one or more reference multimedia documents are associated with each component of the global descriptor. In other words, it is considered that each component of the global descriptor of the document to be identified "vote" for reference multimedia documents (zero, one or more).
- the first local descriptor may vote for the reference multimedia documents D1 and D3
- the second local descriptor may vote for the reference multimedia document D3
- the third local descriptor may vote for no reference multimedia document. Then the number of votes allocated to the document Dl will be equal to 1, the number of votes allocated to the documents D2 and D4 will be equal to 0, and the number of votes allocated to the document D3 will be equal to 2. The total number of votes will then be equal to 3.
- the multimedia documents similar to the multimedia document to be identified 21 are selected.
- a probabilistic distribution of the number of votes assigned to a reference multimedia document is first determined (241). , based on the total number of documents in the database and the total number of votes, under a hypothesis of random voting. Such modeling applies to all reference multimedia documents.
- a selection threshold of similar multimedia documents is obtained from among the reference multimedia documents of the database, from the probabilistic distribution, similar multimedia documents having a number of votes greater than the selection threshold. To do this, we can take into account the number of false alarms possible, estimated from the probability distribution.
- the method according to the invention can be implemented in various ways, in particular in cabled form or in software form. 5.2 Case of local descriptors
- n is the number of multimedia documents referenced in the reference multimedia database, and i is one of these reference multimedia documents ie
- Vi the number of votes received by the document i (Vi may be equal to O), and V the total number of votes, received by all the multimedia reference documents.
- V may be equal to O
- V the total number of votes, received by all the multimedia reference documents.
- These votes are derived from the search by similarity of a set of descriptors of a document to identify Q in the reference base, as described in relation with the prior art. It is sought according to the invention to determine the selection threshold S corresponding to the minimum number of votes for which it can be assumed that reference multimedia document i is similar to the multimedia document to be identified Q.
- Voting for the reference multimedia document i is a random phenomenon with two possible outcomes (generally referred to as "success” and “failure”) whose probability distribution follows the law called Bernoulli distribution of parameter 1 / n.
- success two possible outcomes
- failure Bernoulli distribution of parameter 1 / n.
- a probabilistic representation of the distribution of the number of votes allocated to a reference multimedia document (i) is thus determined, as a function of the total number of documents present in said database (n), and of the total number of votes (V).
- Figure 3 shows an example of a probability distribution of the number of votes under the hypothesis of random voting. More specifically, the hatched portion represents the probability that the number of votes for a reference multimedia document i is greater than or equal to the threshold S.
- the decision on the similarity or otherwise of the reference multimedia document i with the multimedia document to be identified Q is performed by calculating, for different values of increasing S, the selection threshold to from which the estimated number of false alarms observed is less than a decision value, for example equal to 1.
- a decision value for example equal to 1.
- NFA the number of false alarms
- the number of false alarms is expressed by the product of the probability that a multimedia reference document has a number of votes greater than or equal to the selection threshold S, by the total number of multimedia documents in the database:
- NFA (S) n.p (Vi> S)
- This formulation can then be used to determine the value of the selection threshold S.
- L V / n, where L is the parameter of the Poisson's law; s corresponds to different threshold values tested; the variables p and b, associated with the variable s, are defined as follows: ob is the probability that a multimedia reference document has received exactly the same votes under the hypothesis of random voting previously described; op is the probability that a reference multimedia document has received at least s votes under the assumption of random votes previously described.
- the following steps are then repeated as long as the probability of false alarms NFA is greater than a predetermined decision value ⁇ , equal to 1 for example.
- the number of false alarms can be deduced directly from a selection threshold value, that is to say that the value NFA (s) can be calculated without using the value NFA (sl ). Since the NFA (s) function is monotonic and decreasing as a function of s, the determination of the selection threshold can then be implemented by dichotomy: the probability of false alarms NFA (s) is calculated for different values of s in an interval. possible values (usually with a lower bound of 0 and an upper bound related to the number of descriptors used). The values of s are chosen to divide the interval into two subintervals.
- the selection threshold S can be calculated from one of the methods mentioned previously in advance for different possible values of V and n, and stored in a table (if the we use a database with a fixed number of reference documents, we can also perform this tabulation only for different values of V).
- a table if the we use a database with a fixed number of reference documents, we can also perform this tabulation only for different values of V.
- the multimedia document to be identified may be described by a global descriptor, instead of a plurality of local descriptors.
- a global descriptor generally takes the form of a vector with m dimensions.
- each component (or subset of components) of the global descriptor to a local descriptor.
- each component (or subset of components) of the global descriptor of the document to identify "vote" for a set of reference multimedia documents (zero, one or more).
- the decision of similarity or lack of similarity with respect to the selection threshold does not require any scheduling of multimedia documents based on their number of votes.
- V votes have been collected (with V ⁇ V, where V is the total number of votes awarded taking into account all the descriptors), to evaluate or read in a table the selection threshold S associated with values V and n, and use it to select any reference multimedia documents similar to the multimedia document to be identified.
- the invention can in particular be implemented in a system for detecting copies of a referenced multimedia document (for example, illegal copies of a protected document).
- the use of local descriptors according to one embodiment of the invention allows this detection to be robust to alterations, voluntary or otherwise, of the original document.
- the invention can thus be integrated into an automatic system for protecting copyright. It allows for example a content exchange platform, such as Youtube, MyZoneVideo, Dailymotion, etc.
- Such a system can be used to detect multiple copies of the same document referenced in a database of a server. Indeed, the same document is generally loaded by several users with different names and text descriptions. Such a copy detection system can thus be applied to a multimedia document search engine to suppress duplicate entries in the database and provide undelivered query results. In this way, the user is presented with a unique instance of each multimedia document (possibly with a link to the other copies).
- Such a tool may also be used for analytics purposes for content that is allowed to be broadcast but whose audience is desired.
- Another possible application is the location and playback of a program (TV show, video, ...) from an excerpt of the document.
- the technique for obtaining a threshold of selection and vote counting according to the invention can be applied to any type of multimedia document (sound, text, still images, video), as well as to any system putting a game a voting strategy with a large number (not infinite) of potential candidates.
- Such a device comprises a memory 41 consisting of a buffer memory, a processing unit 42, equipped for example with a microprocessor ⁇ P, and driven by the computer program 43, implementing the identification method according to the present invention. invention.
- the code instructions of the computer program 43 are for example loaded into a RAM memory before being executed by the user.
- processor of the processing unit 42 receives as input a multimedia document to be identified 21.
- the microprocessor of the processing unit 42 implements the steps of the identification method described above, according to the instructions of the computer program 43, to check whether the multimedia document to be identified is similar or different from at least one multimedia document. referenced in a reference multimedia database.
- the identification device comprises, in addition to the buffer memory 41, means for assigning a number of votes to at least one reference multimedia document and selection means, among the at least one reference multimedia document. , multimedia documents similar to the multimedia document to be identified.
- the selection means comprise: means for determining a probabilistic distribution of the number of votes allocated to a reference multimedia document, according to the total number of documents referenced in the database and the total number of votes, under a random voting hypothesis, means for obtaining a selection threshold of similar multimedia documents among the multimedia reference documents, from said distribution, similar multimedia documents having a number of votes greater than the selection threshold.
- the identification device delivers zero output, one or more reference multimedia documents of the database, having a number of votes greater than the selection threshold.
- Such a device can notably be integrated in a system for detecting copies of multimedia documents.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
The invention relates to a method of identifying a multimedia document, aimed at verifying whether the multimedia document to be identified (21) is similar or not to at least one multimedia document referenced in a base (22) of reference multimedia documents, comprising the following steps: assignment (23) of a number of votes to at least one reference multimedia document, selection (24) of multimedia documents similar to said multimedia document to be identified. According to the invention, the selection step comprises the following substeps, determination (241) of a probabilistic distribution of the number of votes assigned to a reference multimedia document, as a function of the total number of documents referenced in said base and of the total number of votes, under a random voting assumption; obtainment (242) of a threshold of selection of said similar multimedia documents from among the reference multimedia documents, on the basis of said probabilistic distribution.
Description
Procédé d'identification d'un document multimédia dans une base de référence, programme d'ordinateur, et dispositif d'identification correspondants. A method of identifying a multimedia document in a reference database, computer program, and corresponding identification device.
1. Domaine de l'invention Le domaine de l'invention est celui de la transmission ou de l'échange de documents multimédia, par exemple une image, une vidéo, un contenu audio, textuel, etc.FIELD OF THE INVENTION The field of the invention is that of the transmission or exchange of multimedia documents, for example an image, a video, an audio content, a textual content, etc.
Plus précisément, l'invention concerne l'identification de tels documents multimédia, en vue notamment de la détection de copies d'un document référencé (par exemple de copies illicites d'un document protégé).More specifically, the invention relates to the identification of such multimedia documents, in particular for the detection of copies of a referenced document (for example illegal copies of a protected document).
2. Art antérieur2. Prior Art
2.1 Détection de copies illicites2.1 Detection of illegal copies
L'avènement du haut débit offert par l'ADSL a induit l'émergence de nouveaux services permettant une consommation facilitée du contenu multimédia, comme les services de vidéo à la demande.The advent of broadband offered by ADSL has led to the emergence of new services allowing for easier consumption of multimedia content, such as video-on-demand services.
Les fournisseurs historiques, comme France Télévision, TFl, Gaumont, etc (marques déposées) ainsi que d'autres acteurs issus du monde des télécoms, comme Orange, Neuf, Free, etc (marques déposées), des moteurs de recherche comme Google video, Yahoo video, etc (marques déposées) ou encore des sociétés spécialisées comme vodeo.fr, glowria, blinkx, TVEyes, skouk, etc (marques déposées), proposent ainsi en ligne une partie de leur catalogue vidéo. Les documents multimédia proposés par ces services sont protégés, et soumis par exemple au paiement d'une redevance pour pouvoir les télécharger.The historical suppliers, such as France Television, TFl, Gaumont, etc. (registered trademarks) as well as other players from the world of telecoms, such as Orange, Neuf, Free, etc. (trademarks), search engines like Google video, Yahoo video, etc. (registered trademarks) or specialized companies such as vodeo.fr, glowria, blinkx, TVEyes, skouk, etc. (trademarks), thus offer online part of their video catalog. The multimedia documents offered by these services are protected, and for example subject to the payment of a fee to be able to download them.
Par ailleurs, le développement récent des sites d'échange de documents multimédia tels que YouTube, DailyMotion, MySpace, etc (marques déposées) met en évidence l'existence d'une seconde source de documents multimédia. Ces documents proviennent des utilisateurs eux-mêmes. Malheureusement, bien qu'une partie des documents observés sur ces sites d'échanges provienne de documents réellement créés par les utilisateurs, une autre partie est constituée de documents illégalement proposés au téléchargement.
II est donc souhaitable de pouvoir détecter les copies illicites d'un document multimédia protégé.In addition, the recent development of multimedia document exchange sites such as YouTube, DailyMotion, MySpace, etc. (trademarks) highlights the existence of a second source of multimedia documents. These documents come from the users themselves. Unfortunately, although some of the documents observed on these exchange sites come from documents actually created by the users, another part consists of documents illegally offered for download. It is therefore desirable to be able to detect the illicit copies of a protected multimedia document.
Plus précisément, la détection de copies vidéo permet : d'identifier les contenus référencés en catalogue, c'est-à-dire référencés dans une base de référence, afin de détecter les copies illicites des contenus de référence ; de relever les contenus fortement copiés (dé-doublonnage) afin de déceler les contenus générateurs d'audience, ou de limiter les tailles de stockage ; - de localiser un programme intégral à partir d'un court extrait.More specifically, the detection of video copies makes it possible: to identify the contents referenced in a catalog, that is to say referenced in a reference database, in order to detect the illicit copies of the reference contents; Highly copied content (de-doubling) to detect content that generates audience, or to limit storage sizes; - locate an entire program from a short excerpt.
Une telle détection doit pouvoir prendre en compte les altérations usuelles que peut subir un document multimédia dans ce contexte : forte compression, rééchantillonnage, recadrage, mais aussi incrustation de texte, logos, projections filmées (en anglais « camcording »), etc. En effet, un document multimédia copié subit généralement des transformations intentionnelles, afin de le rendre difficilement détectable, ainsi que des transformations non-intentionnelles, dues à l'enregistrement du document, à son transcodage, ou encore à des contraintes éditoriales lors de sa republication.Such detection must be able to take into account the usual alterations that a multimedia document can undergo in this context: high compression, resampling, reframing, but also text embedding, logos, filmed projections (in English "camcording"), etc. Indeed, a copied multimedia document generally undergoes intentional transformations, in order to make it difficult to detect, as well as unintentional transformations, due to the recording of the document, its transcoding, or even editorial constraints during its republication. .
Classiquement, la détection de copies de documents multimédia (images, sons, vidéos, etc) consiste à rechercher la présence ou non d'un document requête « suspect » dans une base de documents protégés. Une telle technique repose sur deux aspects essentiels : la description du contenu visuel du document multimédia, i.e. les descripteurs utilisés ; - la technique d'indexation des descripteurs, i.e. la méthode utilisée pour structurer la base des descripteurs des documents protégés, qui permet d'exécuter efficacement des recherches. 2.2 Descripteurs de documentsConventionally, the detection of copies of multimedia documents (images, sounds, videos, etc.) consists of searching for the presence or absence of a "suspect" request document in a protected database. Such a technique relies on two essential aspects: the description of the visual content of the multimedia document, i.e. the descriptors used; - the descriptor indexing technique, i.e. the method used to structure the descriptor database of protected documents, which makes it possible to efficiently execute searches. 2.2 Document descriptors
Classiquement, le descripteur d'un document est un vecteur numérique qui représente, en le résumant, le contenu du document ou d'une partie du document.
Dans le domaine de l'analyse de contenus vidéo, on utilise couramment une description basée sur les images clés. Cette technique consiste à sélectionner à partir d'un document de type vidéo un sous-ensemble d'images, appelées images clés, et à décrire ces images clés. Par exemple, ces images clés peuvent provenir d'un algorithme sélectionnant de manière adaptative les images représentatives de la vidéo, ou d'un sous-échantillonnage temporel régulier sélectionnant par exemple une image par seconde. Ces images clés sont représentées par un ou plusieurs descripteurs calculés à partir du contenu visuel de l'image.Typically, the descriptor of a document is a digital vector that represents, by summarizing, the content of the document or part of the document. In the field of video content analysis, a description based on keyframes is commonly used. This technique consists of selecting from a video-type document a subset of images, called keyframes, and describing these keyframes. For example, these keyframes may come from an algorithm adaptively selecting the representative images of the video, or a regular time sub-sampling selecting for example one frame per second. These keyframes are represented by one or more descriptors calculated from the visual content of the image.
On distingue deux approches pour les descripteurs : - les approches locales : à partir de chaque image clé, un ensemble de points d'intérêt est sélectionné dans l'image. Ces points d'intérêt correspondent à des points visuellement remarquables de l'image que l'on peut retrouver même après altération. Un descripteur est ensuite calculé au voisinage de chaque point d'intérêt ; - les approches globales : chaque image de la vidéo, ou chaque image clé est décrite dans son ensemble en calculant un seul descripteur. En particulier, les descripteurs doivent être robustes aux altérations des documents.There are two approaches to the descriptors: - local approaches: from each key image, a set of points of interest is selected in the image. These points of interest correspond to visually remarkable points of the image that can be found even after alteration. A descriptor is then calculated in the vicinity of each point of interest; - global approaches: each image of the video, or each key image is described as a whole by calculating a single descriptor. In particular, the descriptors must be robust to the alterations of the documents.
Ainsi, une large part des techniques de détection de copies de documents multimédia utilise une description locale du document, considérant que les descripteurs locaux sont plus robustes que les descripteurs globaux. L'information décrivant le document multimédia est ainsi répartie en différentes régions du document. Par conséquent, l'altération de certaines de ces régions (par exemple lors de l'incrustation d'un logo dans une image, ou encore lors du recadrage ou du rognage de l'image, en anglais « cropping ») n'affecte pas les autres régions qui permettent d'identifier le document.Thus, a large part of the techniques for detecting copies of multimedia documents uses a local description of the document, considering that the local descriptors are more robust than the global descriptors. The information describing the multimedia document is thus divided into different regions of the document. Consequently, the alteration of some of these regions (for example when embedding a logo in an image, or during cropping or cropping of the image in English "cropping") does not affect other regions that identify the document.
2.3 Recherche par similarité2.3 Search by similarity
Comme déjà indiqué, la détection de copies de documents multimédia consiste à rechercher la présence ou non d'un document requête à identifier dans une base de documents protégés.
Cette recherche repose sur deux phases distinctes : une phase dite « hors ligne » pour la construction de la base de documents multimédia de référence ; une phase dite « en ligne » pour la recherche de la présence ou non du document à identifier dans la base de référence.As already indicated, the detection of copies of multimedia documents consists of searching for the presence or absence of a request document to be identified in a protected database. This research is based on two distinct phases: an "offline" phase for the construction of the multimedia reference database; a so-called "online" phase for searching for the presence or absence of the document to be identified in the reference database.
Plus précisément, la phase de recherche associe une mesure de similarité (souvent une distance) à un document à identifier. Cette mesure de similarité permet de quantifier la ressemblance entre deux documents en mesurant la proximité entre leurs descripteurs respectifs. Dans une application de détection de copies vidéo par exemple, on ne recherche pas exclusivement des documents identiques, mais également des documents de ressemblance modérée, pour tenir compte des éventuelles altérations subies par la vidéo.More specifically, the search phase associates a measure of similarity (often a distance) with a document to be identified. This measure of similarity makes it possible to quantify the similarity between two documents by measuring the proximity between their respective descriptors. In a video copy detection application, for example, not only identical documents, but also documents of moderate resemblance are searched for, in order to take into account any alterations suffered by the video.
A l'inverse, il ne suffit pas que deux documents aient quelques descripteurs en commun pour qu'ils soient copie l'un de l'autre (par exemple, deux documents textes peuvent avoir des mots en commun sans pour autant traiter du même sujet).On the other hand, it is not enough for two documents to have some descriptors in common so that they are copies of each other (for example, two text documents can have words in common without dealing with the same subject ).
Par conséquent, il est souhaitable de définir de manière efficace le degré de similarité (encore appelé seuil de sélection) à partir duquel on considère que les documents ont une ressemblance significative.Therefore, it is desirable to define effectively the degree of similarity (also called the selection threshold) from which the documents are considered to have a significant resemblance.
En effet, un seuil trop faible entraîne la présence de beaucoup de fausses alarmes, en considérant des documents multimédia non similaires comme similaires, tandis qu'un seuil trop élevé conduit à des non détections, en ne détectant pas certains documents similaires (documents similaires non retournés par le système).In fact, a threshold that is too low leads to the presence of many false alarms, considering multimedia documents that are not similar as similar, while a threshold that is too high leads to non-detections, by not detecting certain similar documents (similar documents not returned by the system).
La figure 1 illustre plus précisément les différentes étapes mises en œuvre pour la phase en ligne de recherche de la présence ou non d'un document à identifier dans la base de référence.FIG. 1 illustrates more precisely the various steps implemented for the online search phase of the presence or absence of a document to be identified in the reference database.
On considère par exemple un document à identifier Q I l, correspondant à une image.
Au cours d'une première étape de description 12, un ensemble de m descripteurs locaux est extrait du document à identifier. On considère que plus l'image est complexe, plus le nombre de descripteurs locaux augmente. A l'inverse, si l'image est simple (image représentant le ciel par exemple), le nombre de descripteurs est faible.For example, consider a document to identify QI 1, corresponding to an image. During a first description step 12, a set of local descriptors m is extracted from the document to be identified. It is considered that the more complex the image, the more the number of local descriptors increases. Conversely, if the image is simple (image representing the sky for example), the number of descriptors is low.
Au cours d'une étape suivante de recherche 13, une requête à la base de documents multimédia de référence 14 renvoie, pour chacun des m descripteurs, un ensemble de documents candidats (zéro, un ou plusieurs) issus de la base de référence et possédant un descripteur similaire. Autrement dit, on associe à chaque descripteur j (pour j allant de 1 à m), Dj documents candidats issus de la base 14.During a next search step 13, a request to the multimedia reference database 14 returns, for each of the m descriptors, a set of candidate documents (zero, one or more) from the reference base and having a similar descriptor. In other words, we associate with each descriptor j (for j ranging from 1 to m), Dj candidate documents from the base 14.
En particulier, on note que parmi les documents candidats renvoyés, certains apparaissent plusieurs fois, c'est-à-dire qu'ils sont renvoyés par plusieurs des m requêtes, lors de l'étape 13 de recherche par similarité dans la base de référence.In particular, it is noted that among the returned candidate documents, some appear several times, that is to say that they are returned by more than one of the m queries, during step 13 similarity search in the reference database. .
Au cours d'une étape suivante de sélection de documents similaires 15, on décide, en fonction du nombre de leurs apparitions, quels documents peuvent être considérés comme similaires au document à identifier 11. L'étape 15 de sélection de documents similaires peut donc être assimilée à une phase de dépouillement de votes : on considère que chaque descripteur j du document à identifier 11 « vote » pour des documents candidats (zéro, un ou plusieurs), et que les documents candidats ayant reçu le plus de votes seront les plus proches du document à identifier. On obtient ainsi un jeu de documents similaires au document à identifier. Différentes techniques sont présentées dans la littérature pour le dépouillement des votes dans un système de recherche de documents similaires dans une base de référence.In a next step of selecting similar documents 15, it is decided, based on the number of their appearances, which documents can be considered as similar to the document to be identified 11. The step 15 of selecting similar documents can therefore be assimilated to a vote counting stage: it is considered that each descriptor j of the document to be identified 11 "votes" for candidate documents (zero, one or more), and that the candidate documents receiving the most votes will be the closest of the document to be identified. A set of documents similar to the document to be identified is thus obtained. Different techniques are presented in the literature for the counting of votes in a search system of similar documents in a reference database.
Ainsi, une première technique repose sur un système de seuillage absolu. Autrement dit, on ne conserve que les documents candidats ayant reçu un nombre de votes supérieur à un seuil prédéterminé.
II est à noter qu'une telle technique est peu performante, car elle ne s'adapte pas au nombre total de votes émis ou à la taille de la base de référence. Elle génère donc un nombre accru de fausses alarmes et de non détections.Thus, a first technique is based on an absolute thresholding system. In other words, only candidate documents that have received a number of votes above a predetermined threshold are retained. It should be noted that such a technique is not very efficient because it does not adapt to the total number of votes cast or the size of the reference base. It therefore generates an increased number of false alarms and no detections.
Une autre technique présentée par S. -A. Berrani, L. Amsaleg, et P. Gros. (« Robust Content-Based Image Searches for Copyright Protection », Proceedings of the ACM International Workshop on Multimedia Databases, pages 70—77,Another technique presented by S. -A. Berrani, L. Amsaleg, and P. Gros. ("Robust Content-Based Image Searches for Copyright Protection", Proceedings of the ACM International Workshop on Multimedia Databases, pages 70-77,
Nouvelle Orléans, Louisiane, USA, Novembre 2003) repose sur une analyse de la liste ordonnée des documents candidats par ordre croissant du nombre de votes.New Orleans, Louisiana, USA, November 2003) is based on an analysis of the orderly list of candidate documents in ascending order of the number of votes.
Une méthode de recherche de saut (méthode dite de Page-Hinkley) permet de séparer la liste des votes non significatifs de ceux qui le sont.A jump search method (the so-called Page-Hinkley method) separates the list of non-significant votes from those that are.
Malheureusement, cette technique requiert une phase d'ordonnancement des documents candidats par le nombre de votes reçus. Cette technique requiert également que les documents candidats dont la similarité est significative se distinguent nettement du bruit de fond (correspondant aux votes non significatifs). Une telle technique est donc contraignante, et coûteuse en termes de ressource et en temps.Unfortunately, this technique requires a phase of scheduling candidate documents by the number of votes received. This technique also requires that candidate documents whose similarity is significant are clearly distinguishable from background noise (corresponding to non-significant votes). Such a technique is therefore restrictive, and expensive in terms of resource and time.
3. Exposé de l'invention3. Presentation of the invention
L'invention propose une solution nouvelle qui ne présente pas ces inconvénients de l'art antérieur, sous la forme d'un procédé d'identification d'un document multimédia, visant à vérifier si le document multimédia à identifier est similaire ou non à au moins un document multimédia de référence référencé dans une base de documents multimédia de référence, comprenant les étapes suivantes : affectation d'un nombre de votes à au moins un document multimédia de référence, chacun desdits votes étant significatif d'une proximité entre un descripteur dudit document multimédia de référence et un descripteur dudit document multimédia à identifier, sélection, parmi lesdits au moins un document multimédia de référence, de documents multimédia similaires audit document multimédia à identifier.The invention proposes a new solution that does not have these disadvantages of the prior art, in the form of a method for identifying a multimedia document, aimed at checking whether the multimedia document to be identified is similar to least one reference multimedia document referenced in a reference multimedia database, comprising the following steps: assigning a number of votes to at least one reference multimedia document, each of said votes being indicative of a proximity between a descriptor of said reference document multimedia reference document and a descriptor of said multimedia document to be identified, selecting from among said at least one multimedia reference document, multimedia documents similar to said multimedia document to be identified.
Selon l'invention, l'étape de sélection comprend les sous-étapes suivantes : - détermination d'une distribution probabiliste du nombre de votes affectés à
un document multimédia de référence, en fonction du nombre total de documents référencés dans ladite base et du nombre total de votes, sous une hypothèse de vote aléatoire, obtention d'un seuil de sélection desdits documents multimédia similaires, parmi les documents multimédia de référence, à partir de ladite distribution probabiliste.According to the invention, the selection step comprises the following sub-steps: - determining a probabilistic distribution of the number of votes allocated to a reference multimedia document, based on the total number of documents referenced in said database and the total number of votes, under a random voting hypothesis, obtaining a selection threshold for said similar multimedia documents, among the multimedia reference documents, from said probability distribution.
Ainsi, l'invention propose une solution nouvelle et inventive permettant de déterminer automatiquement un seuil de sélection des documents multimédia de référence similaires au document multimédia à identifier. Pour ce faire, on considère un nombre de votes affecté à au moins un document multimédia de référence, et par exemple à tous les documents référencés dans la base. Ainsi, ce nombre de votes sera égal à zéro pour un document n'ayant pas reçu de vote.Thus, the invention proposes a novel and inventive solution for automatically determining a selection threshold of reference multimedia documents similar to the multimedia document to be identified. To do this, we consider a number of votes assigned to at least one reference multimedia document, and for example to all documents referenced in the database. Thus, this number of votes will be zero for a document that has not received a vote.
Les documents multimédia (de référence et à identifier) peuvent être des images fixes, des vidéos, des contenus audio, des contenus textuels, etc. Ces documents multimédia sont chacun décrits par au moins un descripteur.Multimedia documents (reference and to be identified) can be still images, videos, audio contents, textual contents, etc. These multimedia documents are each described by at least one descriptor.
Plus précisément, si les documents multimédia (à identifier et de référence) sont décrits par au moins deux descripteurs locaux, caractérisant un aspect et/ou une région desdits documents multimédia, on affecte un vote à un document multimédia de référence lorsqu'un des descripteurs du document multimédia à identifier est similaire à un des descripteurs du document multimédia de référence.More specifically, if the multimedia documents (to be identified and referenced) are described by at least two local descriptors, characterizing an aspect and / or a region of said multimedia documents, a vote is assigned to a reference multimedia document when one of the descriptors the multimedia document to be identified is similar to one of the descriptors of the reference multimedia document.
Si les documents multimédia (à identifier et de référence) sont décrits par un descripteur vectoriel global, comprenant au moins deux composantes, on affecte un vote à un document multimédia de référence lorsqu'une des composantes (ou sous-ensemble de composantes) du descripteur du document multimédia à identifier est similaire à une des composantes (ou sous-ensemble de composantes) du descripteur du document multimédia de référence.If the multimedia documents (to be identified and referenced) are described by a global vector descriptor, comprising at least two components, a vote is assigned to a reference multimedia document when one of the components (or subset of components) of the descriptor the multimedia document to be identified is similar to one of the components (or subset of components) of the descriptor of the reference multimedia document.
On détermine ensuite une distribution probabiliste du nombre de votes affectés à un document multimédia de référence, en fonction du nombre total de
documents référencés dans la base et du nombre total de votes. Autrement dit, cette distribution probabiliste est valable pour l'ensemble des documents de référence. Elle permet de représenter le nombre de votes affectés à un document i, sous une hypothèse de vote au hasard. Cette distribution probabiliste est encore appelée représentation probabiliste de la répartition du nombre de votes, ou modélisation probabiliste.A probabilistic distribution of the number of votes assigned to a reference multimedia document is then determined, based on the total number of votes cast. referenced documents in the database and the total number of votes. In other words, this probability distribution is valid for all the reference documents. It allows to represent the number of votes assigned to a document i, under a hypothesis of random voting. This probabilistic distribution is also called probabilistic representation of the distribution of the number of votes, or probabilistic modeling.
On obtient alors un seuil de sélection des documents multimédia similaires, parmi les documents multimédia de référence de la base, à partir de cette distribution probabiliste. En particulier, le seuil de sélection est défini en tenant compte du nombre de fausses alarmes possibles, estimé à partir de ladite distribution probabiliste, de façon que le nombre de fausses alarmes pour le seuil de sélection soit inférieur à une valeur de décision ε prédéterminée.We then obtain a selection threshold of similar multimedia documents, from the reference multimedia documents of the database, from this probabilistic distribution. In particular, the selection threshold is defined taking into account the number of false alarms possible, estimated from said probability distribution, so that the number of false alarms for the selection threshold is less than a predetermined decision value ε.
Ce seuil de sélection tient donc compte de la distribution probabiliste précédemment déterminée.This selection threshold therefore takes into account the probabilistic distribution previously determined.
Plus précisément, une « fausse alarme » pour un document multimédia de référence revient à considérer ce document comme similaire au document à identifier, alors qu'il ne l'est pas. Le nombre de fausses alarmes peut s'exprimer par le produit du nombre total de documents multimédia référencés dans la base et de la probabilité qu'un document multimédia de référence ait un nombre de votes supérieur ou égal au seuil de sélection S. De nouveau, cette probabilité se calcule sous une hypothèse de vote au hasard.More precisely, a "false alarm" for a reference multimedia document amounts to considering this document as similar to the document to be identified, whereas it is not. The number of false alarms can be expressed by the product of the total number of multimedia documents referenced in the database and the probability that a reference multimedia document has a number of votes greater than or equal to the selection threshold S. Again, this probability is calculated under a hypothesis of random voting.
Par exemple, la valeur de décision est choisie égale à 1 ( £ =1). Le choix de cette valeur de décision permet notamment de s'affranchir d'un paramètre.For example, the decision value is chosen equal to 1 (£ = 1). The choice of this decision value makes it possible in particular to omit a parameter.
En effet, en fixant cette valeur à 1, on sait que statistiquement, moins d'un document multimédia de référence sur l'ensemble des documents multimédia de référence recevra un nombre de votes supérieur au seuil S si les votes se produisent aléatoirement. Si un document multimédia de référence particulier reçoit un nombre de votes dépassant ce seuil S, il constitue une fausse alarme
constatée, alors que la distribution probabiliste suivant le vote aléatoire en prédit moins.Indeed, by setting this value to 1, we know that statistically, less than one reference multimedia document on all reference multimedia documents will receive a number of votes greater than threshold S if the votes occur randomly. If a particular reference multimedia document receives a number of votes exceeding this threshold S, it constitutes a false alarm observed, while the probabilistic distribution following the random vote predicts less.
Ainsi, on peut supposer qu'un tel nombre de votes n'est peut être pas dû au hasard mais plutôt à une certaine similarité avec le document multimédia à identifier.Thus, we can assume that such a number of votes may not be due to chance but rather to a certain similarity with the multimedia document to be identified.
Selon un aspect particulier de l'invention, où les votes aléatoires sont répartis uniformément, la distribution probabiliste met en œuvre une loi binomiale de paramètres V et XIn , notée B i v^V,— , où : v n) According to a particular aspect of the invention, where the random votes are uniformly distributed, the probabilistic distribution implements a binomial law of parameters V and XIn, denoted B iv ^ V, -, where: vn )
- n est le nombre total de documents multimédia référencés dans la base ; - V est le nombre total de votes ;- n is the total number of multimedia documents referenced in the database; - V is the total number of votes;
- V( est le nombre de votes pour un document multimédia de référence i référencé dans la base.- V (is the number of votes for a reference multimedia document i referenced in the database.
Une telle loi correspond à l'expérience suivante : on renouvelle V fois de manière indépendante une épreuve de Bernoulli de paramètre XIn (expérience aléatoire à deux issues possibles, généralement dénommées respectivement « succès » et « échec », avec une chance de succès de 1/ή). On compte alors le nombre de succès V; obtenus à l'issue des V épreuves.Such a law corresponds to the following experiment: one independently renews a Bernoulli test of parameter XIn (random experiment with two possible outcomes, generally denoted respectively "success" and "failure", with a chance of success of 1 / ή). We then count the number of successes V; obtained at the end of the V tests.
L'ensemble des valeurs prises par V; suit alors une loi binomialeThe set of values taken by V; then follows a binomial law
B(vf,V,-) \ n/ En particulier, la loi binomiale peut être approximée par une loi de Poisson de paramètre L = V/n, selon l'équation suivante :B (vf, V, -) \ n / In particular, the binomial distribution can be approximated by a Poisson distribution of parameter L = V / n, according to the following equation:
1 Lk 1 L k
B(k;V,-) ≈ — exp(-L) . n k\B (k; V, -) ≈ - exp (-L). n k \
Cette approximation permet notamment de simplifier la mise en œuvre numérique des calculs, et de minimiser les temps de calcul. En particulier, l'étape d'obtention d'un seuil de sélection met en œuvre un algorithme itératif à partir d'une valeur d'initialisation du seuil de sélection valant zéro et tant que le nombre de fausses alarmes pour le seuil de sélection est supérieur à la valeur de décision ε .
Cet algorithme itératif peut notamment être mis en œuvre lorsque la loi binomiale est approximée par une loi de Poisson.This approximation makes it possible in particular to simplify the numerical implementation of the calculations, and to minimize the calculation times. In particular, the step of obtaining a selection threshold implements an iterative algorithm from an initialization value of the selection threshold equal to zero and as long as the number of false alarms for the selection threshold is greater than the decision value ε. This iterative algorithm can in particular be implemented when the binomial law is approximated by a Poisson law.
Selon une variante, le seuil de sélection S est déterminé préalablement à l'étape de sélection pour différentes valeurs du nombre total de documents multimédia référencés dans ladite base (n) et du nombre total de votes (V), et stocké dans une table. L'obtention du seuil de sélection met alors en œuvre une lecture de la table.According to one variant, the selection threshold S is determined prior to the selection step for different values of the total number of multimedia documents referenced in said base (n) and of the total number of votes (V), and stored in a table. Obtaining the selection threshold then implements a reading of the table.
Un autre aspect de l'invention concerne un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur comprenant des instructions de code de programme pour la mise en œuvre du procédé d'identification décrit précédemment.Another aspect of the invention relates to a computer program product downloadable from a communication network and / or recorded on a computer-readable and / or executable medium by a processor comprising program code instructions for the implementation of the identification method described above.
Dans un autre mode de réalisation, l'invention concerne un dispositif d'identification d'un document multimédia, visant à vérifier si le document multimédia à identifier est similaire ou non à au moins un document multimédia de référence référencé dans une base de documents multimédia de référence, lesdits documents multimédia à identifier et de référence étant décrits par au moins un descripteur, comprenant : des moyens d'affectation d'un nombre de votes à au moins un document multimédia de référence, chacun desdits votes étant significatif d'une proximité entre un descripteur dudit document multimédia de référence et un descripteur dudit document multimédia à identifier, des moyens de sélection, parmi lesdits au moins un document multimédia de référence, de documents multimédia similaires audit document multimédia à identifier.In another embodiment, the invention relates to a device for identifying a multimedia document, intended to verify whether the multimedia document to be identified is similar or different from at least one reference multimedia document referenced in a multimedia document database. reference, said multimedia documents to be identified and referenced being described by at least one descriptor, comprising: means for allocating a number of votes to at least one reference multimedia document, each of said votes being significant of a proximity between a descriptor of said reference multimedia document and a descriptor of said multimedia document to be identified, means for selecting, from said at least one multimedia reference document, multimedia documents similar to said multimedia document to be identified.
Selon ce mode de réalisation, les moyens de sélection comprennent : des moyens de détermination d'une distribution probabiliste du nombre de votes affectés à un document multimédia de référence, en fonction du nombre total de documents référencés dans ladite base et du nombre total de votes, sous une hypothèse de vote aléatoire,
des moyens d'obtention d'un seuil de sélection desdits documents multimédia similaires parmi les documents multimédia de référence, à partir de ladite distribution probabiliste.According to this embodiment, the selection means comprise: means for determining a probabilistic distribution of the number of votes allocated to a reference multimedia document, as a function of the total number of documents referenced in said database and the total number of votes , under a hypothesis of random voting, means for obtaining a threshold for selecting said similar multimedia documents from the multimedia reference documents, from said probabilistic distribution.
Un tel dispositif d'identification est notamment adapté à mettre en œuvre le procédé d'identification décrit précédemment. Il est par exemple inclus dans un serveur d'analyse, permettant l'échange ou le téléchargement de documents multimédia, et notamment la détection de copies de documents multimédia.Such an identification device is particularly suitable for implementing the identification method described above. It is for example included in an analysis server, allowing the exchange or downloading of multimedia documents, and in particular the detection of copies of multimedia documents.
4. Liste des figures4. List of figures
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente les différentes étapes mises en œuvre pour la recherche de documents similaires selon l'art antérieur ; - la figure 2 illustre les principales étapes du procédé d'identification selon l'invention ; la figure 3 représente un exemple de distribution de probabilité du nombre de votes sous hypothèse de vote aléatoire ; la figure 4 présente la structure d'un dispositif d'identification selon un mode de réalisation particulier de l'invention.Other features and advantages of the invention will appear more clearly on reading the following description of a particular embodiment, given as a simple illustrative and nonlimiting example, and the appended drawings, among which: FIG. 1 presents the various steps implemented for the search for similar documents according to the prior art; FIG. 2 illustrates the main steps of the identification method according to the invention; Figure 3 represents an example of a probability distribution of the number of votes under the hypothesis of random voting; Figure 4 shows the structure of an identification device according to a particular embodiment of the invention.
5. Description d'un mode de réalisation de l'invention 5.1 Principe général5. Description of an embodiment of the invention 5.1 General principle
Le principe général de l'invention repose sur l'utilisation d'une approche probabiliste pour identifier un document multimédia, c'est-à-dire pour vérifier si un ou plusieurs documents multimédia référencés dans une base de documents multimédia de référence sont similaires (ou non) avec le document multimédia à identifier. Un tel document multimédia peut être une image (éventuellement extraite d'une vidéo), une vidéo, un contenu audio, un contenu textuel, etc.The general principle of the invention relies on the use of a probabilistic approach to identify a multimedia document, that is to say to check if one or more multimedia documents referenced in a multimedia reference database are similar ( or not) with the multimedia document to be identified. Such a multimedia document can be an image (possibly extracted from a video), a video, an audio content, a textual content, etc.
Plus précisément, l'invention permet de décider quels documents multimédia de référence peuvent être considérés comme similaires au document à
identifier, en tenant compte d'un seuil de sélection déterminé automatiquement.More precisely, the invention makes it possible to decide which multimedia reference documents can be considered as similar to the document to be identify, taking into account an automatically determined threshold of selection.
Par seuil de sélection déterminé automatiquement, on entend un seuil qui n'est pas pré-établi (comme dans les techniques mettant en œuvre un seuillage absolu), mais qui est calculé automatiquement par l'algorithme de l'invention. La figure 2 illustre plus précisément le principe général de l'identification d'un document multimédia selon l'invention, visant à vérifier si un document multimédia à identifier 21 est similaire ou non à au moins un document multimédia référencé dans une base 22 de documents multimédia de référence décrits chacun par au moins un descripteur. Pour ce faire, au cours d'une première étape 23, on affecte un nombre de votes à au moins un des documents multimédia référencé dans la base 22. Chacun de ces votes est significatif d'une proximité entre un descripteur du document multimédia de référence et un descripteur du document multimédia à identifier. Par exemple, on affecte un nombre de votes à chacun des documents référencés dans la base 22. Les documents de référence ne recevant pas de vote se voient attribuer un nombre de votes égal à zéro.Automatically determined selection threshold means a threshold which is not pre-established (as in the techniques implementing absolute thresholding), but which is automatically calculated by the algorithm of the invention. FIG. 2 illustrates more precisely the general principle of the identification of a multimedia document according to the invention, aimed at checking whether a multimedia document to be identified is similar or not to at least one multimedia document referenced in a database 22 reference multimedia each described by at least one descriptor. To do this, during a first step 23, a number of votes is assigned to at least one of the multimedia documents referenced in the base 22. Each of these votes is indicative of a proximity between a descriptor of the reference multimedia document. and a descriptor of the multimedia document to be identified. For example, we assign a number of votes to each of the documents referenced in base 22. Reference documents not receiving a vote are given a number of votes equal to zero.
Par exemple, dans le cas d'un document multimédia décrit à partir de descripteurs locaux, on associe zéro, un ou plusieurs documents multimédia de référence à chaque descripteur local j, en recherchant dans la base 22 les documents multimédia de référence comprenant ce descripteur ou un descripteur proche de celui-ci (en termes de distance par exemple). Autrement dit, on considère que chaque descripteur j du document à identifier « vote » pour des documents multimédia de référence (zéro, un ou plusieurs).For example, in the case of a multimedia document described from local descriptors, zero, one or more multimedia reference documents are associated with each local descriptor j, by searching in the base 22 the multimedia reference documents comprising this descriptor or a descriptor close to it (in terms of distance for example). In other words, it is considered that each descriptor j of the document to be identified "vote" for reference multimedia documents (zero, one or more).
Dans le cas d'un document multimédia décrit à partir d'un descripteur global, on associe zéro, un ou plusieurs documents multimédia de référence à chaque composante du descripteur global. Autrement dit, on considère que chaque composante du descripteur global du document à identifier « vote » pour des documents multimédia de référence (zéro, un ou plusieurs).In the case of a multimedia document described from a global descriptor, zero, one or more reference multimedia documents are associated with each component of the global descriptor. In other words, it is considered that each component of the global descriptor of the document to be identified "vote" for reference multimedia documents (zero, one or more).
Par exemple, si la base 22 comprend quatre documents multimédia de référence notés Dl à D4, et que le document multimédia à identifier est décrit par
trois descripteurs locaux, le premier descripteur local peut voter pour les documents multimédia de référence Dl et D3, le deuxième descripteur local peut voter pour le document multimédia de référence D3, et le troisième descripteur local peut ne voter pour aucun document multimédia de référence. Alors le nombre de votes affectés au document Dl sera égal à 1, le nombre de votes affectés aux documents D2 et D4 sera égal à 0, et le nombre de votes affectés au document D3 sera égal à 2. Le nombre de votes total sera alors égal à 3.For example, if the base 22 includes four reference multimedia documents denoted D1 to D4, and the multimedia document to be identified is described by three local descriptors, the first local descriptor may vote for the reference multimedia documents D1 and D3, the second local descriptor may vote for the reference multimedia document D3, and the third local descriptor may vote for no reference multimedia document. Then the number of votes allocated to the document Dl will be equal to 1, the number of votes allocated to the documents D2 and D4 will be equal to 0, and the number of votes allocated to the document D3 will be equal to 2. The total number of votes will then be equal to 3.
On sélectionne ensuite (24), dans la base 22, les documents multimédia similaires au document multimédia à identifier 21. Pour ce faire, on détermine tout d'abord (241) une distribution probabiliste du nombres de votes affectés à un document multimédia de référence, en fonction du nombre total de documents présents dans la base et du nombre total de votes, sous une hypothèse de vote aléatoire. Une telle modélisation vaut pour tous les documents multimédia de référence. On obtient ensuite (242) un seuil de sélection des documents multimédia similaires parmi les documents multimédia de référence de la base, à partir de la distribution probabiliste, les documents multimédia similaires présentant un nombre de votes supérieur au seuil de sélection. Pour ce faire, on peut notamment tenir compte du nombre de fausses alarmes possibles, estimé à partir de la distribution probabiliste.Next, (24), in the database 22, the multimedia documents similar to the multimedia document to be identified 21 are selected. To do this, a probabilistic distribution of the number of votes assigned to a reference multimedia document is first determined (241). , based on the total number of documents in the database and the total number of votes, under a hypothesis of random voting. Such modeling applies to all reference multimedia documents. Next, (242) a selection threshold of similar multimedia documents is obtained from among the reference multimedia documents of the database, from the probabilistic distribution, similar multimedia documents having a number of votes greater than the selection threshold. To do this, we can take into account the number of false alarms possible, estimated from the probability distribution.
Autrement dit, seuls les documents multimédia de référence présentant un nombre de votes supérieur au seuil de sélection sont considérés comme des documents similaires au document multimédia à identifier.In other words, only multimedia reference documents with a number of votes greater than the selection threshold are considered as similar documents to the multimedia document to be identified.
En particulier, le procédé selon l'invention peut être mis en œuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle. 5.2 Cas des descripteurs locauxIn particular, the method according to the invention can be implemented in various ways, in particular in cabled form or in software form. 5.2 Case of local descriptors
On décrit ci-après un exemple de mise en œuvre de l'invention, dans lequel la distribution probabiliste du nombre de votes affectés aux documents multimédia de référence est une loi binomiale. On considère également que le document multimédia à identifier est décrit par une pluralité de descripteurs
locaux.An exemplary implementation of the invention is described below, in which the probabilistic distribution of the number of votes allocated to the multimedia reference documents is a binomial law. It is also considered that the multimedia document to be identified is described by a plurality of descriptors local.
Plus précisément, on note n le nombre de documents multimédia référencés dans la base de documents multimédia de référence, et i l'un de ces documents multimédia de référence i e
On note Vi le nombre de votes reçus par le document i (Vi pouvant être égal à O), et V le nombre total de votes, reçus par l'ensemble des documents multimédia de référence. Ces votes sont issus de la recherche par similarité d'un ensemble de descripteurs d'un document à identifier Q dans la base de référence, comme décrit en relation avec l'art antérieur. On cherche selon l'invention à déterminer le seuil de sélection S correspondant au nombre de votes minimal pour lequel on peut supposer que document multimédia de référence i est similaire au document multimédia à identifier Q.More precisely, n is the number of multimedia documents referenced in the reference multimedia database, and i is one of these reference multimedia documents ie We denote Vi the number of votes received by the document i (Vi may be equal to O), and V the total number of votes, received by all the multimedia reference documents. These votes are derived from the search by similarity of a set of descriptors of a document to identify Q in the reference base, as described in relation with the prior art. It is sought according to the invention to determine the selection threshold S corresponding to the minimum number of votes for which it can be assumed that reference multimedia document i is similar to the multimedia document to be identified Q.
Afin de déterminer ce seuil de sélection S, on se place donc dans une hypothèse a contrario, en considérant que chacun des V votes a été effectué en choisissant au hasard, et de façon uniforme, un document multimédia de référence parmi les n documents multimédia référencés dans la base (hypothèse de vote aléatoire). Pour chaque vote, la probabilité de voter pour le document multimédia de référence i est alors de 1/n. En effet, le raisonnement a contrario dans ce contexte permet de s'interroger si le hasard suffit à expliquer les points communs observés entre le document à identifier et les documents de référence. Si ce n'est pas le cas, alors il y a effectivement ressemblance entre les documents.In order to determine this selection threshold S, we therefore assume a contrario hypothesis, considering that each of the V votes was made by randomly selecting, in a uniform manner, a reference multimedia document among the n referenced multimedia documents. in the base (hypothesis of random voting). For each vote, the probability of voting for the reference multimedia document i is then 1 / n. Indeed, contrary reasoning in this context makes it possible to question whether chance is enough to explain the common points observed between the document to be identified and the reference documents. If this is not the case, then there is indeed a similarity between the documents.
Le fait de voter pour le document multimédia de référence i est un phénomène aléatoire à deux issues possibles (généralement dénommées « succès » et « échec ») dont la distribution de probabilité suit la loi appelée distribution de Bernoulli de paramètre 1/n. Autrement dit, si on choisit au hasard et de façon uniforme un document multimédia de référence de la base, il y a une chance sur n de choisir le document i. Ainsi, si l'on choisit le document i, le résultat est un succès, et si on choisit un autre document de la base, le résultat est
un échec.Voting for the reference multimedia document i is a random phenomenon with two possible outcomes (generally referred to as "success" and "failure") whose probability distribution follows the law called Bernoulli distribution of parameter 1 / n. In other words, if you randomly and uniformly select a reference multimedia document from the database, there is a chance on n to choose the document i. Thus, if we choose the document i, the result is a success, and if we choose another document from the database, the result is a failure.
Quand on reproduit cette expérience V fois, avec V correspondant au nombre total de votes, la probabilité que l'on choisisse le document i plusieurs fois (Vi fois) suit quant à elle une loi binomiale à deux paramètres: V et 1/n . Ainsi, la probabilité que le document multimédia de référence i reçoive exactement Vi votes suit la loi binomiale de paramètres V et 1/n. On noteWhen one reproduces this experiment V times, with V corresponding to the total number of votes, the probability that one chooses the document i several times (Vi times) follows as for him a binomial law with two parameters: V and 1 / n. Thus, the probability that the reference multimedia document i receives exactly Vi votes follows the binomial law of parameters V and 1 / n. We notice
B V-; V,- cette probabilité. v n)B V-; V, - this probability. v n)
On détermine ainsi une représentation probabiliste de la répartition des nombres de votes affectés à un document multimédia de référence (i), en fonction du nombre total de documents présents dans ladite base (n), et du nombre total de votes (V).A probabilistic representation of the distribution of the number of votes allocated to a reference multimedia document (i) is thus determined, as a function of the total number of documents present in said database (n), and of the total number of votes (V).
On cherche ensuite à déterminer un seuil de sélection S des documents multimédia similaires (avec S un entier).We then try to determine a selection threshold S of similar multimedia documents (with S an integer).
On peut écrire la probabilité que le nombre de votes affectés au document i, noté Vi, soit supérieur ou égal au seuil de sélection S sous la forme suivante : s-i 1 p(Vi ≥ S) = l - ∑ B(k;V,-) k=0 n We can write the probability that the number of votes assigned to the document i, denoted Vi, is greater than or equal to the selection threshold S in the following form: if 1 p (V i ≥ S) = l - Σ B (k; V , -) k = 0 n
La figure 3 représente un exemple de distribution de probabilité du nombre de votes sous hypothèse de vote aléatoire. Plus précisément, la partie hachurée représente la probabilité que le nombre de votes pour un document multimédia de référence i soit supérieur ou égal au seuil S.Figure 3 shows an example of a probability distribution of the number of votes under the hypothesis of random voting. More specifically, the hatched portion represents the probability that the number of votes for a reference multimedia document i is greater than or equal to the threshold S.
Selon cet exemple de mise en œuvre de l'invention, la décision sur la similarité ou non du document multimédia de référence i avec le document multimédia à identifier Q s'effectue en calculant, pour différentes valeurs de S croissantes, le seuil de sélection à partir duquel le nombre estimé de fausses alarmes observées est inférieur à une valeur de décision, par exemple égale à 1. Cela signifie qu'un vote « au hasard » ne suffit pas à expliquer un tel nombre de votes, mais qu'une certaine similarité en est responsable. Ce nombre de fausses alarmes peut être estimé à partir de la distribution probabiliste illustrée en figure 3. Dans cet exemple, le nombre de fausses alarmes, noté NFA(S), correspond au
nombre de documents multimédia de référence ayant reçu au moins S votes quand ceux-ci sont effectués au hasard.According to this exemplary implementation of the invention, the decision on the similarity or otherwise of the reference multimedia document i with the multimedia document to be identified Q is performed by calculating, for different values of increasing S, the selection threshold to from which the estimated number of false alarms observed is less than a decision value, for example equal to 1. This means that a "random" vote is not enough to explain such a number of votes, but that a certain similarity is responsible for it. This number of false alarms can be estimated from the probabilistic distribution illustrated in FIG. 3. In this example, the number of false alarms, denoted NFA (S), corresponds to number of reference multimedia documents that have received at least S votes when they are randomly conducted.
Le nombre de fausses alarmes s'exprime par le produit de la probabilité qu'un document multimédia de référence ait un nombre de votes supérieur ou égal au seuil de sélection S, par le nombre total de documents multimédia dans la base :The number of false alarms is expressed by the product of the probability that a multimedia reference document has a number of votes greater than or equal to the selection threshold S, by the total number of multimedia documents in the database:
NFA(S) = n.p(Vi > S)NFA (S) = n.p (Vi> S)
On peut également noter que la loi binomiale B V^; V, — qui intervient v n/ s'exprime à l'aide de combinaisons, elles-mêmes exprimées par des factoriels (f actoriel V notamment) .It can also be noted that the binomial law B V ^; V, - which intervenes v n / is expressed by means of combinations, themselves expressed by factorials (f actorial V notably).
Pour des soucis de facilité de mise en œuvre numérique des calculs, il est possible d'approcher, de façon très fiable, la loi binomiale par une loi de Poisson dont le paramètre L vaut V/n.For the sake of ease of numerical implementation of the calculations, it is possible to approach, very reliably, the binomial law by a Poisson law whose parameter L is V / n.
On peut noter qu'une telle approximation est valable quand 1/n est petit et V grand, ce qui est le cas en règle générale pour ce contexte (en pratique, cette approximation est utilisée quand V > 30 et L < 5).It can be noted that such an approximation is valid when 1 / n is small and V large, which is the case in general for this context (in practice, this approximation is used when V> 30 and L <5).
Ainsi, on peut approcher la loi binomiale par l'expression suivante :Thus, we can approach the binomial law by the following expression:
1 Lk 1 L k
B(k;V,-) ≈ — exp(-L) n k\B (k; V, -) ≈ - exp (-L) n k \
Bien que la loi de Poisson fasse également intervenir une factorielle, cette factorielle ne concerne cette fois, dans la mise en œuvre proposée, que des petites valeurs, et est facilement calculable.Although the Poisson's law also involves a factorial, this factorial only concerns, in the proposed implementation, small values, and is easily calculable.
Il est également possible de déduire une formulation récursive de la loi binomiale ainsi approchée : pour k = 0 : β(0;V,-) ≈ exp(-L) ; n - pour £ > 6> : B(k;V ,-) = - B(k - l;V ,-) . n k nIt is also possible to deduce a recursive formulation of the binomial law thus approximated: for k = 0: β (0; V, -) ≈ exp (-L); n - for £> 6>: B (k; V, -) = - B (k - l; V, -). n k n
On peut ensuite se servir de cette formulation pour déterminer la valeur du seuil de sélection S.This formulation can then be used to determine the value of the selection threshold S.
On introduit les notations suivantes:
L = V/n, où L est le paramètre de la loi de Poisson ; s correspond à différentes valeurs de seuil testées ; les grandeurs p et b, associés à la variable s, sont définies comme suit: o b est la probabilité qu'un document multimédia de référence ait reçu exactement s votes sous l'hypothèse de vote aléatoire précédemment décrite ; o p est la probabilité qu'un document multimédia de référence ait reçu au moins s votes sous l'hypothèse de votes aléatoires précédemment décrite.The following notations are introduced: L = V / n, where L is the parameter of the Poisson's law; s corresponds to different threshold values tested; the variables p and b, associated with the variable s, are defined as follows: ob is the probability that a multimedia reference document has received exactly the same votes under the hypothesis of random voting previously described; op is the probability that a reference multimedia document has received at least s votes under the assumption of random votes previously described.
On initialise tout d'abord les variables : s = 0, correspondant à la première valeur de seuil de sélection testée ; b = exp(-L) , correspondant à la probabilité qu'un document multimédia de référence ait reçu exactement zéro vote sous l'hypothèse de votes aléatoires précédemment décrite ; P = I , correspondant à la probabilité qu'un document multimédia de référence ait reçu au moins zéro vote sous l'hypothèse de votes aléatoires précédemment décrite. On réitère ensuite les étapes suivantes, tant que la probabilité de fausses alarmes NFA est supérieure à une valeur de décision ε prédéterminée, égale à 1 par exemple.The variables are initialized first: s = 0, corresponding to the first selection threshold value tested; b = exp (-L), corresponding to the probability that a reference multimedia document received exactly zero votes under the assumption of random votes previously described; P = I, corresponding to the probability that a reference multimedia document has received at least zero votes under the assumption of random votes previously described. The following steps are then repeated as long as the probability of false alarms NFA is greater than a predetermined decision value ε, equal to 1 for example.
Ainsi, tant que n.p > ε (soit NFA(s) > ε ) : on incrémente la variable s de 1 (s:=s+l) et on met à jour les variables qui en dépendent: on affecte la probabilité p - b à la variable p (p:=p - b), qui devient ainsi la probabilité qu'un document multimédia de référence i ait reçu au moins s votes sous l'hypothèse de votes aléatoires précédemment décrite ; - on affecte la probabilité b x L l s à la variable b (b:=b * L/s), qui
devient ainsi la probabilité qu'un document multimédia de référence i ait reçu exactement s votes sous l'hypothèse de votes aléatoires précédemment décrite ;Thus, as long as np> ε (ie NFA (s)> ε): we increment the variable s by 1 (s: = s + l) and we update the variables that depend on it: we affect the probability p - b to the variable p (p: = p - b), which thus becomes the probability that a reference multimedia document i has received at least s votes under the assumption of random votes previously described; the probability bx L ls is assigned to the variable b (b: = b * L / s), which thus becomes the probability that a reference multimedia document i has received exactly s votes under the assumption of random votes previously described;
Finalement, quand la probabilité de fausses alarmes NFA(s) est inférieure ou égale à la valeur de décision ε prédéterminée, avec ε = l par exemple, on affecte au seuil de sélection S la valeur finale de s . Les documents multimédia de référence ayant reçu un nombre de votes supérieur ou égal à S sont supposés similaires et sont retournés par la procédure.Finally, when the probability of false alarms NFA (s) is less than or equal to the predetermined decision value ε, with ε = 1 for example, the final value of s is assigned to the selection threshold S. Multimedia reference documents that have received a number of votes greater than or equal to S are assumed to be similar and are returned by the procedure.
Selon une autre variante, on considère que le nombre de fausses alarmes peut se déduire directement d'une valeur de seuil de sélection, c'est-à-dire que la valeur NFA(s) peut être calculée sans utiliser la valeur NFA(s-l). Comme la fonction NFA(s) est monotone et décroissante en fonction de s, la détermination du seuil de sélection peut alors être mise en œuvre par dichotomie : la probabilité de fausses alarmes NFA(s) est calculée pour différentes valeurs de s dans un intervalle de valeurs possibles (généralement avec une borne inférieure de 0 et une borne supérieure liée au nombre de descripteurs utilisés). Les valeurs de s sont choisies de façon à diviser l'intervalle en deux sous-intervalles. L'estimation des probabilités de fausses alarmes NFA(s) aux bornes de ces sous-intervalles et la propriété de monotonie permettent de localiser le sous-intervalle dans lequel la fonction NFA(s) passe par la valeur ε . On ne conserve que ce sous-intervalle et on répète les mêmes opérations, jusqu'à obtenir un intervalle dont les bornes sont deux entiers consécutifs. La valeur du seuil de sélection S recherchée est alors déterminée par la borne supérieure de cet intervalle.According to another variant, it is considered that the number of false alarms can be deduced directly from a selection threshold value, that is to say that the value NFA (s) can be calculated without using the value NFA (sl ). Since the NFA (s) function is monotonic and decreasing as a function of s, the determination of the selection threshold can then be implemented by dichotomy: the probability of false alarms NFA (s) is calculated for different values of s in an interval. possible values (usually with a lower bound of 0 and an upper bound related to the number of descriptors used). The values of s are chosen to divide the interval into two subintervals. The estimation of the false alarm probabilities NFA (s) at the boundaries of these subintervals and the property of monotony make it possible to locate the sub-interval in which the function NFA (s) passes through the value ε. We keep only this subinterval and repeat the same operations, until we obtain an interval whose boundaries are two consecutive integers. The value of the selection threshold S sought is then determined by the upper bound of this interval.
Selon une autre variante de mise en œuvre, le seuil de sélection S peut être calculé à partir d'une des méthodes évoquées ci-dessus de façon préalable pour différentes valeurs possibles de V et de n, et stocké dans une table (si l'on utilise une base de données ayant un nombre fixé de documents de référence, on peut aussi effectuer cette tabulation uniquement pour différentes valeurs de V). Ainsi, durant une phase d'analyse, il n'est plus nécessaire de calculer la valeur de seuil S, mais il suffit de la lire dans ladite table, économisant ainsi encore du temps de
calcul.According to another variant of implementation, the selection threshold S can be calculated from one of the methods mentioned previously in advance for different possible values of V and n, and stored in a table (if the we use a database with a fixed number of reference documents, we can also perform this tabulation only for different values of V). Thus, during an analysis phase, it is no longer necessary to calculate the threshold value S, but it is sufficient to read it in said table, thus saving more time of calculation.
5.3 Cas des descripteurs globaux5.3 Case of global descriptors
Selon l'invention, le document multimédia à identifier peut être décrit par un descripteur global, au lieu d'une pluralité de descripteurs locaux. Un tel descripteur global prend généralement la forme d'un vecteur à m dimensions.According to the invention, the multimedia document to be identified may be described by a global descriptor, instead of a plurality of local descriptors. Such a global descriptor generally takes the form of a vector with m dimensions.
Dans ce cas, on applique la même technique que décrite précédemment, en assimilant chaque composante (ou sous-ensemble de composantes) du descripteur global à un descripteur local. Autrement dit, on considère que chaque composante (ou sous-ensemble de composantes) du descripteur global du document à identifier « vote » pour un ensemble de documents multimédia de référence (zéro, un ou plusieurs).In this case, one applies the same technique as described previously, by assimilating each component (or subset of components) of the global descriptor to a local descriptor. In other words, it is considered that each component (or subset of components) of the global descriptor of the document to identify "vote" for a set of reference multimedia documents (zero, one or more).
5.4 Avantages liés à l'invention5.4 Advantages of the invention
La technique selon l'invention présente de nombreux avantages, selon au moins un de ses modes de réalisation, et notamment : elle ne nécessite aucun paramètre à régler, si la valeur de décision ε prédéterminée est fixée à ε = 1 ; le seuil de sélection est évalué automatiquement, et ne nécessite pas de manipulation coûteuse des listes de valeurs prises par les nombres de votes. En particulier, la décision de similarité ou d'absence de similarité par rapport au seuil de sélection ne requiert aucun ordonnancement de documents multimédia en fonction de leur nombre de votes. De même, le nombre de votes affectés à un « bon » document multimédia de référenceThe technique according to the invention has numerous advantages, according to at least one of its embodiments, and in particular: it does not require any parameter to be adjusted, if the predetermined decision value ε is fixed at ε = 1; the selection threshold is evaluated automatically, and does not require expensive manipulation of the lists of values taken by the numbers of votes. In particular, the decision of similarity or lack of similarity with respect to the selection threshold does not require any scheduling of multimedia documents based on their number of votes. Similarly, the number of votes assigned to a "good" reference multimedia document
(c'est-à-dire à un document multimédia de référence similaire à un document multimédia à identifier) n'a pas besoin de se distinguer nettement de ceux affectés à des documents multimédia de référence non significatifs pour être détecté ; elle s'appuie sur un formalisme probabiliste rigoureux ; elle permet de contrôler le nombre de fausses alarmes. Indirectement, on peut déduire la probabilité qu'un document multimédia de référence
sélectionné soit une fausse alarme, du nombre de votes qu'il a reçu. Cette caractéristique peut être utile notamment dans le cas d'un système de détection de copies vidéo pour lequel un filtrage séquentiel permet d'agréger temporellement les résultats obtenus à chaque image ; - elle implique très peu de calculs et son exécution est donc rapide : selon un mode de réalisation particulier, elle permet d'écourter le délai de prise de décision avant d'avoir analysé tous les descripteurs locaux (ou toutes les composantes d'un descripteur global) du document multimédia à identifier. On peut décider, quand V votes ont été collectés (avec V < V, où V est le nombre de votes total attribués en prenant en compte tous les descripteurs), d'évaluer ou de lire dans une table le seuil de sélection S associées aux valeurs V et n, et de l'utiliser pour sélectionner d'éventuels documents multimédia de référence similaires au document multimédia à identifier. On peut alors choisir d'arrêter l'analyse dès lors qu'un document multimédia de référence au moins a été identifié comme similaire.(That is, a reference multimedia document similar to a multimedia document to be identified) need not be clearly distinguishable from those assigned to non-significant reference multimedia documents to be detected; it relies on a rigorous probabilistic formalism; it allows to control the number of false alarms. Indirectly, we can deduce the probability that a reference multimedia document selected either a false alarm, the number of votes he has received. This feature may be useful in particular in the case of a video copy detection system for which a sequential filtering allows to temporally aggregate the results obtained for each image; it involves very few calculations and its execution is therefore fast: according to a particular embodiment, it makes it possible to shorten the decision-making time before having analyzed all the local descriptors (or all the components of a descriptor). global) of the multimedia document to be identified. We can decide, when V votes have been collected (with V <V, where V is the total number of votes awarded taking into account all the descriptors), to evaluate or read in a table the selection threshold S associated with values V and n, and use it to select any reference multimedia documents similar to the multimedia document to be identified. One can then choose to stop the analysis as soon as at least one reference multimedia document has been identified as similar.
5.5 Application de l'invention5.5 Application of the invention
L'invention peut notamment être mise en œuvre dans un système de détection de copies d'un document multimédia référencé (par exemple de copies illicites d'un document protégé).The invention can in particular be implemented in a system for detecting copies of a referenced multimedia document (for example, illegal copies of a protected document).
Par exemple, elle permet de détecter de manière efficace la présence de copies d'un contenu vidéo protégé au sein d'un flux vidéo suspect. En particulier, l'utilisation de descripteurs locaux selon un mode de réalisation de l'invention permet à cette détection d'être robuste à des altérations, volontaires ou non, du document original.For example, it can effectively detect the presence of copies of protected video content within a suspicious video stream. In particular, the use of local descriptors according to one embodiment of the invention allows this detection to be robust to alterations, voluntary or otherwise, of the original document.
L'invention peut ainsi s'intégrer dans un système automatique de protection des droits d'auteurs. Elle permet par exemple à une plateforme d'échange de contenus, tels que Youtube, MaZoneVidéo, Dailymotion, etcThe invention can thus be integrated into an automatic system for protecting copyright. It allows for example a content exchange platform, such as Youtube, MyZoneVideo, Dailymotion, etc.
(marques déposées) d'intervenir très en amont du processus de dépôt de documents multimédia (texte, image, audio ou vidéo) en filtrant les documents
illicites déposés, et de se mettre ainsi en conformité avec les règles de protection des droits d'auteurs.(registered trademarks) to intervene very early in the process of filing multimedia documents (text, image, audio or video) by filtering documents unlawfully deposited, and thus to comply with the rules of copyright protection.
Par ailleurs, et toujours dans le contexte des plateformes d'échanges de contenus, un tel système peut être utilisé pour détecter les multiples copies d'un même document référencé dans une base d'un serveur. En effet, un même document est en général chargé par plusieurs utilisateurs avec des noms et des descriptions textuelles différentes. Un tel système de détection de copies peut ainsi être appliqué à un moteur de recherche de documents multimédia pour supprimer les doublons dans la base et fournir des résultats de requête dé- doublonnés. On présente ainsi à l'utilisateur une occurrence unique de chaque document multimédia (éventuellement avec un lien vers les autres copies).Moreover, and always in the context of content exchange platforms, such a system can be used to detect multiple copies of the same document referenced in a database of a server. Indeed, the same document is generally loaded by several users with different names and text descriptions. Such a copy detection system can thus be applied to a multimedia document search engine to suppress duplicate entries in the database and provide undelivered query results. In this way, the user is presented with a unique instance of each multimedia document (possibly with a link to the other copies).
Un tel outil peut également être utilisé à des fins d'analyse pour du contenu dont la diffusion est autorisée mais dont on souhaite connaître l'audience. Une autre application possible encore est la localisation et la restitution d'un programme (émission TV, vidéo, ...) à partir d'un extrait du document.Such a tool may also be used for analytics purposes for content that is allowed to be broadcast but whose audience is desired. Another possible application is the location and playback of a program (TV show, video, ...) from an excerpt of the document.
Plus généralement, la technique d'obtention d'un seuil de sélection et de dépouillement de votes selon l'invention peut s'appliquer à n'importe quel type de document multimédia (son, texte, images fixes, vidéo), ainsi qu'à tout système mettant un jeu une stratégie de vote avec un grand nombre (non infini) de candidats potentiels.More generally, the technique for obtaining a threshold of selection and vote counting according to the invention can be applied to any type of multimedia document (sound, text, still images, video), as well as to any system putting a game a voting strategy with a large number (not infinite) of potential candidates.
5.6 Structure du dispositif d'identification5.6 Structure of the identification device
On présente finalement, en relation avec la figure 4, la structure simplifiée d'un dispositif d'identification mettant en œuvre une technique d'identification selon le mode de réalisation particulier décrit ci-dessus. Un tel dispositif comprend une mémoire 41 constituée d'une mémoire tampon, une unité de traitement 42, équipée par exemple d'un microprocesseur μP, et pilotée par le programme d'ordinateur 43, mettant en œuvre le procédé d'identification selon l'invention.Finally, in connection with FIG. 4, the simplified structure of an identification device implementing an identification technique according to the particular embodiment described above is presented. Such a device comprises a memory 41 consisting of a buffer memory, a processing unit 42, equipped for example with a microprocessor μP, and driven by the computer program 43, implementing the identification method according to the present invention. invention.
A l'initialisation, les instructions de code du programme d'ordinateur 43 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le
processeur de l'unité de traitement 42. L'unité de traitement 42 reçoit en entrée un document multimédia à identifier 21.At initialization, the code instructions of the computer program 43 are for example loaded into a RAM memory before being executed by the user. processor of the processing unit 42. The processing unit 42 receives as input a multimedia document to be identified 21.
Le microprocesseur de l'unité de traitement 42 met en œuvre les étapes du procédé d'identification décrit précédemment, selon les instructions du programme d'ordinateur 43, pour vérifier si le document multimédia à identifier est similaire ou non à au moins un document multimédia référencé dans une base de documents multimédia de référence. Pour cela, le dispositif d'identification comprend, outre la mémoire tampon 41, des moyens d'affectation d'un nombre de votes à au moins un document multimédia de référence et des moyens de sélection, parmi lesdits au moins un document multimédia de référence, de documents multimédia similaires au document multimédia à identifier. Plus précisément, les moyens de sélection comprennent : des moyens de détermination d'une distribution probabiliste du nombre de votes affectés à un document multimédia de référence, en fonction du nombre total de documents référencés dans la base et du nombre total de votes, sous une hypothèse de vote aléatoire, des moyens d'obtention d'un seuil de sélection des documents multimédia similaires parmi les documents multimédia de référence, à partir de ladite distribution, les documents multimédia similaires présentant un nombre de votes supérieur au seuil de sélection.The microprocessor of the processing unit 42 implements the steps of the identification method described above, according to the instructions of the computer program 43, to check whether the multimedia document to be identified is similar or different from at least one multimedia document. referenced in a reference multimedia database. For this purpose, the identification device comprises, in addition to the buffer memory 41, means for assigning a number of votes to at least one reference multimedia document and selection means, among the at least one reference multimedia document. , multimedia documents similar to the multimedia document to be identified. More specifically, the selection means comprise: means for determining a probabilistic distribution of the number of votes allocated to a reference multimedia document, according to the total number of documents referenced in the database and the total number of votes, under a random voting hypothesis, means for obtaining a selection threshold of similar multimedia documents among the multimedia reference documents, from said distribution, similar multimedia documents having a number of votes greater than the selection threshold.
Ces différents moyens sont pilotés par le microprocesseur de l'unité de traitement 42.These various means are controlled by the microprocessor of the processing unit 42.
Le dispositif d'identification délivre en sortie zéro, un ou plusieurs documents multimédia de référence de la base, présentant un nombre de votes supérieur au seuil de sélection.The identification device delivers zero output, one or more reference multimedia documents of the database, having a number of votes greater than the selection threshold.
Un tel dispositif peut notamment être intégré dans un système de détection de copies de documents multimédia.
Such a device can notably be integrated in a system for detecting copies of multimedia documents.
Claims
1. Procédé d'identification d'un document multimédia, visant à vérifier si le document multimédia à identifier (21) est similaire ou non à au moins un document multimédia de référence référencé dans une base (22) de documents multimédia de référence, comprenant les étapes suivantes : affectation (23) d'un nombre de votes à au moins un document multimédia de référence, chacun desdits votes étant significatif d'une proximité entre un descripteur dudit document multimédia de référence et un descripteur dudit document multimédia à identifier, - sélection (24), parmi lesdits au moins un document multimédia de référence, de documents multimédia similaires audit document multimédia à identifier, caractérisé en ce que ladite étape de sélection comprend les sous-étapes suivantes : - détermination (241) d'une distribution probabiliste du nombre de votes affectés à un document multimédia de référence, en fonction du nombre total de documents référencés dans ladite base et du nombre total de votes, sous une hypothèse de vote aléatoire, obtention (242) d'un seuil de sélection desdits documents multimédia similaires parmi les documents multimédia de référence, à partir de ladite distribution probabiliste.A method of identifying a multimedia document, for checking whether the multimedia document to be identified (21) is similar or different from at least one reference multimedia document referenced in a base (22) of reference multimedia documents, comprising the following steps: assigning (23) a number of votes to at least one reference multimedia document, each of said votes being indicative of a proximity between a descriptor of said reference multimedia document and a descriptor of said multimedia document to be identified, selecting (24), from among said at least one multimedia reference document, multimedia documents similar to the said multimedia document to be identified, characterized in that the said selection step comprises the following sub-steps: - determining (241) a probabilistic distribution the number of votes assigned to a reference multimedia document, based on the total number of referenced documents embedded in said database and the total number of votes, under a hypothesis of random voting, obtaining (242) a selection threshold of said similar multimedia documents among the multimedia reference documents, from said probability distribution.
2. Procédé d'identification selon la revendication 1, caractérisé en ce que ledit seuil de sélection est défini en tenant compte du nombre de fausses alarmes possibles, estimé à partir de ladite distribution probabiliste, de façon que le nombre de fausses alarmes pour ledit seuil de sélection soit inférieur à une valeur de décision prédéterminée.2. Identification method according to claim 1, characterized in that said selection threshold is defined by taking into account the number of false alarms possible, estimated from said probability distribution, so that the number of false alarms for said threshold selection is less than a predetermined decision value.
3. Procédé d'identification selon la revendication 2, caractérisé en ce que ladite valeur de décision est égale à 1.3. Identification method according to claim 2, characterized in that said decision value is equal to 1.
4. Procédé d'identification selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ladite distribution probabiliste met en œuvre une loi binomiale B I Vt;V,— , où : v n/4. Identification method according to any one of claims 1 to 3, characterized in that said probabilistic distribution implements a law binomial BIV t ; V, -, where: vn /
- n est le nombre total de documents multimédia référencés dans ladite base ;n is the total number of multimedia documents referenced in said database;
- V est le nombre total de votes ; - V1 est le nombre de votes pour un document multimédia de référence i référencés dans ladite base.- V is the total number of votes; - V 1 is the number of votes for a reference multimedia document i referenced in said database.
5. Procédé d'identification selon la revendication 4, caractérisé en ce que ladite loi binomiale est approximée par une loi de Poisson de paramètre L = V/n, selon l'équation suivante :5. Identification method according to claim 4, characterized in that said binomial law is approximated by a Poisson law of parameter L = V / n, according to the following equation:
1 Lk B(k;V,-) ≈ — exp(-L) . n kl1 L k B (k; V, -) ≈ - exp (-L). n kl
6. Procédé d'identification selon la revendication 2 et l'une quelconque des revendications 3 à 5, caractérisé en ce que ladite étape d'obtention (242) d'un seuil de sélection met en œuvre un algorithme itératif à partir d'une valeur d'initialisation du seuil de sélection valant zéro et tant que le nombre de fausses alarmes pour ledit seuil de sélection est supérieur à ladite valeur de décision.6. Identification method according to claim 2 and any one of claims 3 to 5, characterized in that said step of obtaining (242) a selection threshold implements an iterative algorithm from a initialization value of the selection threshold equal to zero and as long as the number of false alarms for said selection threshold is greater than said decision value.
7. Procédé d'identification selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ledit seuil de sélection S est déterminé préalablement à ladite étape de sélection (24) pour différentes valeurs du nombre total de documents multimédia référencés dans ladite base et du nombre total de votes, et stocké dans une table, et en ce que ladite étape d'obtention (242) d'un seuil de sélection met en œuvre une lecture de ladite table.7. Identification method according to any one of claims 1 to 6, characterized in that said selection threshold S is determined before said selection step (24) for different values of the total number of multimedia documents referenced in said base and the total number of votes, and stored in a table, and in that said step of obtaining (242) a selection threshold implements a reading of said table.
8. Procédé d'identification selon l'une quelconque des revendications 1 à 7, caractérisé en ce que lesdits documents multimédia appartiennent au groupe comprenant : une image ; une vidéo ; un contenu audio ; un contenu textuel. 8. Identification method according to any one of claims 1 to 7, characterized in that said multimedia documents belong to the group comprising: an image; a video ; audio content; textual content.
9. Procédé d'identification selon l'une quelconque des revendications 1 à 8, caractérisé en ce que lesdits documents multimédia sont décrits par au moins deux descripteurs locaux, caractérisant un aspect et/ou une région desdits documents multimédia, un vote étant affecté à un document multimédia de référence lorsqu'un des descripteurs du document multimédia à identifier est similaire à un des descripteurs dudit document multimédia de référence.9. Identification method according to any one of claims 1 to 8, characterized in that said multimedia documents are described by at least two local descriptors, characterizing an aspect and / or a region of said multimedia documents, a vote being assigned to a reference multimedia document when one of the descriptors of the multimedia document to be identified is similar to one of the descriptors of said reference multimedia document.
10. Procédé d'identification selon l'une quelconque des revendications 1 à 8, caractérisé en ce que lesdits documents multimédia sont décrits par un descripteur vectoriel global comprenant au moins deux composantes, un vote étant affecté à un document multimédia de référence lorsqu'une des composantes du descripteur du document multimédia à identifier est similaire à une des composantes du descripteur dudit document multimédia de référence.10. Identification method according to any one of claims 1 to 8, characterized in that said multimedia documents are described by a global vector descriptor comprising at least two components, a vote being assigned to a multimedia reference document when a components of the descriptor of the multimedia document to be identified is similar to one of the components of the descriptor of said reference multimedia document.
11. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre du procédé d'identification selon l'une au moins des revendications 1 à 10.11. Computer program product downloadable from a communication network and / or recorded on a computer readable medium and / or executable by a processor, characterized in that it comprises program code instructions for the implementation of the identification method according to at least one of claims 1 to 10.
12. Dispositif d'identification d'un document multimédia, visant à vérifier si le document multimédia à identifier (21) est similaire ou non à au moins un document multimédia de référence référencé dans une base (22) de documents multimédia de référence, comprenant : des moyens d'affectation (23) d'un nombre de votes à au moins un document multimédia de référence, chacun desdits votes étant significatif d'une proximité entre un descripteur dudit document multimédia de référence et un descripteur dudit document multimédia à identifier, des moyens de sélection (24), parmi lesdits au moins un document multimédia de référence, de documents multimédia similaires audit document multimédia à identifier, caractérisé en ce que lesdits moyens de sélection comprennent : des moyens de détermination (241) d'une distribution probabiliste du nombre de votes affectés à un document multimédia de référence, en fonction du nombre total de documents référencés dans ladite base et du nombre total de votes, sous une hypothèse de vote aléatoire, des moyens d'obtention (242) d'un seuil de sélection desdits documents multimédia similaires parmi les documents multimédia de référence, à partir de ladite distribution probabiliste. 12. Device for identifying a multimedia document, intended to verify whether the multimedia document to be identified (21) is similar or different from at least one reference multimedia document referenced in a base (22) of multimedia reference documents, comprising : means for assigning (23) a number of votes to at least one reference multimedia document, each of said votes being significant of a proximity between a descriptor of said reference multimedia document and a descriptor of said multimedia document to be identified, selection means (24), among said at least one multimedia reference document, of multimedia documents similar to said multimedia document to be identified, characterized in that said selection means comprise: means for determining (241) a probabilistic distribution of the number of votes allocated to a reference multimedia document, based on the total number of documents referenced in said database and the total number of votes, under a hypothesis of random voting, means for obtaining (242) a threshold for selecting said similar multimedia documents from the multimedia reference documents, based on said probabilistic distribution.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0850580 | 2008-01-30 | ||
PCT/FR2009/050129 WO2009095616A1 (en) | 2008-01-30 | 2009-01-28 | Method of identifying a multimedia document in a reference base, corresponding computer program and identification device |
Publications (1)
Publication Number | Publication Date |
---|---|
EP2245555A1 true EP2245555A1 (en) | 2010-11-03 |
Family
ID=39718992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP09706882A Withdrawn EP2245555A1 (en) | 2008-01-30 | 2009-01-28 | Method of identifying a multimedia document in a reference base, corresponding computer program and identification device |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100332541A1 (en) |
EP (1) | EP2245555A1 (en) |
WO (1) | WO2009095616A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018532198A (en) | 2015-10-12 | 2018-11-01 | コミサリヤ・ア・レネルジ・アトミク・エ・オ・エネルジ・アルテルナテイブ | Method and device for detecting a copy in a stream of visual data |
CN108749596B (en) * | 2018-04-11 | 2020-12-04 | 蔚来(安徽)控股有限公司 | Vehicle end starting method, system and device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US7369677B2 (en) * | 2005-04-26 | 2008-05-06 | Verance Corporation | System reactions to the detection of embedded watermarks in a digital host content |
US20050256848A1 (en) * | 2004-05-13 | 2005-11-17 | International Business Machines Corporation | System and method for user rank search |
US20060149710A1 (en) * | 2004-12-30 | 2006-07-06 | Ross Koningstein | Associating features with entities, such as categories of web page documents, and/or weighting such features |
CN101512521B (en) * | 2006-06-02 | 2013-01-16 | Tti发明有限责任公司 | Concept based cross media indexing and retrieval of speech documents |
-
2009
- 2009-01-28 EP EP09706882A patent/EP2245555A1/en not_active Withdrawn
- 2009-01-28 WO PCT/FR2009/050129 patent/WO2009095616A1/en active Application Filing
- 2009-01-28 US US12/865,309 patent/US20100332541A1/en not_active Abandoned
Non-Patent Citations (1)
Title |
---|
See references of WO2009095616A1 * |
Also Published As
Publication number | Publication date |
---|---|
US20100332541A1 (en) | 2010-12-30 |
WO2009095616A1 (en) | 2009-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9785841B2 (en) | Method and system for audio-video signal processing | |
US20030061490A1 (en) | Method for identifying copyright infringement violations by fingerprint detection | |
US20070118910A1 (en) | Identification of files in a file sharing environment | |
FR2824160A1 (en) | DYNAMICALLY CONFIGURABLE GENERIC CONTAINER | |
EP2084644B1 (en) | Computer tool for managing digital documents | |
US20080215889A1 (en) | Efficient Watermark Detection | |
EP1741047B1 (en) | Method for searching content particularly for extracts common to two computer files | |
CN113435391B (en) | Method and device for identifying infringement video | |
WO2014131984A2 (en) | Generation of a signature of a musical audio signal | |
US8572073B1 (en) | Spam detection for user-generated multimedia items based on appearance in popular queries | |
EP1977365B1 (en) | Electronic document management method | |
EP2227755B1 (en) | Method for analysing a piece of multimedia content and corresponding computer software product and analysis device | |
FR3062504A1 (en) | AUTOMATIC DETECTION OF FRAUD IN A NEURON NETWORK PAYMENT TRANSACTION STREAM INTEGRATING CONTEXTUAL INFORMATION | |
WO2003032136A1 (en) | Method and system for identifying and verifying content of multimedia documents | |
EP2245555A1 (en) | Method of identifying a multimedia document in a reference base, corresponding computer program and identification device | |
FR2899708A1 (en) | METHOD FOR RAPID DE-QUILLLING OF A SET OF DOCUMENTS OR A SET OF DATA CONTAINED IN A FILE | |
FR2901037A1 (en) | Reference structural pattern generating method for computer, involves determining reference structural pattern per group of determined primary structural patterns, where reference pattern represents patterns of group | |
EP1211614A1 (en) | Method for performing a search in a hierarchical structure of objects | |
FR3099601A1 (en) | Technical digital asset query method | |
WO2017063722A1 (en) | Method and device for detecting copies in a stream of visual data | |
WO2010046599A1 (en) | Determination of key elementary entity in a multimedia content | |
EP1209614A1 (en) | Methods for partionning a set of objects and method for searching in a partition of a set of objects | |
FR3041126A1 (en) | METHOD FOR AUTOMATICALLY RELAUNCHING A STRUCTURED DATA BASE | |
FR3010206A1 (en) | METHOD FOR MANAGING A USER DATABASE ON A MULTIMEDIA CONTENT PLATFORM | |
WO2020229760A1 (en) | Method for multidimensional indexing of textual content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20100719 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL BA RS |
|
DAX | Request for extension of the european patent (deleted) | ||
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: ORANGE |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20160802 |