WO2013117872A1 - Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe - Google Patents
Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe Download PDFInfo
- Publication number
- WO2013117872A1 WO2013117872A1 PCT/FR2013/050269 FR2013050269W WO2013117872A1 WO 2013117872 A1 WO2013117872 A1 WO 2013117872A1 FR 2013050269 W FR2013050269 W FR 2013050269W WO 2013117872 A1 WO2013117872 A1 WO 2013117872A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sentences
- digital
- digital document
- tag
- generating
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Definitions
- the invention relates to the field of methods and systems for extracting relevant data and exploitable according to certain criteria of a corpus of digital documents. More particularly, the field of the invention relates to methods for generating a summary of a digital document whose certain characteristics are parameterizable. STATE OF THE ART
- a difficulty of such methods is to allow a user to access the essential elements of a digital document through the generation of a summary.
- the latter must have a coherence and fidelity sufficient to be exploitable.
- the current methods are based on a semantics defined by a user, for example the definition of key words, which alone is not enough to maintain coherence and a sense of the digital document. It is even possible by using such methods to denature the coherence of a digital document or to generate a counter-sense by decontextualizing certain data of the digital document.
- the invention relates to a method for identifying a set of sentences of a first digital document.
- the identification method comprises:
- a weighting step of each of the sentences by allocating a first score corresponding to the sum of the values of each linguistic TAG identified in each of the sentences;
- a step of identifying a second set of sentences included in the first set of sentences having a weighting greater than a first threshold In an improved mode, the method of identifying a set of sentences of a first digital document:
- the selection step comprises the selection of a thesaurus defining a file comprising a list of semantic TAGs of a domain, each of the semantic TAGs comprising a second attribution of values for each semantic TAG included in a second interval defined by a second minimum value and a second maximum value;
- the selection step comprises selecting a set of user-defined TAGs defining user TAGs comprising semantic expressions and / or terms, each of the user TAGs comprising a third value assignment for each TAG users included in a third interval defines a third minimum value and a third maximum value;
- the step of weighting each of the sentences by assigning a third score corresponding to the sum of the values of each TAG users identified in each of the sentences.
- a technical advantage of the features of the invention is that the base of indicator sentence fragments makes it possible to identify terms or expressions that may include TAGs associated with the structure of a text and the importance of specific data in a context. particular context.
- TAGs can be for example: "in conclusion”, “to finish”, “most important”, etc.
- An advantage of the method of the invention is that the TAGS of the base of indicator sentence fragments are dissociated from the keywords defined by a user likely to interest him.
- a thesaurus can be associated to identify sentences according to a specific domain, for example the economic domain.
- the first threshold is calculated from a condensation rate defined by the number of sentences desired by a user of the second set of the total number of sentences of the first set of sentences.
- the first threshold is calculated from a condensation rate defined by the number of terms desired by a user of the second set of sentences on the total number of terms of the first set of sentences.
- an interface makes it possible to configure the condensation rate.
- a display step by means of an interface of the first digital document comprises the generation of the sentences identified according to a larger character size than the unidentified sentences.
- the comparison step (E_COM) comprises determining root terms of the linguistic TAGs of the FPI from a morphological dictionary and comparing the declensions of the root terms of the linguistic TAGs with each sentence of the digital document.
- the weighting step comprises the sum of the first, second and / or third score (s) for each of the sentences of the digital document, thus defining a semantic weight, the semantic weight of each sentence being compared with a predefined threshold in FIG. 'identification step.
- the average value of the values of the second allocation is in an interval representing 20% of the first interval centered on the average value of the values of the first allocation.
- This configuration makes it possible to obtain a very good relevance of the generated summary in terms of maintaining fidelity of the general meaning of the original text.
- the relationships defining the first and second intervals are important to the summary that is generated and the fidelity of meaning of the original text that is preserved.
- the configuration described above results an analysis of a large number of tests and allowed an optimal adjustment this configuration.
- the average value of the values of the third allocation is in an interval representing 20% of the first interval centered on the average value of the values of the first allocation.
- the subject of the invention relates to a method for generating a digital document, denoted "digital summary", comprising generating and displaying on a display the second set of sentences, said sentences being identified from of the identification method of the invention, in a sequence ordered by increasing numbering.
- the digital summary generated comprises activatable symbols, an activatable symbol being associated with each of the sentences of the second set, the sentences of the numerical summary and the activatable symbols being displayed on a display so that the activatable symbols are displayed nearby.
- sentences, the activation of at least one activable symbol of a selected sentence generating a second digital summary, the second digital summary comprising ordered sentences whose numbering is successive, this set comprising said selected sentence and a first set of sentences whose numbering precedes that of the selected sentence and a second set of sentences whose numbering follows that of the selected sentence.
- the activation of an activatable symbol is achieved by means of a mouse click for a computer or an overview of a cursor on activatable data or a tactile touch in an area comprising the activatable symbol.
- the activatable symbol is an alphanumeric character.
- the activatable symbol is a number representing the number of the sentence in the first document.
- the subject of the invention relates to a method for generating a digital document, called "digital synthesis”.
- the method of generating a digital summary is applied to a set of digital documents so as to generate a plurality of digital summaries, said method comprising a step of generating a digital synthesis from the definition of a parameter , called distribution rate, representing the quantification of the data of each numerical summary present in the synthesis and a second condensation rate of each numerical summary, the numerical synthesis comprising a set of ordered and selected sentences according to the distribution rate and the second condensation rate of each of the numerical digests.
- the object of the invention relates to a device for generating a digital document comprising a display for displaying at least one digital document, a computer for implementing the steps of the method of the invention.
- the device also includes an interface for setting at least a first condensation rate, a control system for initiating the generation of a first digital summary.
- control system makes it possible to start the generation of a second digital summary of the first digital summary.
- the interface comprises a first window for displaying a set of digital documents and a second window for displaying a set of numerical summaries corresponding to the summary of each document of the first window.
- the interface comprises first means for selecting a condensation rate of a digital summary, second means for selecting a thesaurus among, a list of predefined thesauruses and means for defining TAGs of a user.
- FIG. 1 represents a diagram of the main steps of the method of the invention.
- FIG. 1 represents the main steps of the process, in particular:
- ⁇ a step of selecting a set of files or data from a database, such as base fragments indicators phrases noted FPI, a HEPA noted thesaurus and defining a lexical field of a field or a TAG list noted
- TAGJJTI and defined by a user
- ⁇ a weighting step, denoted E_PON, for assigning a score to each sentence
- EJDE an identification step, denoted EJDE, phrases having a score higher than a predefined threshold
- the method of the invention comprises a step of generating a digital summary, denoted E_GEN, comprising the sentences identified in the EJDE step, the sentences being displayed according to a predefined sequencing.
- the method of the invention comprises a step of identifying a first digital document from which it is desired to extract a set of sentences according to a certain number of criteria.
- the extracted sentences will allow in one embodiment of the invention to generate a summary, called numerical summary in the following description.
- the method therefore comprises the identification of a digital document, the identification of the digital document can be carried out in different ways.
- This document may include a title, a date, a language or a plurality of languages, a reference code that can serve as an identifier.
- the document may include data describing its form such as its page number, word count, layout, or format.
- the document must be in digital form, that is to say comprising at least one set of identifiable alphanumeric characters, for example by word processing software or an internet browser.
- Any type of digital document format is compatible with the method of the invention, for example a text format, a html format, or any document whose formats are known by their abbreviation or their commercial name or extension among which we find in particular: .doc and .docx, xls, rtf, ppt, xls, pdf or open office.
- the step of identifying the document may be preceded or followed by a step of importing said digital document.
- the import of the digital document or of a set of documents contained in file / directory can also be done at the same time as its identification.
- the shape data of the digital document can be determined by the method of the invention during the importing step.
- the method thus makes it possible to import at least one digital document and store it in a memory space, for example the memory of a component of a computer or a data server.
- the storage of the document can be performed in a directory of an operating system of a computer.
- the import can be performed by any computer means for saving the data contained in the digital document.
- the import can be done by copying the file, using a "copy / paste" function of an editor or by downloading the document from another computer.
- the import may also be performed by displaying some or all of the content of said digital document stored on a server in a browser of a local computer.
- the method of the invention comprises a selection step, noted
- E_SEL a base of fragments of indicator sentences also denoted FPI meaning "Fragment of Phrases Indicators”.
- This base of indicator sentence fragments comprises a set of linguistic TAGs, TAGJJN, predefined.
- Language TAGs may include terms or expressions, that is, a set of terms having a meaning taken together.
- This base of FPI can be linked to a morphological dictionary that will allow all derivations of the terms listed in this database.
- TAG is a term or a set of terms forming an expression and having a syntactical or grammatical meaning.
- Each linguistic TAG of the FPI includes a first assignment of a chosen numerical value in a first interval, denoted 11.
- the first interval is defined by a first minimum value, denoted TAG_LIN_MIN and a first maximum value noted TAG_LIN_MAX.
- a linguistic dictionary can be associated with the base of indicator sentence fragments for a given language. There may be a plurality of linguistic dictionaries that can be selected in the method of the invention.
- a morphological dictionary includes data making it possible to recognize a so-called “root” linguistic TAG or an expression comprising a plurality of terms also called “root” for associating variants of TAG or expression according to grammatical rules or of conjugations. Those data allow to group, under the same root, a family of TAG and / or expressions.
- An advantage of the morphological dictionary of the invention is that it is optimized so as to generate scores quickly with optimized relevance.
- the morphological dictionary may comprise a limited number of expressions, which makes it possible to reduce the operations of recognition of terminations included in the morphological dictionary.
- another advantage of the morphological dictionary of the invention is to eliminate the variations of certain conjugations not useful in the method of the invention. For example, the imperative modes, the conjugations of the second person of the singular as well as the conjugations of the second person of the plural are not present in the morphological dictionary.
- This morphological dictionary is specially adapted to the method of the invention so as to optimize the relevance of the results and the computation times.
- a base of indicator sentence fragments includes a set of linguistic TAGs, each having an assigned value representing a predefined degree of linguistic importance with respect to the meaning of a sentence. For example, the phrase “in conclusion” is important as to what will be announced shortly after in the sentence. Other examples can be cited as: “an important point” or “it is essential” which are expressions with an assigned value close to the maximum limit of the first interval.
- the base of indicator sentence fragments includes a first assignment, denoted ATT1, of values at each TAG of the base which represents an "importance" with respect to the meaning of the terms which are supposed to be exposed previously or successively to a linguistic TAG given.
- the values of the first allocation are included in a first range of values.
- the first interval is defined by a minimum value and a maximum value.
- the values are preferentially predefined and manually assigned by an operator. In addition, they can be automatically generated according to the basic type of FPI that has been selected. In a simplified example of the invention, all the terms of a set of TAGJJN may include the same value assigned, noted
- step of selecting the method of the invention may also include the selection of a thesaurus noted THE, this step is performed in step E_SEL.
- a thesaurus defines a file comprising a list of semantic TAGs, the TAGs being denoted TAG_SEM and representing a lexical field of a predefined domain.
- the method of the invention may include selecting a plurality of thesauri by a user.
- Each of the semantic TAGs comprises a second allocation, denoted ATT2, of values included in a second interval, denoted 12, defined by a second minimum value, denoted TAG_SEM_MIN and a second maximum value TAG_SEM_MAX.
- all the terms of a thesaurus may include the same assigned value, denoted V2 avg .
- the step of selecting the method of the invention may also include the selection of a set of user-defined TAGs defining "user TAGs", denoted TAGJJTI.
- User TAGs may include semantic expressions and / or simple terms.
- Each user TAG comprises a third allocation, denoted ATT3 of values included in a third interval, denoted 13, defined by a third minimum value (TAG_UTI_MIN) and a third maximum value (TAG_UTI_MAX).
- all the terms of a set of user TAGs may include the same assigned value, denoted V3 avg .
- the base of indicator sentence fragments can be defined in a text file or database or any other digital file whose consultation and operations are allowed. The same is true for thesauri and sets of TAG users.
- An interface allows a user to edit a user TAG file or to select for example from a drop-down menu a thesaurus. The selection of a language, for example from a digital check box allows to define and associate the associated thesaurus.
- the method of the invention comprises a segmentation step, noted E_SEG, of the first digital document for determining a first set of sentences, noted P1, of the first digital document.
- E_SEG segmentation step
- the sentences are numbered and define a first sequence.
- the segmentation step therefore comprises an identification of the sentences for example from a parser that recognizes each pair (punctuation - capitalization) in the digital document.
- part of the sentences of the digital document can be identified, which allows the method of the invention to be applied to only a part of a digital document. For example, it is possible to limit the segmentation to a chapter of a digital document, the chapter being delimited by symbols or a font or title to define the part of the document to which the process applies.
- the user can have means for selecting a part of a text, for example by selecting from a cursor and a mouse on a digital document displayed in a display.
- An advantage of being able to set the part of the digital document to which the method applies is to pre-segment a text of several chapters, for example, which deals with each subject in different fields.
- the method of generating a digital summary is locally applied to a part of a document, such as a chapter for example, it allows the method to be applied to different chapters and to generate a plurality of digital summaries whose content may be more relevant and closer to the original meaning of the digital document.
- the method of the invention may therefore include a step of presegmentation to identify parts of a document and a segmentation step to identify all or part of the sentences of the document. This case is particularly advantageous when chapters of a digital document deals with very different subjects.
- the method of the invention also makes it possible to order the identified sentences, the said sentences thus defining a sequence.
- the order of occurrence of sentences in the first digital document is the order of the sequence of sentences in the segmentation step.
- the sentences are simply numbered from the first to the last sentence of the digital document or part of the digital document.
- the method of the invention comprises a comparison step, denoted by E_COM, between the terms of each sentence of the first segmented document and linguistic TAGs of the base of indicator sentence fragments and possibly declensions obtained from a morphological dictionary.
- This comparison step makes it possible to identify the presence of linguistic TAGs and their variations in the sentences of the original text.
- One or more bases of fragments of indicator sentences comprising a first set of linguistic TAGs, TAGJJN and their variations;
- One or more thesauri comprising a second set of semantic TAGs, TAG_SEM, and;
- the method of the invention comprises at least selecting a first base of indicator sentence fragments defining a first set of TAGs.
- a thesaurus and a set of user keywords can be used.
- the method of the invention makes it possible to list all the terms or expressions of each sentence present in the three sets of TAGs defined above.
- the method of the invention comprises a step of weighting each sentence.
- the step of weighting a sentence comprises summing the assigned values of each TAG present in said sentence, the TAGs possibly coming from one of the three sets of TAGs defined above.
- a weighting thus makes it possible to quantify the representativity of the sentence vis-à-vis at least one FPI linked to the morphological dictionary, at least one thesaurus or at least one set of key words selected for the first digital document.
- the method of the invention comprises a segmentation step which makes it possible to generate a list of ordered sentences and comprising a score obtained by the weighting step.
- a file constituting a base of fragments of sentence sentences of words and expressions defining a first set of ⁇ TAG_LINi ⁇ ie [i; N] is associated with the digital document.
- a file is selected representing a thesaurus of a domain chosen by a user including a second set of semantic TAGs ⁇ TAG_SEMi ⁇ ie [i; P] of a lexical field of this domain
- TAG ⁇ TAG_SEMi ⁇ ie [i; P]
- An operator defined manually a third set of ⁇ TAG_UTIi ⁇ ie [i; K] users he wants to associate with this digital document.
- ⁇ TAG_SEMi ⁇ ie [i; p] make it possible to calculate the values attributed to each of the terms of each of the sentences identified in the digital document.
- the first list ⁇ TAG_LINi ⁇ ie [i; N] makes it possible to locate in the digital document expressions contextualizing important sentences, such as: "in conclusion”, “to finish”, “hold that”, “it is essential that”, etc. This list is not representative of all the possible examples but allows to define a specific example of realization.
- Each of these expressions or terms has a defined value in a first range that can be assigned to each term.
- the expressions "in conclusion”, “to finish” can have a value of 70 and the expressions “remember that", “it is essential that” can have a value of 90.
- the "Economy” thesaurus can define a lexical field that we wish to apply in the extraction of relevant sentences from a document.
- the second interval is defined by a minimum value of 0 and a maximum value of 50.
- all thesaurus terms have a value of 25.
- TAG_UTI such as "201 1" or "pie chart”.
- the third interval is defined by a minimum value of 0 and a maximum value of 50.
- all the terms of the user TAGs have a value of 25.
- the method includes a step of identifying, denoted EJDE, a second set of sentences, noted P2 included in the first set of sentences P1 forming the digital document having a score greater than a first threshold.
- the identification step includes comparing each weighting of each sentence with a value defining a predefined threshold.
- the predefined threshold can be fixed in advance or modified at any time by means of an interface.
- the method of the invention further comprises a step of parameterizing the method of the invention defined below.
- the identification step allows the generation of a second list of sentences whose score is greater than a predefined threshold.
- a predefined threshold In an alternative it is possible to define a maximum number of sentences of the digital summary that a user wishes to define. This maximum number of sentences may be expressed as a percentage of the number of sentences of the document or of the part of the document to which the method of the invention applies.
- the sentences with the highest score either above a threshold or determined by a maximum number of sentences define a second set of sentences P2.
- the sentences of the second list are ordered and include a numbering, for example the same numbering as in the first list.
- the first list includes for example 100 sentences numbered from 1 to 100 and only 5 sentences were retained in the second list, whose sentences numbered 20, 30, 40, 50 and 61, their numbering can be preserved in the second listing.
- the method will always be able to order them for example to display them in a precise order by comparing the numberings of each of the sentences. It will be just as easy to establish the following comparison: 20 ⁇ 30 ⁇ 40 ⁇ 50 ⁇ 61, to establish an order than to renumber the selected sentences following the step of comparing their score with a predefined threshold.
- An advantage of the second TAG list is that it makes it possible to orient the identification of the sentences of the digital document according to a thesaurus formed by a set of TAG representative of a specific domain.
- the invention makes it possible to configure a ratio between the intervals 11, 12 and 13 or their representative data such as the average value of the assigned values of an interval or the center of each interval.
- a first configuration consists in choosing an interval 12 included in the interval 11.
- an interval 13 may be chosen to be included in the interval 11. That is, the upper limit of the first gap 11 is greater than the upper limit of the second gap 12.
- the upper limit of the first gap 11 may also be greater than the upper limit of the third gap 13.
- interval 11 represents values of a set of manually defined FPIs together with a morphological dictionary
- this adjustment has been defined according to an analysis of a large number of results and tests. Indeed, the FPIs were defined from the collection and analysis of sentence fragments associated with significance of the meaning of the sentences comprising these REITs. We understand then that the adjustment of the intervals requires importance during the configuration.
- a relevant summary can be judged only in comparison with the reading of the original text from which it derives.
- numerous tests have made it possible to define intervals 11, 12 and 13 and their relationships making it possible to generate the sentences having the best scores that best reflect the nature of the text whose summary is generated.
- a particularly advantageous configuration for optimizing the coherence and fidelity of the digital document in the identification of the sentences of the method can be defined.
- the definition of the maximum terminal of the first interval can be taken substantially equal to half of the maximum terminal of the second or third interval. This configuration makes it possible to privilege the syntactic forms of a document representing remarks having an importance as to meaning.
- this setting can be configured according to the nature of the documents whose process makes the identification of the sentences.
- patent documents, scientific publications, commercial brochures, manuals, guides, instructions for use, books such as novels each include a morphological lexicon specific to the nature of the document. Consequently, the characteristic data of the intervals 11, 12 and 13 can be adapted case by case.
- the method of the invention comprises in an improved mode, a preliminary parametering step by means of an interface allowing an operator to adapt to his needs the application of the method to digital text.
- a first parameterization comprises the definition of a first value representing the degree of condensation of the digital document. This value represents a ratio between the number of sentences identified by the method of the invention and the number of sentences of the digital document or an identified part thereof.
- the best score is the highest score of a sentence when the assigned values are summed positively or the scores above a certain predefined threshold.
- the user can, for example, fall to display the identified sentences with the highest score and representing 10% of the number of sentences in the document. Accordingly, the method of the invention will choose from 100 sentences of a digital document, the 10 sentences having the highest score.
- the ratio of the number of data generated in the digital summary to the number of data in the digital document is referred to as the "condensation rate".
- the data can be expressed in number of characters, number of words, number of sentences, number of paragraphs or even number of pages according to the different embodiments of the invention.
- the method of the invention relates to a method for identifying sentences of a digital document that can be generated according to a particular symbology in their initial context.
- the initial context is defined by displaying a sentence among the other sentences of the digital document, that is normally when the text of the document is simply displayed.
- the particular symbology can be for a color, font, or font size.
- the sentences identified according to the method of the invention may appear in bold with a font body greater than the font of the unidentified sentences.
- Other possibilities of demarcation facilitating the so-called "diagonal" reading of a text can be combined together.
- the generation of the sentences identified according to the method of the invention with a particular symbology to be recognizable, when they are generated in their initial context can be generated in any display or digital display software such as an editor or a digital browser.
- the invention makes it possible to generate the sentences identified in the same font but with a variation of the formats corresponding to the scores calculated for each of the sentences.
- the method can be applied to a corpus of N digital documents, for example, by generating a digital summary of all sentences of all digital documents. It is also possible to specify a condensation rate for each document.
- the method then executes the method of the invention on a list of documents and then displays a digital synthesis.
- Digital synthesis is the juxtaposition of a plurality of digital summaries generated by the method of the invention applied to several digital documents.
- the digital synthesis is generated by the method of the invention to which two additional steps have been added. There is then a first parameterization step to specify the condensation rate of each digital summary contributing to the development of digital synthesis. There is a step of creating the synthesis by juxtaposing a plurality of digital summaries.
- the method of the invention applies to each of the digital documents by specifying in the parameterization of an interface the rate of condensation of each of the summaries of each of the documents.
- a first summary R1 comprises a condensation rate of 20% of D1
- a second summary R2 comprises a condensation rate of 10% of D2
- a third summary comprises a rate of 5% condensation of D1.
- the digital synthesis S1 then comprises the juxtaposition of the three summaries R1, R2 and R3.
- the invention comprises a device for generating at least one digital summary.
- the latter comprises calculation means for implementing the steps of the method, a display for displaying the digital document and / or the digital summary.
- the device of the invention comprises means for selecting parameters of the configuration or parameterization of the process,
- the display may include a browser with:
- a first window making it possible to display, on the one hand, a plurality of symbols representing documents ordered according to a given sequence and, on the other hand, the titles or references of the documents so as to make them identifiable;
- the order of displaying the summaries may be faithful to the sequence of display of the documents.
- the display order of the documents or their symbols in a first window and the summaries which are in a second window preferentially arranged next to the first window.
- a symbol is generated near each sentence of the digital summary.
- Each symbol is activatable by user-controlled selection means such as a mouse and slider or touch on a touch screen.
- the symbol may be one or more alphanumeric characters, for example such as "+” or "-” signs.
- Each symbol can be generated near each sentence of the numerical summary.
- the symbols can all be generated in the same part, for example to the left or right of the summary displayed on the same line as the beginning or end of a sentence. They can also be displayed in the text of the numerical digest after each point or capital of the text.
- the device of the invention makes it possible to offer the user a simple means of recovering a degree of coherence and fidelity of the digital summary with respect to the digital document by a simple and rapid action.
- An activation of the sign makes it possible to immediately display the preceding sentence and / or that following the sentence associated with an activated symbol. Double-clicking on the sentence allows it to be removed from the display.
- an action on a sign makes it possible to display one or a plurality of sentences before or after the sentence whose context one wishes to illuminate.
- This data is configurable in one embodiment.
- the invention comprises many advantages.
- the definition of the TAGJJNs of the base of indicator sentence fragments allows the process to take into account expressions and terms which represent a form of importance in the extraction of points, i.e., important sentences. a document that depends on the morphological structure of a given language.
- the thesaurus makes it possible to direct the generation of a summary according to a particular semantic axis, for example the automobile sector.
- the key words users make it possible to take into account specific research considerations of an individual.
- each digital summary according to the criteria of file selection and / or definition of TAG makes it possible to generate a "made to measure" summary.
- the latter is generated with fidelity and consistency vis-à-vis the digital document that can be corrected or contextualized.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Le procédé de génération d'un document numérique, noté « résumé numérique », comprend : une étape de paramétrage permettant de définir un premier degré de condensation d'un premier document numérique définissant un rapport entre un premier nombre représentant la quantité de données contenues dans le résumé numérique souhaité et un second nombre représentant la quantité de données contenues dans le premier document; · une étape d'analyse du premier document numérique comprenant la définition d'un ensemble de termes, noté TAG; · une étape de segmentation permettant de : o déterminer un premier ensemble de phrases du premier document; o associer une pondération à chacune des phrases · une étape d'extraction d'un nombre de phrases selon le degré de condensation; · une étape de génération d'un résumé numérique comprenant un ensemble de phrases ordonnées.
Description
PROCEDE D'IDENTIFICATION D'UN ENSEMBLE DE PHRASES D'UN DOCUMENT NUMERIQUE, PROCEDE DE GENERATION D'UN
DOCUMENT NUMERIQUE, DISPOSITIF ASSOCIE
DOMAINE
L'invention concerne le domaine des procédés et des systèmes permettant d'extraire des données pertinentes et exploitables selon certains critères d'un corpus de documents numériques. Plus particulièrement, le domaine de l'invention se rapporte aux procédés de génération d'un résumé d'un document numérique dont certaines caractéristiques sont paramétrables. ETAT DE L'ART
Actuellement certains procédés permettent, à partir d'un document numérique, d'identifier des passages ou des extraits de ce document à partir d'une méthode statistique. Ces méthodes visent à extraire des données d'un document numérique, par exemple des mots ou des phrases, en fonction d'occurrences de certains TAGS prédéfinis dans le document.
Les méthodes actuelles qui permettent de générer dynamiquement un résumé d'un document numérique ne semblent pas proposer un niveau de cohérence et de fidélité suffisant pour être exploitables par un utilisateur.
En effet, une difficulté de telles méthodes est de permettre à un utilisateur d'accéder aux éléments essentiels d'un document numérique par le bais de la génération d'un résumé. Ce dernier doit comporter une cohérence et une fidélité suffisante pour être exploitable. Les méthodes actuelles se basent sur une sémantique définie par un utilisateur, par la définition de mots clefs par exemple, qui ne suffit pas à elle seule à conserver une cohérence et un sens du document numérique. Il est même possible par l'utilisation de telles méthodes de dénaturer la cohérence d'un document numérique ou de générer un contre sens en décontextualisant certaines données du document numérique.
RESUME DE L'INVENTION
L'invention permet de résoudre les inconvénients précités.
L'invention a pour objet un procédé d'identification d'un ensemble de phrases d'un premier document numérique. Le procédé d'identification comprend :
• une étape d'importation du premier document numérique dans au moins un format prédéfini permettant : soit d'afficher le document dans une première interface soit de le stocker dans une mémoire ;
• une étape de sélection dans une base de fragments de phrases indicateurs, notée FPI dont chacun des termes peut être décliné grâce à un dictionnaire morphologique, ladite FPI comprenant un ensemble de TAG linguistiques, chacun des TAG linguistiques comprenant une première attribution de valeurs numériques choisies dans un premier intervalle défini par une première valeur minimale et une première valeur maximale ;
• une étape de segmentation du premier document numérique permettant de :
o déterminer un premier ensemble de phrases du premier document ;
o numéroter les phrases de ce premier ensemble définissant une première séquence ;
• une étape de comparaison des termes de chaque phrase du premier document segmenté et des TAG linguistiques de la base de fragments de phrases indicateurs permettant de repérer la présence des TAG linguistiques dans lesdites phrases ;
• une étape de pondération de chacune des phrases par attribution d'un premier score correspondant à la somme des valeurs de chaque TAG linguistique repérés dans chacune des phrases ;
• une étape d'identification d'un second ensemble de phrases compris dans le premier ensemble de phrases ayant une pondération supérieure à un premier seuil.
Dans un mode amélioré, le procédé d'identification d'un ensemble de phrases d'un premier document numérique :
• l'étape de sélection comprend la sélection d'un thésaurus définissant un fichier comprenant une liste de TAG sémantiques d'un domaine, chacun des TAG sémantiques comprenant une seconde attribution de valeurs pour chaque TAG sémantique comprises dans un second intervalle définit par une seconde valeur minimale et une seconde valeur maximale;
• l'étape de pondération de chacune des phrases par attribution d'un second score correspondant à la somme des valeurs de chaque TAG sémantiques repérés dans chacune des phrases.
Dans un autre mode de réalisation qui peut se combiner avec le précédent,
• l'étape de sélection comprend la sélection d'un ensemble de TAG définis par un utilisateur définissant des TAG utilisateurs comprend des expressions sémantiques et/ou des termes, chacun des TAG utilisateurs comprenant une troisième attribution de valeurs pour chaque TAG utilisateurs comprises dans un troisième intervalle définit une troisième valeur minimale et une troisième valeur maximale;
• l'étape de pondération de chacune des phrases par attribution d'un troisième score correspondant à la somme des valeurs de chaque TAG utilisateurs repérés dans chacune des phrases.
Un avantage technique des caractéristiques de l'invention est que la base de fragments de phrases indicateurs permet d'identifier des termes ou des expressions qui peuvent comporter des TAG associés à la structure d'un texte et à l'importance de données spécifiques dans un contexte particulier. De tels TAG peuvent être par exemple : « en conclusion », « pour finir », « le plus important », etc.
Un avantage du procédé de l'invention est que les TAGS de la base de fragments de phrases indicateurs sont dissociés des mots clefs définis par un utilisateur susceptibles de l'intéresser. En outre, un thésaurus
peut être associé de manière à identifier des phrases selon un domaine précis, par exemple le domaine économique.
Avantageusement, le premier seuil est calculé à partir d'un taux de condensation défini par le nombre de phrases souhaité par un utilisateur du second ensemble sur le nombre total de phrases du premier ensemble de phrases.
Avantageusement, le premier seuil est calculé à partir d'un taux de condensation défini par le nombre de termes souhaités par un utilisateur du second ensemble de phrases sur le nombre total de termes du premier ensemble de phrases.
Avantageusement, une interface permette de configurer le taux de condensation.
Avantageusement, une étape d'affichage au moyen d'une interface du premier document numérique comprend la génération des phrases identifiées selon une taille de caractère plus importante que les phrases non identifiées.
Avantageusement, l'étape de comparaison (E_COM) comprend la détermination de termes racines des TAG linguistiques du FPI à partir d'un dictionnaire morphologique et la comparaison des déclinaisons des termes racines des TAG linguistiques avec chaque phrase du document numérique.
Avantageusement, l'étape de pondération comprend la somme des premiers, seconds et/ou troisièmes score(s) pour chacune des phrases du document numérique, définissant ainsi un poids sémantique, le poids sémantique de chaque phrase étant comparé à un seuil prédéfini dans l'étape d'identification.
Avantageusement, la valeur moyenne des valeurs de la seconde attribution (ATT2) est dans un intervalle représentant 20% du premier l'intervalle centré sur la valeur moyenne des valeurs de la première attribution.
Cette configuration permet d'obtenir une très bonne pertinence du résumé généré en termes de conservation de la fidélité du sens général du texte d'origine. Les relations définissant le premier et le second intervalles ont une importance quant au résumé qui est généré et de la fidélité du sens du texte d'origine qui est conservé. La configuration décrite ci-dessus résulte
d'une analyse d'un grand nombre d'essais et a permis un réglage optimal cette configuration.
Avantageusement, la valeur moyenne des valeurs de la troisième attribution (ATT3) est dans un intervalle représentant 20% du premier l'intervalle centré sur la valeur moyenne des valeurs de la première attribution.
Cette configuration permet d'obtenir une très bonne pertinence du résumé généré en termes de conservation de la fidélité du sens général du texte d'origine. Les relations définissant le premier et le troisième intervalles ont une importance quant au résumé qui est généré et de la fidélité du sens du texte d'origine qui est conservé. La configuration décrite ci-dessus résulte d'une analyse d'un grand nombre d'essais et a permis un réglage optimal cette configuration. En outre, l'objet de l'invention concerne un procédé de génération d'un document numérique, noté « résumé numérique », comprenant la génération et l'affichage sur un afficheur du second ensemble de phrases, les dites phrases étant identifiées à partir du procédé d'identification de l'invention, selon une séquence ordonnée par une numérotation croissante.
Avantageusement, le résumé numérique généré comprend des symboles activables, un symbole activable étant associé à chacune des phrases du second ensemble, les phrases du résumé numérique et les symboles activables étant affichées sur un afficheur de manière à ce que les symboles activables soient affichées à proximité des phrases, l'activation d'au moins un symbole activable d'une phrase sélectionnée générant un second résumé numérique, le second résumé numérique comportant des phrases ordonnées dont la numérotation est successive, cet ensemble comportant ladite phrase sélectionnée et un premier ensemble de phrases dont la numérotation précède celle de la phrase sélectionnée et un second ensemble de phrases dont la numérotation succède à celle de la phrase sélectionnée.
Avantageusement, l'activation d'un symbole activable est réalisé au moyen d'un clic de souris pour ordinateur ou d'un survol d'un curseur sur des données activables ou d'un toucher tactile dans une zone comprenant le symbole activable.
Avantageusement, le symbole activable est un caractère alphanumérique.
Avantageusement, le symbole activable est un numéro représentant le numéro de la phrase dans le premier document.
En outre, l'objet de l'invention concerne un procédé de génération d'un document numérique, appelé « synthèse numérique ».
Avantageusement, le procédé de génération d'un résumé numérique est appliqué à un ensemble de documents numériques de manière à générer une pluralité de résumés numériques, ledit procédé comportant une étape de génération d'une synthèse numérique à partir de la définition d'un paramètre, dit de taux de répartition, représentant la quantification des données de chaque résumé numérique présente dans la synthèse et d'un second taux de condensation de chaque résumé numérique, la synthèse numérique comprenant un ensemble de phrases ordonnées et sélectionnées en fonction du taux de répartition et du second taux de condensation de chacun des résumé numérique.
En outre, l'objet de l'invention concerne un dispositif de génération d'un document numérique comportant un afficheur permettant d'afficher au moins un document numérique, un calculateur permettant de mettre en œuvre les étapes du procédé de l'invention. Le dispositif comprend également une interface permettant de paramétrer au moins un premier taux de condensation, un système de commandes permettant de lancer la génération d'un premier résumé du numérique.
Avantageusement, le système de commandes permet de lancer la génération d'un second résumé numérique du premier résumé numérique.
Avantageusement, l'interface comprend une première fenêtre permettant d'afficher un ensemble de documents numériques et une seconde fenêtre permettant d'afficher un ensemble de résumés numériques correspondant au résumé de chaque document de la première fenêtre.
Avantageusement, l'interface comprend des premiers moyens de sélection d'un taux de condensation d'un résumé numérique, des seconds moyens de sélection d'un thésaurus parmi, une liste de thésaurus prédéfinie et des moyens permettant de définir des TAG d'un utilisateur.
BREVES DESCRIPTION DES FIGURES
D'autres caractéristiques et avantages de l'invention ressortiront clairement de la description qui est donnée ci-après, à titre purement indicatif et nullement limitatif, de modes de réalisation faisant références à différentes figures sur lesquelles :
■ la figure 1 représente un schéma des principales étapes du procédé de l'invention.
DESCRIPTION
La figure 1 représente les principales étapes du procédé dont notamment :
■ une étape d'importation d'un document numérique, notée EJMP ;
■ une étape de sélection d'un ensemble de fichiers ou de données d'une base de données, tels que la base de fragments de phrases indicateurs, noté FPI, un thésaurus noté THE et définissant un champ lexical d'un domaine ou encore une liste de TAG noté
TAGJJTI et définie par un utilisateur ;
■ une étape de segmentation E_SEG du document numérique en une pluralité de phrases ;
■ une étape de comparaison, notée E_COM, de termes ou d'expressions des phrases du document segmenté avec les TAG de chaque fichiers sélectionnés ;
■ une étape de pondération, notée E_PON, permettant d'attribuer un score à chaque phrase ;
■ une étape d'identification, notée EJDE, de phrases ayant un score supérieur à un seuil prédéfini ;
■ éventuellement le procédé de l'invention comporte une étape de génération d'un résumé numérique, notée E_GEN, comprenant les phrases identifiées à l'étape EJDE, les phrases étant affichées selon un séquencement prédéfini.
Dans la suite la description de chaque étape du procédé de l'invention est décrite en détail. Des étapes supplémentaires peuvent être
réalisées dans le procédé dans certains modes de réalisation améliorés de l'invention.
Le procédé de l'invention comprend une étape d'identification d'un premier document numérique dont on souhaite extraire un ensemble de phrases selon un certain nombre de critères. Les phrases extraites permettront dans un mode de réalisation de l'invention de générer un résumé, appelé résumé numérique dans la suite de la description.
Le procédé comprend donc l'identification d'un document numérique, l'identification du document numérique pouvant être réalisée de différentes manières. Ce document peut comporter un titre, une date, une langue ou encore une pluralité de langue, un code de référence pouvant servir d'identifiant. En outre, le document peut comporter des données décrivant sa forme telles que son nombre de page, son nombre de mots, sa disposition ou son format. Le document doit être sous forme numérique, c'est-à-dire comprenant au moins un ensemble de caractères alphanumériques identifiables, par exemple par un logiciel de traitement de texte ou un navigateur internet. Tout type de format du document numérique est compatible du procédé de l'invention à savoir par exemple un format texte, un format html, ou encore tout document dont les formats sont connus par leur abréviation ou leur nom commercial ou leur extension parmi lesquelles on trouve notamment :.doc et .docx, xls, rtf, ppt, xls, pdf ou open office.
L'étape d'identification du document peut être précédée ou suivie d'une étape d'importation dudit document numérique. L'importation du document numérique ou d'un ensemble de documents contenus dans dossier/répertoire peut se faire également au même moment que son identification.
Les données de forme du document numérique peuvent être déterminées par le procédé de l'invention lors de l'étape d'importation.
Le procédé permet donc d'importer au moins un document numérique et de le stocker dans un espace mémoire, par exemple la mémoire d'un composant d'un ordinateur ou d'un serveur de données.
Le stockage du document peut être effectué dans un répertoire d'un système d'exploitation d'un ordinateur.
L'importation peut être réalisée par tout moyen informatique permettant de sauvegarder les données contenues dans le document numérique. Par exemple, l'importation peut être effectuée en copiant le fichier, en utilisant une fonction « copier/coller » d'un éditeur ou encore par téléchargement du document provenant d'un autre ordinateur. L'importation peut-être également réalisée en affichant une partie ou la totalité du contenu dudit document numérique stocké sur un serveur dans un navigateur d'un ordinateur local. Le procédé de l'invention comporte une étape de sélection, notée
E_SEL, d'une base de fragments de phrases indicateurs également noté FPI signifiant « Fragment de Phrases Indicateurs ». Cette base de fragments de phrases indicateurs comprend un ensemble de TAG linguistiques, notés TAGJJN, prédéfinis. Les TAG linguistiques peuvent comprendre des termes ou des expressions, c'est-à-dire un ensemble de termes ayant un sens pris ensemble. Cette base de FPI peut être liée à un dictionnaire morphologique qui va permettre toutes les dérivations des termes répertoriés dans cette base.
D'une manière générale, on note dans la suite de la description un TAG comme étant un terme ou un ensemble de termes formant une expression et ayant un sens syntaxique ou grammaticale.
Chaque TAG linguistique du FPI comprend une première attribution d'une valeur numérique choisie dans un premier intervalle, noté 11 . Le premier intervalle est défini par une première valeur minimale, notée TAG_LIN_MIN et une première valeur maximale notée TAG_LIN_MAX.
Un dictionnaire linguistique peut être associé à la base de fragments de phrases indicateurs pour une langue donnée. Il peut exister une pluralité de dictionnaires linguistiques qui peuvent être sélectionnés dans le procédé de l'invention.
En outre, un dictionnaire morphologique comprend des données permettant de reconnaître un TAG linguistique dit « racine » ou une expression comprenant une pluralité de termes également appelée « racine » permettant d'associer des variantes de TAG ou d'expression en fonction de règles grammaticales ou de conjugaisons. Ces données
permettent de regrouper, sous une même racine, une famille de TAG et/ou d'expressions.
Un avantage du dictionnaire morphologique de l'invention est qu'il est optimisé de sorte à permettre de générer des scores rapidement avec une pertinence optimisée. Notamment, le dictionnaire morphologique peut comprendre un nombre limité d'expressions ce qui permet d'alléger les opérations de reconnaissances de terminaisons comprises dans le dictionnaire morphologique. En outre, un autre avantage du dictionnaire morphologique de l'invention est de supprimer les déclinaisons de certaines conjugaisons non utiles dans le procédé de l'invention. A titre d'exemple, les modes impératifs, les conjugaisons de la seconde personne du singulier ainsi que les conjugaisons de la seconde personne du pluriel ne sont pas présentes dans le dictionnaire morphologique. Ce dictionnaire morphologique est spécialement adapté au procédé de l'invention de sorte à optimiser la pertinence des résultats et les temps de calculs.
Une base de fragments de phrases indicateurs comprend un ensemble de TAG linguistique, chacun ayant une valeur attribuée représentant un degré d'importance linguistique prédéfini vis-à-vis du sens d'une phrase. A titre d'exemple, l'expression « en conclusion » revêt une importance quant à ce qui va être annoncé juste après dans la phrase. D'autres exemples peuvent être cités comme : « un point important » ou encore « il est primordial » qui sont des expressions comportant une valeur attribuée proche de la limite maximale du premier intervalle.
En conséquence, la base de fragments de phrases indicateurs comprend une première attribution, notée ATT1 , de valeurs à chaque TAG de la base qui représente une « importance » vis-à-vis du sens des termes qui sont supposés être exposés précédemment ou successivement à un TAG linguistique donné.
Les valeurs de la première attribution sont comprises dans un premier intervalle de valeurs. Le premier intervalle est défini par une valeur minimale et une valeur maximale.
Les valeurs sont préférentiellement prédéfinies et attribuées manuellement par un opérateur. En outre, elles peuvent être générées automatiquement selon le type de base de FPI qui a été sélectionné.
Dans un exemple simplifié de l'invention, tous les termes d'un ensemble de TAGJJN peuvent comprendre la même valeur attribuée, notée
V1 moy- L'étape de sélection du procédé de l'invention peut comprendre également la sélection d'un thésaurus noté THE, cette étape est réalisée dans l'étape E_SEL.
Un thésaurus définit un fichier comprenant une liste de TAG sémantiques, les TAG étant notés TAG_SEM et représentent un champ lexical d'un domaine prédéfini. Le procédé de l'invention peut comprendre la sélection d'une pluralité de thésaurus par un utilisateur.
Chacun des TAG sémantiques comprend une seconde attribution, notée ATT2, de valeurs comprises dans un second intervalle, noté 12, définit par une seconde valeur minimale, notée TAG_SEM_MIN et une seconde valeur maximale TAG_SEM_MAX.
Dans un exemple simplifié de l'invention, tous les termes d'un thésaurus peuvent comprendre la même valeur attribuée, notée V2moy.
L'étape de sélection du procédé de l'invention peut comprendre également la sélection d'un ensemble de TAG définis par un utilisateur définissant des « TAG utilisateurs », notés TAGJJTI. Les TAG utilisateurs peuvent comprendre des expressions sémantiques et/ou des termes simples.
Chaque TAG utilisateur comprend une troisième attribution, notée ATT3 de valeurs comprises dans un troisième intervalle, noté 13, défini par une troisième valeur minimale (TAG_UTI_MIN) et une troisième valeur maximale (TAG_UTI_MAX).
Dans un exemple simplifié de l'invention, tous les termes d'un ensemble de TAG utilisateurs peuvent comprendre la même valeur attribuée, notée V3moy.
La base de fragments de phrases indicateurs peut être définie dans un fichier texte ou une base de données ou tout autre fichier numérique dont la consultation et les opérations sont autorisées. Il en est de même pour les thésaurus et les ensembles de TAG utilisateurs.
Une interface permet à un utilisateur d'éditer un fichier de TAG utilisateurs ou de sélectionner par exemple dans un menu déroulant un thésaurus. La sélection d'une langue, par exemple à partir d'une case à cocher numérique permet de définir et d'associer le thésaurus associé.
Le procédé de l'invention comprend une étape de segmentation, notée E_SEG, du premier document numérique permettant de déterminer un premier ensemble de phrases, noté P1 , du premier document numérique. Lors de la reconnaissance de chacune des phrases du document numérique, les phrases sont numérotées et définissent une première séquence.
L'étape de segmentation comprend donc une identification des phrases par exemple à partir d'un analyseur syntaxique qui reconnaît chaque couple {point de ponctuation - majuscule} dans le document numérique.
Dans un mode de réalisation, une partie des phrases du document numérique peuvent être identifiées ce qui permet d'appliquer le procédé de l'invention à une partie seulement d'un document numérique. Par exemple, il est possible de limiter la segmentation à un chapitre d'un document numérique, le chapitre étant délimité par des symboles ou une police ou un titre permettant de définir la partie du document auquel s'applique le procédé. L'utilisateur peut disposer de moyens de sélection d'une partie d'un texte, par exemple par une sélection à partir d'un curseur et d'une souris sur un document numérique affiché dans un afficheur.
Un avantage de pouvoir paramétrer la partie du document numérique auquel s'applique le procédé est de pré-segmenter un texte de plusieurs chapitres par exemple qui traite chacun de sujet dans des domaines différents.
Si le procédé de génération d'un résumé numérique est localement appliqué à une partie d'un document, tel qu'un chapitre par exemple, cela permet d'appliquer le procédé à différents chapitres et de générer une pluralité de résumés numériques dont le contenu peut être plus pertinent et plus proche du sens original du document numérique.
Le procédé de l'invention peut donc comporter une étape de présegmentation permettant d'identifier des parties d'un document et une étape de segmentation permettant d'identifier toute ou une partie des phrases du
document. Ce cas est notamment avantageux lorsque des chapitres d'un document numérique traite de sujets très différents.
Le procédé de l'invention permet, en outre, d'ordonner les phrases identifiées, les dites phrases définissant ainsi une séquence. Dans un mode de réalisation préféré, l'ordre d'apparition des phrases dans le premier document numérique est l'ordre de la séquence des phrases lors de l'étape de segmentation. Dans un mode de réalisation simple, les phrases sont simplement numérotées de la première à la dernière phrase du document numérique ou d'une partie du document numérique.
Le procédé de l'invention comprend une étape de comparaison, notée E_COM, entre les termes de chaque phrase du premier document segmenté et des TAG linguistiques de la base de fragments de phrases indicateurs et éventuellement des déclinaisons obtenues à partir d'un dictionnaire morphologique. Cette étape de comparaison permet de repérer la présence des TAG linguistiques et de leurs déclinaisons dans les phrases du texte d'origine.
Dans une alternative du procédé de l'invention, il est possible d'effectuer cette étape de comparaison sur une partie ou la totalité du document numérique et de réaliser l'étape de segmentation ensuite.
Dans un mode de réalisation amélioré du procédé de l'invention, il est possible pour chacune des phrases du texte segmenté à partir :
· d'une ou plusieurs bases de fragments de phrases indicateurs comprenant un premier ensemble de TAG linguistiques, TAGJJN et de leurs déclinaisons ;
• d'un ou plusieurs thésaurus comprenant un second ensemble de TAG sémantiques, TAG_SEM, et ;
· d'un ensemble de TAG utilisateurs, TAG_UTI,
de comparer les termes ou expressions de ces dernières phrases avec le premier et/ou le second et/ou le troisième ensemble de TAG définis précédemment.
Dans la description qui suit et dans la définition de l'invention, nous entendons par « TAG linguistiques », les « TAG linguistiques » définis dans la base de fragments de phrases indicateurs ainsi que leurs déclinaisons déduites d'un dictionnaire morphologique lorsqu'il est utilisé.
Le procédé de l'invention comprend au moins la sélection d'une première base de fragments de phrases indicateurs définissant un premier ensemble de TAG. De manière à améliorer la cohérence des phrases identifiées selon le procédé de l'invention, un thésaurus et un ensemble de mots clefs utilisateurs peuvent être utilisés.
Le procédé de l'invention permet de lister tous les termes ou expressions de chaque phrase présente dans les trois ensembles de TAG définis précédemment.
Le procédé de l'invention comprend une étape de pondération de chaque phrase. L'étape de pondération d'une phrase comprend la sommation des valeurs attribuées de chaque TAG présent dans ladite phrase, les TAG pouvant provenir d'un des trois ensembles de TAG définis précédemment.
Une pondération permet donc de quantifier la représentativité de la phrase vis-à-vis d'au moins un FPI lié au dictionnaire morphologique, d'au moins un thésaurus ou au moins un ensemble de mots clefs sélectionnés pour le premier document numérique.
Ainsi le procédé de l'invention comprend une étape de segmentation qui permet de générer une liste de phrases ordonnées et comprenant un score obtenue par l'étape de pondération.
Dans un exemple de réalisation, un fichier constituant une base de fragments de phrases indicateurs de mots et d'expressions définissants un premier ensemble de {TAG_LINi}ie[i ; N] est associé au document numérique.
Toujours dans cet exemple, un fichier est sélectionné représentant un thésaurus d'un domaine choisi par un utilisateur comprenant un second ensemble de TAG sémantiques {TAG_SEMi}ie[i ; P] d'un champ lexical de ce domaine
Un opérateur défini manuellement un troisième ensemble de {TAG_UTIi}ie[i ; K] utilisateurs qu'il souhaite associer à ce document numérique. Dans cet exemple, les trois listes de TAG {TAG_LINi}ie[i ; N],
{TAG_SEMi}ie[i ; p], {TAG_UTIi}ie[i ; K] permettent de calculer les valeurs attribuées à chacun des termes de chacune des phrases identifiées dans le document numérique.
La première liste {TAG_LINi}ie[i ; N] permet notamment de repérer dans le document numérique des expressions contextualisant des phrases importantes, telles que : « en conclusion », « pour finir », « retenons que », « il est primordial que », etc. Cette liste est non représentative de tous les exemples possibles mais permet de définir un exemple précis de réalisation.
Chacune de ces expressions ou de ces termes a une valeur définie dans un premier intervalle qui peut être attribuée à chaque terme.
Si le premier intervalle est de 1 à 100. Les expressions « en conclusion », « pour finir » peuvent avoir une valeur de 70 et les expressions « retenons que », « il est primordial que » peuvent avoir une valeur de 90. L'étape de pondération permet d'attribuer à chaque phrase du document numérique une valeur de pondération qui est par exemple la somme des valeurs de chaque terme ou expression de la phrase étant identifiés dans un des ensembles de TAG. Par exemple si une phrase comprend les deux expressions : « Pour finir, retenons que... », une valeur de la phrase peut déjà être de 70 + 90 = 160. Cette somme est, pour l'instant, calculée sans compter des valeurs potentiellement attribuées à d'autres termes de la phrase présents dans les autres listes de TAG.
Si le thésaurus « Economie » est sélectionné, des termes comme « bilan », « business plan », « entreprise », « faillite », etc peuvent définir un champ lexical que l'on souhaite appliqué dans l'extraction de phrases pertinentes d'un document. Dans cet exemple, le second intervalle est défini par une valeur minimale de 0 et une valeur maximale de 50. Dans un exemple simplifié tous les termes du thésaurus ont une valeur de 25.
En reprenant l'exemple précédent, une phrase commençant par « Pour finir, retenons que la faillite de l'entreprise A... » cumule les valeurs
de 70, 90, 25 et 25 et le score pour l'instant attribué à la phrase est de 70 + 90 + 25 + 25 = 210.
Si l'utilisateur a défini une liste de mot clef définissant des TAG_UTI tels que « 201 1 » ou « camembert ». Dans cet exemple, le troisième intervalle est défini par une valeur minimale de 0 et une valeur maximale de 50. Dans un exemple simplifié tous les termes des TAG utilisateurs ont une valeur de 25.
Dans, l'exemple précédent, une phrase commençant par « Pour finir, retenons que la faillite de l'entreprise A spécialisée dans les téléviseurs est due à son étonnant changement d'activité, notamment dans le camembert en 201 1 . » cumule les valeurs de 70, 90, 25, 25, 25 et 25 et le score attribué à cette phrase est de 70 + 90 + 25 + 25 + 25 + 25 = 260.
Le procédé comprend une étape d'identification, notée EJDE, d'un second ensemble de phrases, noté P2 compris dans le premier ensemble de phrases P1 formant le document numérique ayant un score supérieure à un premier seuil.
L'étape d'identification comprend la comparaison de chaque pondération de chaque phrase à une valeur définissant un seuil prédéfini. Le seuil prédéfini peut être fixé à l'avance ou modifié à tout moment au moyen d'une interface.
Le procédé de l'invention comprend en outre une étape de paramétrage du procédé de l'invention définie ci-après.
L'étape d'identification permet la génération d'une seconde liste de phrases dont le score est supérieur à un seuil prédéfini. Dans une alternative il est possible de définir un nombre maximum de phrases du résumé numérique qu'un utilisateur souhaite définir. Ce nombre maximum de phrases peut s'exprimer en fonction d'un pourcentage du nombre de phrases du document ou de la partie du document auquel s'applique le procédé de l'invention. Les phrases ayant le meilleurs score soit au-dessus d'un seuil soit déterminé par un nombre de phrase maximum définissent un second ensemble de phrases P2.
Les phrases de la seconde liste sont ordonnées et comprennent une numérotation, par exemple la même numérotation que dans la première liste.
Ainsi si la première liste comprend par exemple 100 phrases numérotées de 1 à 100 et que seules 5 phrases ont été retenues dans la seconde liste, dont les phrases numérotées 20, 30, 40, 50 et 61 , leur numérotation peut être préservées dans la seconde liste.
Le procédé sera toujours capable de les ordonner par exemple pour les afficher dans un ordre précis en comparant les numérotations de chacune des phrases. Il sera tout aussi simple d'établir la comparaison suivante : 20 < 30 < 40 < 50 < 61 , pour établir un ordre que de renuméroter les phrases sélectionnées suite à l'étape de comparaison de leur score avec un seuil prédéfini. Un avantage de la seconde liste de TAG est qu'elle permet d'orienter l'identification des phrases du document numérique selon un thésaurus formé par un ensemble de TAG représentatif d'un domaine précis.
Ainsi il peut être généré autant de résumés numériques du premier document numérique que de fichiers différents parmi lesquels on trouve par exemple le FPI, un fichier de langues, un thésaurus particulier ou un fichier comprenant une liste de TAG utilisateur.
L'invention permet de configurer un rapport entre les intervalles 11 , 12 et 13 ou de leur données représentatives telle que la valeur moyenne des valeurs attribuées d'un intervalle ou le centre de chaque intervalle.
Une première configuration consiste à choisir un intervalle 12 inclus dans l'intervalle 11 . De manière analogue, un intervalle 13 peut être choisi de sorte à être inclus dans l'intervalle 11 . C'est-à-dire que la borne supérieure du premier intervalle 11 est supérieure à la borne supérieure du second intervalle 12. Identiquement, la borne supérieure du premier intervalle 11 peut être également supérieure à la borne supérieure du troisième intervalle 13.
Ces configurations sont particulièrement avantageuses dans la mesure où de nombreux tests ont été conduits permettant d'aboutir à des
résultats pertinents de résumés générés avec cette configuration. Etant donné que l'intervalle 11 représente des valeurs d'un ensemble de FPI défini manuellement conjointement à un dictionnaire morphologique, cet ajustement a été défini selon une analyse d'un grand nombre de résultats et d'essais. En effet, les FPI ont été définis à partir de la collecte et l'analyse de fragments de phrases associés à une importance du sens des phrases comprenant ces FPI. On comprend alors que l'ajustement des intervalles requiert une importance lors de la configuration.
En effet, un résumé pertinent ne peut être jugé qu'en comparaison de la lecture du texte original dont il est issu. A cet effet, de nombreux essais ont permis de définir des intervalles 11 , 12 et 13 et de leur relations permettant de générer les phrases ayant les meilleurs scores reflétant le mieux la nature du texte dont le résumé est généré. Une configuration particulièrement avantageuse pour optimiser la cohérence et la fidélité du document numérique dans l'identification des phrases du procédé peut être définie. Notamment, la définition de la borne maximale du premier intervalle peut être prise sensiblement égale à la moitié de la borne maximale du second ou du troisième intervalle. Cette configuration permet de privilégier les formes syntaxiques d'un document représentant des propos ayant une importance quant au sens.
Avantageusement, ce paramétrage peut être configuré selon la nature des documents dont le procédé réalise l'identification des phrases. Par exemple, des documents de brevets, des publications scientifiques, des brochures commerciales, des manuels, des guides, des modes d'emploi, des livres tels que des romans comporte chacun un lexique morphologique propre à la nature du document. En conséquence les données caractéristiques des intervalles 11 , 12 et 13 peuvent être adaptées au cas par cas.
Le procédé de l'invention comprend dans un mode amélioré, une étape préliminaire de paramétrage au moyen d'une interface permettant à un opérateur d'adapter à ses besoins l'application du procédé au texte numérique.
Un premier paramétrage comprend la définition d'une première valeur représentant le degré de condensation du document numérique. Cette
valeur représente un rapport entre le nombre de phrases identifiées par le procédé de l'invention et le nombre de phrases du document numérique ou d'une partie identifiée de ce dernier.
On entend par meilleur score : le score le plus élevé d'une phrase lorsque les valeurs attribuées sont additionnées positivement ou encore les scores dépassant un certain seuil prédéfini.
L'utilisateur peut par exemple choir d'afficher les phrases identifiées ayant le meilleur score et représentant 10% du nombre de phrases du document. En conséquence, le procédé de l'invention choisira sur 100 phrases d'un document numérique, les 10 phrases ayant le meilleur score.
On appelle « taux de condensation », le rapport entre le nombre de données générées dans le résumé numérique et le nombre de données du document numérique. Les données peuvent être exprimées en nombre de caractères, en nombre de mots, en nombre de phrases, en nombre de paragraphes ou encore en nombre de page selon les différents modes de réalisation de l'invention.
Le procédé de l'invention concerne un procédé d'identification de phrases d'un document numérique qui peuvent être générées selon une symbologie particulière dans leur contexte initial. Le contexte initial est défini par l'affichage d'une phrase parmi les autres phrases du document numérique, c'est-à-dire normalement lorsque que le texte du document est simplement affiché.
La symbologie particulière peut concerner une couleur, une police ou une taille de police. Ainsi lorsque le procédé s'applique par exemple à un texte numérique affiché dans un navigateur internet, les phrases identifiées selon le procédé de l'invention peuvent apparaître en gras avec un corps de police supérieur au corps de police des phrases non identifiées. D'autres possibilités de démarcation facilitant la lecture dite « en diagonale » d'un texte peuvent être combinées ensembles. La génération des phrases identifiées selon le procédé de l'invention avec une symbologie particulière pour être reconnaissables, lorsqu'elles sont générées dans leur contexte initial, peuvent l'être dans tout afficheur ou tout logiciel d'affichage numérique tel qu'un éditeur ou un navigateur numérique.
L'invention permet de générer les phrases identifiées dans la même police de caractère mais avec une variation des formats correspondants aux scores calculés pour chacune des phrases. Par exemple, les phrases de score plus conséquent se verront attribuer un affichage plus grand. Les phrases de score moins conséquent se verront attribuer un affichage plus petit. Un dégradé de cet affichage est appliqué à tout le document source. Les phrases pouvant véhiculer des informations importantes sont affichées en grands caractères. Inversement, celles de moindre importance sont affichées en petits caractères. Une échelle de grandeur de cet affichage permet à l'utilisateur de parcourir en un seul coup d'œil le document et/ou son résumé .
Le procédé peut s'appliquer à un corpus de N documents numériques, par exemple, par la génération d'un résumé numérique de l'ensemble des phrases de tous les documents numériques. Il est également possible de spécifier un taux de condensation pour chacun des documents. Le procédé exécute alors le procédé de l'invention sur une liste de documents et permet d'afficher alors une synthèse numérique. La synthèse numérique est la juxtaposition d'une pluralité de résumés numériques générés par le procédé de l'invention appliqué à plusieurs documents numériques.
La synthèse numérique est générée par le procédé de l'invention auquel deux étapes supplémentaires ont été ajoutées. Il y a alors une première étape de paramétrage permettant de spécifier le taux de condensation de chaque résumé du numérique contribuant à l'élaboration de la synthèse numérique. Il y a une étape de création de la synthèse par la juxtaposition d'une pluralité de résumés numériques.
Prenons par exemple trois documents numériques D1 , D2, D3 dont le procédé est exécuté pour générer une synthèse numérique. Le procédé de l'invention s'applique à chacun des documents numériques en spécifiant dans le paramétrage d'une interface le taux de condensation de chacun des résumés de chacun des documents.
Par exemple, un premier résumé R1 comprend un taux de condensation de 20% de D1 , un second résumé R2 comprend un taux de condensation de 10% de D2, un troisième résumé comprend un taux de
condensation de 5% de D1 . La synthèse numérique S1 comprend alors la juxtaposition des trois résumés R1 , R2 et R3.
L'invention comprend un dispositif de génération d'au moins un résumé numérique. Ce dernier comprend des moyens de calculs permettant de mettre en œuvre les étapes du procédé, un afficheur permettant d'afficher le document numérique et/ou le résumé numérique. En outre, le dispositif de l'invention comprend des moyens de sélection de paramètres de la configuration ou du paramétrage du procédé,
En outre, l'afficheur peut comprendre un navigateur disposant :
• d'une première fenêtre permettant d'afficher d'une part une pluralité de symboles représentant des documents ordonnés selon une séquence donnée et d'autre part les titres ou des références des documents de manière à les rendre identifiables ;
• d'une seconde fenêtre permettant d'afficher les résumés de chacun des documents, le résumé étant généré au moyen du procédé de l'invention.
Dans la seconde fenêtre l'ordre d'affichage des résumés, par exemple les uns au-dessous des autres, peut être fidèle à la séquence d'affichage des documents. Ainsi, pour un utilisateur il y a une cohérence entre l'ordre d'affichage des documents ou de leurs symboles dans une première fenêtre et les résumés qui sont dans une seconde fenêtre préférentiellement disposée à côté de la première fenêtre.
Dans un mode de réalisation, un symbole est généré à proximité de chaque phrase du résumé numérique. Chaque symbole est activable par des moyens de sélection contrôlés par un utilisateur tels qu'une souris et curseur ou un toucher tactile sur un écran tactile.
Le symbole peut être un ou plusieurs caractère(s) alphanumérique(s), par exemple tels que des signes « + » ou « - ». Chaque symbole peut être généré à proximité de chacune des phrases du résumé numérique. Les symboles peuvent tous être générés dans une même partie, par exemple à gauche ou droite du résumé affiché sur la même ligne que le
début ou la fin d'une phrase. Ils peuvent également être affichés dans le texte du résumé numérique après chaque point ou majuscule du texte.
L'activation de ces signes permet de générer l'affichage des phrases consécutives ou précédentes la phase positionnée à côté du signe. Cette caractéristique permet de contextualiser une phrase qui aurait perdu du sens lors de son extraction du document numérique.
Par ailleurs, un double-clic sur une phrase du résumé généré permet sa suppression de la liste des phrases retenues pour le cas où l'utilisateur ne souhaiterait pas disposer de cette phrase dans le résumé final,
Ainsi le dispositif de l'invention, permet d'offrir un moyen simple à l'utilisateur de récupérer un degré de cohérence et de fidélité du résumé numérique vis-à-vis du document numérique par une action simple et rapide.
Une activation du signe permet d'afficher immédiatement la phrase précédente et/ou celle suivante la phrase associée à un symbole activé. Un double-clic sur la phrase permet sa suppression de l'affichage.
Selon le paramétrage effectué, une action sur un signe permet d'afficher une ou une pluralité de phrases avant ou après la phrase dont on souhaite éclairer le contexte. Cette donnée est paramétrable dans un mode de réalisation.
Enfin l'invention comprend de nombreux avantages. La définition des TAGJJN de la base de fragments de phrases indicateurs permet au procédé de prendre en compte des expressions et des termes qui représentent une forme d'importance dans l'extraction des points, c'est-à-dire des phrases, importants d'un document qui dépendent de la structure morphologique d'une langue donnée.
Le thésaurus permet d'orienter la génération d'un résumé selon un axe sémantique particulier, par exemple le secteur de l'automobile. Enfin, les mots clefs utilisateurs permettent de prendre en compte des considérations de recherches spécifiques d'un individu.
Ainsi, chaque résumé numérique selon les critères de sélection de fichiers et/ou de définition de TAG permet de générer un résumé « sur mesure ». Ce dernier est généré avec une fidélité et une cohérence vis-à-vis du document numérique qui peuvent être corrigées ou contextualisées.
Claims
REVENDICATIONS
Procédé d'identification d'un ensemble de phrases d'un premier document numérique (D1 ), caractérisé en ce qu'il comprend :
• une étape d'importation (EJMP) du premier document numérique (D1 ) dans au moins un format prédéfini permettant : soit d'afficher le document dans une première interface soit de le stocker dans une mémoire ;
• une étape de sélection (E_SEL) d'une base de fragments de phrases indicateurs (FPI) comprenant un ensemble de TAG linguistiques (TAGJJN), chacun des TAG linguistiques comprenant une première attribution de valeurs numériques choisies dans un premier intervalle (11 ) défini par une première valeur minimale (TAG_LIN_MIN) et une première valeur maximale (TAG_LIN_MAX) ;
• l'étape de sélection comprenant également la sélection d'un thésaurus (THE) définissant un fichier comprenant une liste de TAG sémantiques (TAG_SEM) d'un domaine, chacun des TAG sémantiques comprenant une seconde attribution (ATT2) de valeurs pour chaque TAG sémantique comprises dans un second intervalle (12) défini par une seconde valeur minimale (TAG_SEM_MIN) et une seconde valeur maximale (TAG_SEM_MAX), la seconde valeur maximale (TAG_SEM_MAX) étant inférieure à la première valeur maximale (TAG_LIN_MAX) du premier intervalle (11 ) ;
• une étape de segmentation (E_SEG) du premier document numérique permettant de :
o déterminer un premier ensemble de phrases (P1 ) du premier document (D1 ) ;
o numéroter les phrases de ce premier ensemble définissant une première séquence ;
• une étape de comparaison (E_COM) des termes de chaque phrase du premier document segmenté et des TAG
linguistiques de la base de fragments de phrases indicateurs permettant de repérer la présence des TAG linguistiques dans lesdites phrases ;
une étape de pondération (E_PON) de chacune des phrases par attribution d'un premier score correspondant à la somme des valeurs de chaque TAG linguistique repérés dans chacune des phrases ;
l'étape de pondération (E_PON) de chacune des phrases comprenant en outre une attribution d'un second score correspondant à la somme des valeurs de chaque TAG sémantiques repérés dans chacune des phrases,
une étape d'identification (EJDE) d'un second ensemble de phrases (P2) compris dans le premier ensemble de phrases, o le premier score ou ;
o le second score ou ;
o la somme du premier et du second score, des phrases du second ensemble étant supérieur à un premier seuil.
Procédé d'identification d'un ensemble de phrases d'un document numérique selon la revendication 1 , caractérisé en ce que le premier seuil est calculé à partir d'un taux de condensation défini par le nombre de phrases souhaité par un utilisateur du second ensemble sur le nombre total de phrases du premier ensemble de phrases.
Procédé d'identification d'un ensemble de phrases d'un document numérique selon la revendication 1 , caractérisé en ce que le premier seuil est calculé à partir d'un taux de condensation défini par le nombre de termes souhaités par un utilisateur du second ensemble de phrases sur le nombre total de termes du premier ensemble de phrases.
4. Procédé d'identification d'un ensemble de phrases d'un document numérique selon la revendication 1 , caractérisé en ce qu'une interface permette de configurer le taux de condensation.
5. Procédé d'identification d'un ensemble de phrases d'un premier document numérique selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'une étape d'affichage au moyen d'une interface du premier document numérique comprend la génération des phrases identifiées selon une taille de caractère plus importante que les phrases non identifiées.
Procédé d'identification d'un ensemble de phrases d'un premier document numérique selon l'une quelconque des revendications 1 à
5, caractérisé en ce que l'étape de comparaison (E_COM) comprend la détermination de termes racines des TAG linguistiques du FPI à partir d'un dictionnaire morphologique et la comparaison des déclinaisons des termes racines des TAG linguistiques avec chaque phrase du document numérique.
Procédé d'identification d'un ensemble de phrases d'un premier document numérique selon l'une quelconque des revendications 1 à
6, caractérisé en ce que :
• l'étape de sélection (E_SEL) comprend la sélection d'un ensemble de TAG définis par un utilisateur définissant des TAG utilisateurs (TAGJJTI) comprend des expressions sémantiques et/ou des termes, chacun des TAG utilisateurs comprenant une troisième attribution (ATT3) de valeurs pour chaque TAG utilisateurs comprises dans un troisième intervalle (13) définit une troisième valeur minimale (TAG_UTI_MIN) et une troisième valeur maximale (TAG_UTI_MAX) ;
• l'étape de pondération (E_PON) de chacune des phrases par attribution d'un troisième score correspondant à la somme des valeurs de chaque TAG utilisateurs repérés dans chacune des phrases.
Procédé d'identification d'un ensemble de phrases d'un premier document numérique selon l'une quelconque des revendications 1 à
7, caractérisé en ce que l'étape de pondération comprend la somme des premiers, seconds et/ou troisièmes score pour chacune des
phrases du document numérique, définissant ainsi un poids sémantique, le poids sémantique de chaque phrase étant comparé à un seuil prédéfini dans l'étape d'identification.
9. Procédé d'identification d'un ensemble de phrases d'un premier document numérique selon l'une quelconque des revendications 1 à 8, caractérisé en ce que la valeur moyenne des valeurs de la seconde attribution (ATT2) est dans un intervalle représentant 20% du premier l'intervalle (11 ) centré sur la valeur moyenne des valeurs de la première attribution.
10. Procédé d'identification d'un ensemble de phrases d'un premier document numérique selon l'une quelconque des revendications 1 à 8, caractérisé en ce que la valeur moyenne des valeurs de la troisième attribution (ATT3) est dans un intervalle représentant 20% du premier l'intervalle (11 ) centré sur la valeur moyenne des valeurs de la première attribution.
1 1 . Procédé de génération (E_GEN) d'un document numérique, noté « résumé numérique », comprenant la génération et l'affichage sur un afficheur du second ensemble de phrases, les dites phrases étant identifiées à partir du procédé d'identification de l'une quelconque des revendications 1 à 10, selon une séquence ordonnée par une numérotation croissante.
12. Procédé de génération d'un document numérique selon la revendication 1 1 , caractérisé en ce que le résumé numérique généré comprend des symboles activables, un symbole activable étant associé à chacune des phrases du second ensemble, les phrases du résumé numérique et les symboles activables étant affichées sur un afficheur de manière à ce que les symboles activables soient affichées à proximité des phrases, l'activation d'au moins un symbole activable d'une phrase sélectionnée générant un second résumé numérique, le second résumé numérique comportant des phrases ordonnées dont la numérotation est successive, cet ensemble comportant ladite phrase sélectionnée et un premier ensemble de phrases dont la numérotation
précède celle de la phrase sélectionnée et un second ensemble de phrases dont la numérotation succède à celle de la phrase sélectionnée. 13. Procédé de génération d'un document numérique selon la revendication 12, caractérisé en ce que l'activation d'un symbole activable est réalisé au moyen d'un clic de souris pour ordinateur ou d'un survol d'un curseur sur des données activables ou d'un toucher tactile dans une zone comprenant le symbole activable.
14. Procédé de génération d'un document numérique selon la revendication 12, caractérisé en ce que le symbole activable est un caractère alphanumérique. 15. Procédé de génération d'un document numérique selon la revendication 12, caractérisé en ce que le symbole activable est un numéro représentant le numéro de la phrase dans le premier document. 16. Procédé de génération d'un document numérique, appelé « synthèse numérique », caractérisé en ce le procédé selon l'une quelconque des revendications 1 1 à 15 est appliqué à un ensemble de documents numériques de manière à générer une pluralité de résumés numériques, ledit procédé comportant une étape de génération d'une synthèse numérique à partir de la définition d'un paramètre, dit de taux de répartition, représentant la quantification des données de chaque résumé numérique présente dans la synthèse et d'un second taux de condensation de chaque résumé numérique, la synthèse numérique comprenant un ensemble de phrases ordonnées et sélectionnées en fonction du taux de répartition et du second taux de condensation de chacun des résumé numérique.
17. Dispositif de génération d'un document numérique comportant un afficheur permettant d'afficher au moins un document numérique, un calculateur permettant de mettre en œuvre les étapes du procédé de l'une des revendications précédentes, une interface permettant de
paramétrer au moins un premier taux de condensation, un système de commandes permettant de lancer la génération d'un premier résumé du numérique.
18. Dispositif de génération d'un document numérique selon la revendication 17, caractérisé en ce que le système de commandes permet de lancer la génération d'un second résumé numérique du premier résumé numérique.
19. Dispositif de génération d'un document numérique selon la revendication 17, caractérisé en ce que l'interface comprend une première fenêtre permettant d'afficher un ensemble de documents numériques et une seconde fenêtre permettant d'afficher un ensemble de résumés numériques correspondant au résumé de chaque document de la première fenêtre.
20. Dispositif de génération d'un document numérique selon la revendication 17, caractérisé en ce que l'interface comprend des premiers moyens de sélection d'un taux de condensation d'un résumé numérique, des seconds moyens de sélection d'un thésaurus parmi, une liste de thésaurus prédéfinie et des moyens permettant de définir des TAG d'un utilisateur.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13706658.5A EP2812814A1 (fr) | 2012-02-09 | 2013-02-08 | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe |
US14/377,790 US20150019208A1 (en) | 2012-02-09 | 2013-02-08 | Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1251241 | 2012-02-09 | ||
FR1251241A FR2986882A1 (fr) | 2012-02-09 | 2012-02-09 | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013117872A1 true WO2013117872A1 (fr) | 2013-08-15 |
Family
ID=47754846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/FR2013/050269 WO2013117872A1 (fr) | 2012-02-09 | 2013-02-08 | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150019208A1 (fr) |
EP (1) | EP2812814A1 (fr) |
FR (1) | FR2986882A1 (fr) |
WO (1) | WO2013117872A1 (fr) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391486B (zh) * | 2017-07-20 | 2020-10-27 | 南京云问网络技术有限公司 | 一种基于统计信息和序列标注的领域新词识别方法 |
US11630869B2 (en) * | 2020-03-02 | 2023-04-18 | International Business Machines Corporation | Identification of changes between document versions |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7752220B2 (en) * | 2005-08-10 | 2010-07-06 | Yahoo! Inc. | Alternative search query processing in a term bidding system |
US7965923B2 (en) * | 2006-05-01 | 2011-06-21 | Yahoo! Inc. | Systems and methods for indexing and searching digital video content |
US9262403B2 (en) * | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
US8543381B2 (en) * | 2010-01-25 | 2013-09-24 | Holovisions LLC | Morphing text by splicing end-compatible segments |
CN102479191B (zh) * | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN103744953A (zh) * | 2014-01-02 | 2014-04-23 | 中国科学院计算机网络信息中心 | 一种基于中文文本情感识别的网络热点挖掘方法 |
-
2012
- 2012-02-09 FR FR1251241A patent/FR2986882A1/fr not_active Withdrawn
-
2013
- 2013-02-08 US US14/377,790 patent/US20150019208A1/en not_active Abandoned
- 2013-02-08 EP EP13706658.5A patent/EP2812814A1/fr not_active Withdrawn
- 2013-02-08 WO PCT/FR2013/050269 patent/WO2013117872A1/fr active Application Filing
Non-Patent Citations (4)
Title |
---|
ABDERRAFIH LEHMAM: "Essential Summarizer: innovative automatic text summarization software in twenty languages", PROCEEDING RIAO '10 ADAPTIVITY, PERSONALIZATION AND FUSION OF HETEROGENEOUS INFORMATION, 2010, Paris, France, pages 216 - 217, XP055045639, Retrieved from the Internet <URL:http://dl.acm.org/citation.cfm?id=1937055.1937111> [retrieved on 20121126] * |
ABDERRAFIH LEHMAM: "i-expo 2010 : Mining Essential résume en direct", ARCHIMAG.COM, 10 June 2010 (2010-06-10), pages 1 - 2, XP055045642, Retrieved from the Internet <URL:http://www.archimag.com/article/i-expo-2010-mining-essential-r%C3%A9sume-en-direct> [retrieved on 20121126] * |
ABDERRAFIH LEHMAM: "Le résumé automatique, face au déluge informationnel en français et en arabe", LES ACTES DU COLLOQUE GOUVERNANCE DES INSTITUTIONS ET INTELLIGENCE ECONOMIQUE, 29 June 2008 (2008-06-29), Algers, pages 1 - 22, XP055045634, Retrieved from the Internet <URL:http://www.veille.ma/IMG/pdf/gouvernance-ie-actes/resume-automatique-abderrafih-lehmam.pdf> [retrieved on 20121126] * |
ABDERRAFIH LEHMAM: "Text structuration leading to an automatic summary system: RAFI", INFORMATION PROCESSING & MANAGEMENT, vol. 35, no. 2, 1 March 1999 (1999-03-01), pages 181 - 191, XP055045640, ISSN: 0306-4573, DOI: 10.1016/S0306-4573(98)00043-0 * |
Also Published As
Publication number | Publication date |
---|---|
FR2986882A1 (fr) | 2013-08-16 |
EP2812814A1 (fr) | 2014-12-17 |
US20150019208A1 (en) | 2015-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7577963B2 (en) | Event data translation system | |
US8341167B1 (en) | Context based interactive search | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
FR2975201A1 (fr) | Analyse de texte utilisant des proprietes de listes linguistiques et non-linguistiques | |
EP1364316A2 (fr) | Dispositif d'extraction d'informations d'un texte a base de connaissances | |
EP1836651A1 (fr) | Procédé de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants | |
US20110219299A1 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
US10528609B2 (en) | Aggregating procedures for automatic document analysis | |
US20240265041A1 (en) | Methods and Systems for Improved Document Processing and Information Retrieval | |
McEnery et al. | Building a written corpus: what are the basics? | |
EP1733324A1 (fr) | Procede de recherche d'informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede | |
WO2013117872A1 (fr) | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe | |
EP4300326A1 (fr) | Procédé d'appariement d'un ensemble à évaluer et d'une liste de référence, moteur d'appariement et programme d'ordinateur correspondants | |
Özyiğit | MUHASEBE ALANINA GÜNCEL YAKLAŞIMLAR: METİN MADENCİLİĞİ | |
Ma et al. | Api prober–a tool for analyzing web api features and clustering web apis | |
WO2024146958A1 (fr) | Procede pour ameliorer l'exploitation de donnees partagee par une pluralite d'utilisateurs | |
Jatowt et al. | Document in Context of its Time (DICT) Providing Temporal Context to Support Analysis of Past Documents | |
FR3030809A1 (fr) | Procede d'analyse automatique de la qualite litteraire d'un texte | |
CN116186211B (zh) | 一种文本攻击性检测和转换的方法 | |
US20240086448A1 (en) | Detecting cited with connections in legal documents and generating records of same | |
US11783112B1 (en) | Framework agnostic summarization of multi-channel communication | |
Subowo et al. | Using 2024 election twitter data, sentiment analysis based on TF-IDF and Naïve Bayes | |
KR20240033590A (ko) | 빅데이터 분석을 이용하여 도출된 키워드의 감성분석 방법 및 그 장치 | |
EP3114597A1 (fr) | Procédé d'analyse d'une pluralité de messages, produit programme d'ordinateur et dispositif associés | |
WO2020229760A1 (fr) | Procede d'indexation multidimensionnelle de contenus textuels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13706658 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2013706658 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14377790 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |