FR2998690A1 - System for managing duplicates of paper documents in digitizing service, has management unit for managing duplicates when analysis unit finds mark representative of previous digitalization of paper document in digitized document - Google Patents
System for managing duplicates of paper documents in digitizing service, has management unit for managing duplicates when analysis unit finds mark representative of previous digitalization of paper document in digitized document Download PDFInfo
- Publication number
- FR2998690A1 FR2998690A1 FR1261410A FR1261410A FR2998690A1 FR 2998690 A1 FR2998690 A1 FR 2998690A1 FR 1261410 A FR1261410 A FR 1261410A FR 1261410 A FR1261410 A FR 1261410A FR 2998690 A1 FR2998690 A1 FR 2998690A1
- Authority
- FR
- France
- Prior art keywords
- paper document
- document
- mark
- scanning
- paper
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Facsimiles In General (AREA)
Abstract
Description
La présente invention concerne une gestion de doublons dans le cadre d'un service de numérisation de documents papier. De nos jours apparaissent des services de numérisation de documents papier. Lorsque ces services mettent en oeuvre un archivage des documents numérisés, on parle aussi de service de dématérialisation de documents. De tels services permettent notamment d'archiver des documents sur forme numérisée et/ou d'appliquer des traitements sur des documents numérisés à partir de versions papier des documents. Ces traitements consistent par exemple à appliquer un filtre d'amélioration de contraste, un algorithme de reconnaissance de caractères pour extraire des métadonnées du document, un algorithme de tatouage numérique (« watermarking » en anglais), etc. De plus, les services de numérisation peuvent offrir des fonctionnalités d'annotation ou de recherche parmi des documents numérisés. Un utilisateur peut ainsi se constituer une base de données de documents numérisés qui lui facilite l'accès au contenu du document, et qui lui permet de retrouver plus facilement et plus rapidement un document pertinent. Un problème persistant dans ces services de numérisation de documents papier est de gérer les doublons, c'est-à-dire les documents qui ont été numérisés plus d'une fois, ce qui est fréquent lorsqu'un large volume de documents est numérisé par un utilisateur ou un groupe d'utilisateurs intervenant sur un même ensemble de documents papier. Des ressources de stockage et/ou de traitement sont alors inutilement consommées. La présence de doublons dans le service de numérisation peut en outre générer des problèmes d'incohérence. Prenons par exemple le cas d'un système de gestion de comptabilité d'une entreprise dans lequel : des factures sont numérisées, puis le système de numérisation applique un algorithme de reconnaissance de caractères, extrait des données des factures numérisées et effectue une saisie automatisée des données extraites dans une base de données du système de gestion de comptabilité de l'entreprise. Dans ce cas, des factures peuvent être saisies plusieurs fois à partir du même document papier, ce qui va fausser la comptabilité de l'entreprise.The present invention relates to duplicate management as part of a paper document scanning service. Nowadays, there are digital document scanning services. When these services implement an archiving of digitized documents, it is also called document dematerialization service. Such services make it possible, in particular, to archive documents in digitized form and / or to apply processing on documents scanned from paper versions of documents. These treatments consist, for example, in applying a contrast enhancement filter, a character recognition algorithm for extracting metadata from the document, a watermarking algorithm, and so on. In addition, scanning services can offer annotation or search features among scanned documents. A user can build a database of scanned documents that facilitates access to the document content, and allows it to find more easily and quickly a relevant document. A persistent problem in these paper-based scanning services is handling duplicates, that is, documents that have been scanned more than once, which is common when a large volume of documents is scanned by a user or a group of users working on the same set of paper documents. Storage and / or processing resources are then unnecessarily consumed. The presence of duplicates in the scanning service can also lead to inconsistency problems. Consider, for example, the case of a company's accounting management system in which: invoices are scanned, then the scanning system applies a character recognition algorithm, extracts data from digitized invoices and performs automated data capture. data extracted from a database of the company's accounting management system. In this case, invoices can be entered several times from the same paper document, which will distort the company's accounting.
Prenons aussi par exemple le cas où le service de numérisation offre des fonctionnalités de recherche parmi une base de données de documents numérisés. Les doublons vont augmenter le nombre de résultats trouvés lors d'une recherche et vont par conséquent augmenter le temps nécessaire pour atteindre le document pertinent.Consider, for example, the case where the scanning service offers search functionalities among a database of scanned documents. Duplicates will increase the number of results found during a search and will therefore increase the time needed to reach the relevant document.
Ce qui ressort des exemples ci-dessus est qu'il est souhaitable de détecter et de gérer les doublons dans ces services de numérisation, et donc de pallier les inconvénients de l'état de la technique mentionnés ci-dessus. Il est notamment souhaitable de pourvoir détecter automatiquement, lorsqu'un document papier est numérisé, que ce document papier a déjà été numérisé par le passé. Il est donc aussi souhaitable de gérer la présence de ces doublons, en limitant les interventions humaines. L'invention concerne un système de gestion de doublons dans un service de numérisation de documents papier comportant des moyens de numérisation par défilement de documents papier. Sur chaque document papier numérisé au moins une fois dans le cadre dudit service étant apposée au moins une marque respective, le système est tel qu'il comporte les moyens suivants mis en oeuvre dans le cadre d'une numérisation d'un document papier : des moyens d'apposition sur le document papier d'une dite marque au moins lors de la première numérisation du document papier ; des moyens d'analyse du document numérisé adaptés pour retrouver au moins une marque représentative d'une numérisation antérieure du document papier ; des moyens de gestion des doublons, mis en oeuvre lorsque lesdits moyens d'analyse retrouvent dans le document numérisé au moins une marque représentative d'une numérisation antérieure du document papier. Ainsi, les doublons dans le service de numérisation sont détectés et gérés, en limitant les interventions humaines. Lorsqu'un document papier déjà numérisé par le passé est à nouveau numérisé, il est automatiquement détecté que ce document papier a déjà été numérisé par le passé. Selon un mode de réalisation particulier, lesdits moyens d'apposition comportent au moins un des moyens suivants : des moyens d'embossage ou de gaufrage ; des moyens de perforation par aiguilles ; des moyens d'impression par tampon encreur ; des moyens d'impression par jet d'encre ; des moyens d'apposition d'une étiquette autocollante. Selon un mode de réalisation particulier, lorsque lesdits moyens d'apposition comportent des moyens d'impression par tampon encreur ou par jet d'encre, lesdits moyens d'impression sont adaptés pour appliquer une encre indécelable ou difficilement décelable par l'oeil humain. Selon un mode de réalisation particulier, chaque marque apposée au moins lors de la première numérisation du document papier est représentative d'un identifiant du document papier dans le service de numérisation.What emerges from the examples above is that it is desirable to detect and manage duplicates in these digitization services, and thus to overcome the disadvantages of the state of the art mentioned above. In particular, it is desirable to be able to detect automatically, when a paper document is digitized, that this paper document has already been digitized in the past. It is therefore also desirable to manage the presence of these duplicates, by limiting the human interventions. The invention relates to a duplicate management system in a paper document scanning service comprising scanning means for scrolling paper documents. On each paper document scanned at least once under the said service being affixed at least one respective mark, the system is such that it comprises the following means implemented in the context of a digitization of a paper document: means of affixing to the paper document of a said mark at least during the first digitization of the paper document; scanning means of the scanned document adapted to find at least one representative mark of an earlier digitization of the paper document; duplicate management means, implemented when said analysis means find in the scanned document at least one representative mark of an earlier digitization of the paper document. Thus, duplicates in the scanning service are detected and managed, limiting human intervention. When a paper document already scanned in the past is scanned again, it is automatically detected that this paper document has already been scanned in the past. According to a particular embodiment, said affixing means comprise at least one of the following means: embossing or embossing means; needle punching means; ink pad printing means; ink jet printing means; means for affixing a self-adhesive label. According to a particular embodiment, when said affixing means comprise ink-pad or ink-jet printing means, said printing means are adapted to apply an ink that is undetectable or difficult to detect by the human eye. According to a particular embodiment, each mark affixed at least during the first digitization of the paper document is representative of an identifier of the paper document in the scanning service.
Selon un mode de réalisation particulier, le système comporte : des moyens de recherche, grâce à l'identifiant du document papier, dans une base de données de documents numérisés ; des moyens d'affichage d'un résultat de la recherche. Selon un mode de réalisation particulier, lesdits moyens de numérisation étant inclus dans un dispositif de numérisation par défilement et lesdits moyens de recherche dans un serveur, le système comporte : des moyens d'association du dispositif de numérisation par défilement à une session utilisateur dans le service de numérisation ; des moyens de détection, par le serveur, que la session utilisateur est ouverte sur un poste utilisateur ; des moyens de fourniture, au poste utilisateur par le serveur, du résultat de la recherche via la session utilisateur. Selon un mode de réalisation particulier, lesdits moyens de numérisation étant inclus dans un dispositif de numérisation par défilement et lesdits moyens de recherche dans un serveur, le système comporte : des moyens d'association du dispositif de numérisation par défilement à une session utilisateur dans le service de numérisation ; des moyens de détection, par le serveur, que la session utilisateur est ouverte sur un poste utilisateur ; des moyens de comparaison du document numérisé avec un autre document numérisé résultant de la recherche ; des moyens de fourniture, au poste utilisateur par le serveur, d'un résultat de la comparaison. Selon un mode de réalisation particulier, lesdits moyens d'apposition comportent des moyens de détection d'une zone vide d'éléments significatifs sur le document papier et de taille prédéfinie, par analyse de pixels du document numérisé, et lesdits moyens d'apposition sont adaptés pour apposer ladite marque dans la zone détectée. Selon un mode de réalisation particulier, le système est adapté pour mettre en oeuvre lesdits moyens d'apposition lorsque lesdits moyens d'analyse n'ont pas détecté de marque représentative d'une numérisation antérieure du document papier. Selon un mode de réalisation particulier, lesdits moyens de numérisation étant inclus dans un dispositif de numérisation par défilement, le dispositif de numérisation par défilement est adapté : pour effectuer un premier défilement du document papier sur un chemin de défilement pour permettre auxdits moyens d'analyse de retrouver une éventuelle marque représentative d'une numérisation antérieure du document papier ; et pour effectuer un second défilement sur ledit chemin de défilement pour permettre auxdits moyens d'apposition d'apposer une dite marque lorsque lesdits moyens d'analyse n'ont pas détecté de marque représentative d'une numérisation antérieure du document papier. Selon un mode de réalisation particulier, lesdits moyens de numérisation étant inclus dans un dispositif de numérisation par défilement, le dispositif de numérisation par défilement est adapté : pour effectuer un premier défilement du document papier sur un premier chemin de défilement pour permettre auxdits moyens d'analyse de retrouver une éventuelle marque représentative d'une numérisation antérieure du document papier ; pour mettre en attente le document papier jusqu'à détection d'une notification indiquant que lesdits moyens d'analyse n'ont pas détecté de marque représentative d'une numérisation antérieure du document papier ; pour effectuer un second défilement sur un second chemin de défilement pour permettre auxdits moyens d'apposition d'apposer une dite marque sur détection de ladite notification. L'invention concerne également un dispositif de numérisation de documents papier comportant des moyens de numérisation par défilement de documents papier.According to a particular embodiment, the system comprises: searching means, by means of the identifier of the paper document, in a database of digitized documents; means for displaying a search result. According to a particular embodiment, said scanning means being included in a scanning device and said search means in a server, the system comprises: means for associating the scanning device by scrolling to a user session in the device. scanning service; means for the server to detect that the user session is open on a user station; means for supplying the user station by the server with the result of the search via the user session. According to a particular embodiment, said scanning means being included in a scanning device and said search means in a server, the system comprises: means for associating the scanning device by scrolling to a user session in the device. scanning service; means for the server to detect that the user session is open on a user station; means for comparing the digitized document with another digitized document resulting from the search; means for providing, at the user station by the server, a result of the comparison. According to a particular embodiment, said affixing means comprise means for detecting an empty area of significant elements on the paper document and of predefined size, by pixel analysis of the digitized document, and said apposition means are adapted to affix said mark in the detected area. According to a particular embodiment, the system is adapted to implement said affixing means when said analysis means have not detected a mark representative of an earlier digitization of the paper document. According to a particular embodiment, said scanning means being included in a scanning device by scrolling, the scroll scanning device is adapted: to perform a first scroll of the paper document on a scroll path to allow said means of analysis to find a possible mark representative of an earlier digitization of the paper document; and to perform a second scroll on said scrolling path to allow said affixing means to affix a said mark when said analysis means have not detected a mark representative of an earlier digitization of the paper document. According to a particular embodiment, said scanning means being included in a scroll scanning device, the scrolling scanning device is adapted: to perform a first scroll of the paper document on a first scrolling path to allow said means for scrolling. analysis to find a possible mark representative of an earlier digitization of the paper document; for stopping the paper document until a notification is detected that said means of analysis has not detected a mark indicative of an earlier scanning of the paper document; to perform a second scroll on a second scroll path to allow said affixing means to affix a said mark upon detection of said notification. The invention also relates to a device for scanning paper documents comprising scanning means for scrolling paper documents.
Le dispositif est tel que, dans le cadre d'une numérisation de document papier, le dispositif met en oeuvre des moyens d'apposition d'une marque sur le document papier. Selon un mode de réalisation particulier, le dispositif de numérisation comporte en outre, mis en oeuvre dans le cadre d'une numérisation d'un document papier, des 20 moyens d'analyse du document numérisé adaptés pour retrouver au moins une marque représentative d'une numérisation antérieure du document papier. Selon un mode de réalisation particulier, le dispositif de numérisation est adapté : pour effectuer un premier défilement du document papier sur un chemin de défilement pour permettre auxdits moyens d'analyse de retrouver une éventuelle 25 marque représentative d'une numérisation antérieure du document papier ; pour effectuer un second défilement sur ledit chemin de défilement pour permettre auxdits moyens d'apposition d'apposer une dite marque lorsque lesdits moyens d'analyse n'ont pas détecté de marque représentative d'une numérisation antérieure du document papier. 30 Selon un mode de réalisation particulier, le dispositif de numérisation est adapté : pour effectuer un premier défilement du document papier sur un premier chemin de défilement pour permettre de retrouver une éventuelle marque représentative d'une numérisation antérieure du document papier ; pour mettre en attente le document papier jusqu'à détection d'une notification d'une non-détection de marque représentative d'une numérisation antérieure du document papier ; pour effectuer un second défilement sur un second chemin de défilement pour permettre auxdits moyens d'apposition d'apposer une dite marque sur détection de ladite notification.The device is such that, in the context of a paper document scanning, the device implements means of affixing a mark on the paper document. According to a particular embodiment, the digitizing device further comprises, implemented as part of a scanning of a paper document, scanning means of the digitized document adapted to find at least one representative mark of an earlier digitization of the paper document. According to a particular embodiment, the digitizing device is adapted: to perform a first scroll of the paper document on a scroll path to allow said analysis means to find a possible mark representative of an earlier digitization of the paper document; to perform a second scroll on said scroll path to allow said affixing means to affix a said mark when said analysis means have not detected a mark representative of an earlier digitization of the paper document. According to a particular embodiment, the scanning device is adapted: to perform a first scroll of the paper document on a first scroll path to allow to find a possible mark representative of a prior digitization of the paper document; to hold the paper document until detection of a notification of a non-detect mark representative of a previous scan of the paper document; to perform a second scroll on a second scroll path to allow said affixing means to affix a said mark upon detection of said notification.
L'invention concerne également un procédé de gestion de doublons dans un service de numérisation de documents papier, le procédé comportant une numérisation par défilement de documents papier. Le procédé est tel que, sur chaque document papier numérisé au moins une fois dans le cadre dudit service étant apposée au moins une marque respective, le procédé comporte les étapes suivantes mises en oeuvre par un système dans le cadre d'une numérisation d'un document papier : apposition sur le document papier d'une dite marque au moins lors de la première numérisation du document papier ; analyse du document numérisé pour retrouver au moins une marque représentative d'une numérisation antérieure du document papier ; gestion des doublons, lorsqu'au moins une marque représentative d'une numérisation antérieure du document papier est retrouvée dans le document numérisé. L'invention concerne également un programme d'ordinateur, qui peut être stocké sur un support et/ou téléchargé d'un réseau de communication, afin d'être lu par un processeur. Ce programme d'ordinateur comprend des instructions pour implémenter le procédé mentionné ci-dessus, lorsque ledit programme est exécuté par le processeur. L'invention concerne également des moyens de stockage comprenant un tel programme d'ordinateur. Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels : - la Fig. 1 illustre schématiquement un système dans lequel l'invention peut être mise en oeuvre ; - la Fig. 2A illustre schématiquement un exemple d'architecture matérielle d'un serveur du système de la Fig. 1 ; - La Fig. 2B illustre schématiquement un exemple d'architecture matérielle d'un mécanisme de contrôle d'un dispositif de numérisation du système de la Fig. 1 ; - la Fig. 3 illustre schématiquement un algorithme de gestion de doublons de documents numérisés ; - la Fig. 4 illustre schématiquement un algorithme d'affichage de document numérisé, dans le cadre de la gestion de doublons de documents numérisés ; - la Fig. 5A illustre schématiquement un premier exemple d'agencement matériel du dispositif de numérisation ; - la Fig. 5B illustre schématiquement un second exemple d'agencement matériel du dispositif de numérisation. La Fig. 1 illustre schématiquement un système dans lequel l'invention peut être mise en oeuvre. Le système de la Fig. 1 comporte un serveur 102 et un dispositif de numérisation 101 interconnectés par un réseau de communication 100. En variante, le serveur 102 et le dispositif de numérisation 101 sont interconnectés par un bus de communication, un lien série ou tout autre lien adapté pour mettre en communication le serveur 102 et le dispositif de numérisation 101. La Fig. 1 représente un seul dispositif de numérisation interconnecté au serveur 102. Il convient cependant de noter qu'une pluralité de dispositifs de numérisation de même architecture et fonctionnalités que le dispositif de numérisation 101 peuvent être interconnectés au serveur 102. Les fonctionnalités du serveur 102 sont alors offertes à cette pluralité de dispositifs de numérisation. Le dispositif de numérisation 101, aussi appelé scanner, est adapté pour générer un document numérisé à partir d'un document papier. Le dispositif de numérisation 101 effectue une numérisation par défilement, c'est-à-dire que le dispositif de numérisation 101 est adapté pour faire défiler le document papier devant une tête de lecture fixe, ou deux têtes de lecture pour les scanner recto-verso. Dans le cadre de la présente invention, lorsque le dispositif de numérisation 101 numérise un document papier, le dispositif de numérisation 101 met en oeuvre des moyens d'apposition sur le document papier d'une marque prédéterminée. Le dispositif de numérisation 101 appose cette marque au moins lors de la première numérisation du document papier. Le serveur 102 est adapté pour effectuer des traitements prédéterminés à partir des documents numérisés par le dispositif de numérisation 101, dans le cadre du service de numérisation. Ces traitements consistent par exemple à appliquer un filtre d'amélioration de contraste, un algorithme de reconnaissance de caractères pour extraire des métadonnées du document, un algorithme de tatouage numérique (« watermarking » en anglais), etc. De plus, le serveur 102 peut offrir une fonctionnalité d'archivage des documents numérisés et de recherche parmi les documents numérisés. D'autres fonctionnalités peuvent être offertes par le serveur 102 à un utilisateur via un poste utilisateur 103 connecté au serveur 102 via le réseau de communication 100. L'utilisateur ouvre alors sur le poste utilisateur 103 une session sur un compte utilisateur associé à l'utilisateur sur le serveur 102 et qui lui permet d'accéder à une base de données de documents numérisés par l'utilisateur grâce au dispositif de numérisation 101. Via cette session, l'utilisateur peut effectuer la recherche susmentionnée et accéder aux autres fonctionnalités offertes par le serveur 102, comme par exemple une fonctionnalité d'annotations de documents numérisés ou d'ajout de métadonnées aux documents numérisés. Dans le cadre de la présente invention, lorsque le dispositif de numérisation fournit un document numérisé au serveur 102, le serveur 102 met en oeuvre des moyens d'analyse du document numérisé adaptés pour retrouver au moins une marque représentative d'une numérisation antérieure du document papier correspondant. Le serveur 102 met aussi en oeuvre des moyens de gestion de doublons de documents numérisés, lorsque lesdits moyens d'analyse retrouvent dans le document numérisé au moins une marque représentative d'une numérisation antérieure du document papier. Dans un autre mode de réalisation, les fonctionnalités d'analyse du document numérisé et de gestion de doublons susmentionnées sont directement mises en oeuvre par le dispositif de numérisation 101, c'est-à-dire sans avoir recours à la mise en oeuvre du serveur 102.The invention also relates to a method for managing duplicates in a paper document scanning service, the method comprising scanning by scrolling paper documents. The method is such that, on each paper document scanned at least once in the context of said service being affixed at least one respective mark, the method comprises the following steps implemented by a system in the context of a digitization of a paper document: affixing on the paper document of a said mark at least during the first digitization of the paper document; analyzing the scanned document to find at least one representative mark of an earlier digitization of the paper document; management of duplicates, when at least one representative mark of an earlier digitization of the paper document is found in the digitized document. The invention also relates to a computer program, which can be stored on a medium and / or downloaded from a communication network, in order to be read by a processor. This computer program includes instructions for implementing the method mentioned above, when said program is executed by the processor. The invention also relates to storage means comprising such a computer program. The characteristics of the invention mentioned above, as well as others, will emerge more clearly on reading the following description of an exemplary embodiment, said description being given in relation to the attached drawings, among which: Fig. 1 schematically illustrates a system in which the invention can be implemented; FIG. 2A schematically illustrates an example of hardware architecture of a server of the system of FIG. 1; FIG. 2B schematically illustrates an example of a hardware architecture of a control mechanism of a digitizing device of the system of FIG. 1; FIG. 3 schematically illustrates an algorithm for managing duplicate scanned documents; FIG. 4 schematically illustrates a scanned document display algorithm, in the context of managing duplicate scanned documents; FIG. 5A schematically illustrates a first example of hardware arrangement of the digitizer; FIG. 5B schematically illustrates a second example of a hardware arrangement of the digitizing device. Fig. 1 schematically illustrates a system in which the invention can be implemented. The system of FIG. 1 comprises a server 102 and a digitizing device 101 interconnected by a communication network 100. In a variant, the server 102 and the digitizing device 101 are interconnected by a communication bus, a serial link or any other link adapted to implement communicating the server 102 and the digitizer 101. FIG. 1 represents a single digitizing device interconnected with the server 102. It should be noted, however, that a plurality of scanning devices of the same architecture and functionalities as the scanning device 101 can be interconnected to the server 102. The functions of the server 102 are then offered to this plurality of scanning devices. The scanning device 101, also called scanner, is adapted to generate a document scanned from a paper document. The scanning device 101 performs a scanning by scrolling, that is to say that the scanning device 101 is adapted to scroll the paper document in front of a fixed reading head, or two read heads for duplex scanners . In the context of the present invention, when the digitizing device 101 scans a paper document, the digitizing device 101 implements means for affixing to the paper document a predetermined mark. The digitizing device 101 affixes this mark at least during the first digitization of the paper document. The server 102 is adapted to perform predetermined processing from the documents scanned by the scanning device 101, as part of the scanning service. These treatments consist, for example, in applying a contrast enhancement filter, a character recognition algorithm for extracting metadata from the document, a watermarking algorithm, and so on. In addition, server 102 may provide a feature for archiving scanned documents and searching scanned documents. Other functionalities may be offered by the server 102 to a user via a user station 103 connected to the server 102 via the communication network 100. The user then opens on the user station 103 a session on a user account associated with the user on the server 102 and which allows him to access a database of documents scanned by the user through the scanning device 101. Via this session, the user can perform the aforementioned search and access other features offered by the server 102, such as a feature of annotations of scanned documents or adding metadata to the scanned documents. In the context of the present invention, when the digitizing device provides a scanned document to the server 102, the server 102 implements scanned document analysis means adapted to find at least one mark representative of an earlier digitization of the document. corresponding paper. The server 102 also implements means for managing duplicates of scanned documents, when said analysis means find in the scanned document at least one mark representative of an earlier digitization of the paper document. In another embodiment, the aforementioned digitized document analysis and duplication management functionalities are directly implemented by the digitizing device 101, that is to say without having to resort to the implementation of the server. 102.
La Fig. 2A illustre schématiquement un exemple d'architecture matérielle du serveur 102, qui comporte alors, reliés par un bus de communication 221 : un processeur ou CPU (« Central Processing Unit » en anglais) 200 ; une mémoire vive RAM (« Random Access Memory » en anglais) 201 ; une mémoire morte ROM (« Read Only Memory » en anglais) 202 ; une unité de stockage ou un lecteur de support de stockage, tel qu'un disque dur HDD (« Hard Disk Drive » en anglais) 203 ; une interface 204 permettant de communiquer via le réseau de communication 100. Le processeur 200 est capable d'exécuter des instructions chargées dans la RAM 201 à partir de la ROM 202, d'une mémoire externe (non représentée), d'un support de stockage, tel que le disque dur HDD 203, ou du réseau de communication 100.Fig. 2A schematically illustrates an example of hardware architecture of the server 102, which then comprises, connected by a communication bus 221: a processor or CPU ("Central Processing Unit" in English) 200; a Random Access Memory (RAM) 201; a ROM (Read Only Memory) 202; a storage unit or a storage medium reader, such as a hard disk drive HDD ("Hard Disk Drive") 203; an interface 204 for communicating via the communication network 100. The processor 200 is capable of executing instructions loaded in the RAM 201 from the ROM 202, an external memory (not shown), a support of storage, such as the hard disk HDD 203, or the communication network 100.
Lorsque le serveur 102 est mis sous tension, le processeur 200 est capable de lire de la RAM 201 des instructions et de les exécuter. Ces instructions forment un programme d'ordinateur causant la mise en oeuvre, par le processeur 200, de tout ou partie des algorithmes et étapes décrits dans ce document en relation avec le serveur 102. Tout ou partie de ces algorithmes et étapes peut être implémenté sous forme logicielle par exécution d'un ensemble d'instructions par une machine programmable, telle qu'un DSP (« Digital Signal Processor » en anglais) ou un microcontrôleur, ou être implémenté sous forme matérielle par une machine ou un composant dédié, tel qu'un FPGA (« Field-Programmable Gate Array » en anglais) ou un ASIC (« Application- Specific Integrated Circuit » en anglais). La Fig. 2B illustre schématiquement un exemple d'architecture matérielle d'un mécanisme de contrôle du dispositif de numérisation 101, qui comporte alors, reliés par un bus de communication 231 : un processeur ou CPU 210 ; une mémoire vive RAM 211 ; une mémoire morte ROM 212 ; une unité de stockage ou un lecteur de support de stockage, tel qu'un lecteur de carte SD (« Secure Digital » en anglais) 213 ; une interface 214 permettant de communiquer via le réseau de communication 100 ; une interface 215 permettant d'interagir avec un mécanisme de numérisation par défilement du document papier. Le processeur 210 est capable d'exécuter des instructions chargées dans la RAM 211 à partir de la ROM 212, d'une mémoire externe (non représentée), d'un support de stockage, tel qu'une carte SD, ou du réseau de communication 100. Lorsque le dispositif de numérisation 101 est mis sous tension, le processeur 210 est capable de lire de la RAM 211 des instructions et de les exécuter. Ces instructions forment un programme d'ordinateur causant la mise en oeuvre, par le processeur 210, de tout ou partie des algorithmes et étapes décrits dans ce document en relation avec le dispositif de numérisation 101. Tout ou partie de ces algorithmes et étapes peut être implémenté sous forme logicielle par exécution d'un ensemble d'instructions par une machine programmable, tel qu'un DSP ou un microcontrôleur, ou être implémenté sous forme matérielle par une machine ou un composant dédié, tel qu'un FPGA ou un ASIC.When the server 102 is turned on, the processor 200 is able to read RAM 201 instructions and execute them. These instructions form a computer program causing the processor 200 to implement all or some of the algorithms and steps described in this document in relation with the server 102. All or some of these algorithms and steps can be implemented under software form by executing a set of instructions by a programmable machine, such as a DSP ("Digital Signal Processor" in English) or a microcontroller, or be implemented in hardware form by a dedicated machine or component, such as an FPGA (Field-Programmable Gate Array) or an ASIC (Application-Specific Integrated Circuit). Fig. 2B schematically illustrates an example of a hardware architecture of a control mechanism of the digitizing device 101, which then comprises, connected by a communication bus 231: a processor or CPU 210; a random access memory RAM 211; ROM ROM 212; a storage unit or a storage medium reader, such as a Secure Digital (SD) card reader 213; an interface 214 for communicating via the communication network 100; an interface 215 for interacting with a scanning mechanism by scrolling the paper document. The processor 210 is capable of executing instructions loaded into the RAM 211 from the ROM 212, an external memory (not shown), a storage medium, such as an SD card, or the storage network. When the scanning device 101 is turned on, the processor 210 is able to read instructions from RAM 211 and execute them. These instructions form a computer program causing the processor 210 to implement all or some of the algorithms and steps described in this document in connection with the digitizing device 101. All or part of these algorithms and steps can be implemented in software form by executing a set of instructions by a programmable machine, such as a DSP or a microcontroller, or implemented in hardware form by a dedicated machine or component, such as an FPGA or an ASIC.
La Fig. 3 illustre schématiquement un algorithme de gestion de doublons de documents numérisés dans le service de numérisation. Dans une étape 301, le dispositif de numérisation 101 effectue une numérisation d'un document papier, par défilement du document papier. Dans le cas où les moyens d'analyse susmentionnés sont mis en oeuvre par le serveur 102, le dispositif de numérisation 101 transmet le document numérisé au serveur 102 via le réseau de communication 100. Dans une étape 302 suivante, le serveur 102 analyse le document numérisé pour retrouver au moins une marque représentative d'une numérisation antérieure du document papier. Comme déjà mentionné, l'étape 302 peut être mise en oeuvre par le dispositif de numérisation 101. Afin de déterminer si une telle marque est présente dans le document numérisé, c'est-à-dire qu'elle l'est aussi sur le document papier, différentes techniques alternatives peuvent être mises en oeuvre, et ce en fonction d'un type de marque recherché. Par exemple, si la marque recherchée est de type texte, un algorithme de reconnaissance de caractères peut être mis en oeuvre. Selon un autre exemple, si la marque recherchée est de forme prédéfinie, la méthode exposée par Viola-Jones dans le document « Robust Real-Time Object Detection », 2nd International Workshop on Statistical and Computational Theories of Vision, 13 Juillet 2001, peut être mise en oeuvre. Selon encore un autre exemple, si la marque est de type code à barres 1D ou 2D, des méthodes de reconnaissance de tels codes à barres peuvent être mises en oeuvre, en suivant les recommandations du document normatif ISO/IEC 16022 « Data Matrix bar code symbology specification ». Dans une étape 303 suivante, le serveur 102 vérifie si la marque recherchée a été trouvée dans le document numérisé. Si tel est le cas, cela signifie que le document papier a déjà subi une numérisation par le passé, et une étape 306 est mise en oeuvre ; sinon, une étape 304 est mise en oeuvre. L'étape 303 peut être mise en oeuvre par le dispositif de numérisation 101 lorsque le dispositif de numérisation 101 a mis en oeuvre l'étape 302. Dans l'étape 304, le serveur 102 recherche une zone vide dans le document numérisé, c'est-à-dire une zone ne contenant pas d'informations significatives. La recherche de cette zone vide permet de définir une zone dans laquelle apposer une marque lors de la première numérisation du document papier. Par exemple, le serveur 102 analyse les pixels du document numérisé pour détecter une zone de taille minimum prédéfinie permettant d'inclure ladite marque et dont les pixels sont de même couleur. Le serveur 102 indique alors au dispositif de numérisation 101 l'emplacement de la zone vide détectée dans le document numérisé. L'étape 304 peut en variante être mise en oeuvre par le dispositif de numérisation 101. Dans une étape 305 suivante, le dispositif de numérisation 101 appose sur le document papier, dans la zone vide déterminée à l'étape 304 sur la base du document numérisé, une marque prédéterminée représentative du fait que le document papier a été numérisé au moins une fois. Il convient de noter que l'étape 304 est optionnelle et que ladite marque peut être apposée dans une zone prédéfinie du document papier. Dans ce cas, cette zone est laissée libre lors de l'édition de tout document papier destiné à être numérisé.Fig. 3 schematically illustrates an algorithm for managing duplicate documents scanned in the scanning service. In a step 301, the scanning device 101 scans a paper document by scrolling the paper document. In the case where the aforementioned means of analysis are implemented by the server 102, the scanning device 101 transmits the scanned document to the server 102 via the communication network 100. In a next step 302, the server 102 analyzes the document digitized to find at least one representative mark of an earlier digitization of the paper document. As already mentioned, the step 302 can be implemented by the digitizing device 101. In order to determine if such a mark is present in the digitized document, that is to say that it is also on the digitized document. paper document, different alternative techniques can be implemented, and this according to a type of brand sought. For example, if the searched mark is of type text, a character recognition algorithm can be implemented. In another example, if the mark sought is of predefined form, the method disclosed by Viola-Jones in the document "Robust Real-Time Object Detection", 2nd International Workshop on Statistical and Computational Theories of Vision, July 13, 2001, can be Implementation. According to yet another example, if the mark is of the 1D or 2D barcode type, methods for recognizing such barcodes can be implemented, following the recommendations of the normative document ISO / IEC 16022 "Data Matrix bar code symbology specification ". In a next step 303, the server 102 checks whether the searched mark has been found in the scanned document. If this is the case, it means that the paper document has already been digitized in the past, and a step 306 is implemented; otherwise, a step 304 is implemented. Step 303 can be implemented by the digitizing device 101 when the digitizing device 101 has implemented step 302. In step 304, the server 102 searches for an empty zone in the digitized document. that is, an area that does not contain significant information. Searching for this blank area allows you to define an area in which to affix a mark during the first scan of the paper document. For example, the server 102 analyzes the pixels of the scanned document to detect a predefined minimum size area for including said mark and whose pixels are of the same color. The server 102 then indicates to the digitizing device 101 the location of the empty zone detected in the digitized document. Step 304 may alternatively be implemented by the digitizing device 101. In a next step 305, the digitizing device 101 affixes to the paper document, in the empty zone determined in step 304 on the basis of the document digitized, a predetermined mark representative of the fact that the paper document has been digitized at least once. It should be noted that step 304 is optional and that said mark may be affixed in a predefined area of the paper document. In this case, this area is left free when editing any paper document to be scanned.
L'apposition de la marque par le dispositif de numérisation 101 peut être réalisée par embossage, ou par gaufrage, et/ou par perforation par aiguilles et/ou par impression par tampon encreur et/ou par impression par jet d'encre et/ou par apposition d'une étiquette autocollante. Lorsque l'apposition de la marque est réalisée par impression par tampon encreur ou par jet d'encre, une encre indécelable ou difficilement décelable par l'oeil humain est utilisée. Cela permet de ne pas dégrader visuellement le document papier pour l'oeil humain, tout en permettant la détection de la marque dans le document numérisé par le système. Une encre jaune clair sur un papier blanc, donc difficilement décelable par l'oeil humain, peut ainsi être utilisée.The affixing of the mark by the digitizing device 101 may be done by embossing, or by embossing, and / or by punching with needles and / or by ink stamp printing and / or by ink jet printing and / or by affixing a self-adhesive label. When the affixing of the mark is carried out by ink-stamp printing or by ink-jet printing, an ink that is undetectable or difficult to detect by the human eye is used. This makes it possible not to visually degrade the paper document for the human eye, while allowing the detection of the mark in the document scanned by the system. A light yellow ink on a white paper, thus difficult to detect by the human eye, can thus be used.
Une encre visible uniquement sous éclairage ultra-violet, donc indécelable par l'oeil humain sans cet éclairage spécifique, peut aussi être utilisée. Dans ce dernier cas, le dispositif de numérisation 101 doit comporter des moyens pour révéler l'encre invisible utilisée pour apposer la marque. Deux étapes de numérisation sont alors nécessaires, une avec éclairage ultra-violet pour mettre en évidence une éventuelle marque représentative d'une numérisation antérieure du document papier, et une sans éclairage ultra-violet pour effectuer les traitements attendus par le service de numérisation sur le document numérisé. La marque apposée peut être une représentation graphique, telle qu'un logo. La marque apposée peut être un texte fixé pour tous les documents papier. Ces types de 20 marque sont particulièrement adaptés à un mécanisme d'impression par tampon encreur, ou d'embossage ou perforation par aiguilles. La marque apposée peut être un texte dynamiquement déterminé pour chaque document papier. Ce type de marque est particulièrement adapté à un mécanisme d'impression par jet d'encre. 25 La marque apposée peut être un code à barres 1D ou 2D. Ce type de marque est particulièrement adapté à un mécanisme d'impression par jet d'encre ou d'apposition d'étiquettes autocollantes. Que ce soit sous forme de texte ou de code à barres, des métadonnées peuvent ainsi être ajoutées au document papier, tel qu'un numéro de série du dispositif de 30 numérisation 101 utilisé pour numériser le document papier. Lorsque les moyens d'apposition de la marque sont configurables pour dynamiquement définir la marque à apposer, des métadonnées spécifiques à chaque document papier numérisé peuvent être incluses dans la marque apposée. Par exemple, la date et éventuellement l'heure à laquelle le document papier a été numérisé, le nom de l'utilisateur ayant numérisé le document papier si le dispositif de numérisation 101 est équipé d'un mécanisme d'identification d'utilisateur, une information représentative d'un jeu de paramètres de numérisation (résolution, mode couleur ou non, etc.) utilisé pour numériser le document papier, etc.An ink visible only under ultraviolet light, thus undetectable by the human eye without this specific illumination, can also be used. In the latter case, the scanning device 101 must include means for revealing the invisible ink used to affix the mark. Two scanning steps are then necessary, one with ultraviolet lighting to highlight a possible mark representative of an earlier scanning of the paper document, and one without ultraviolet lighting to perform the processing expected by the scanning service on the paper. scanned document. The affixed mark may be a graphic representation, such as a logo. The affixed mark may be a fixed text for all paper documents. These types of mark are particularly suited to an ink stamp printing mechanism, or embossing or needle punching. The affixed mark may be dynamically determined text for each paper document. This type of mark is particularly suitable for an inkjet printing mechanism. The affixed mark may be a 1D or 2D bar code. This type of mark is particularly suitable for an inkjet printing mechanism or for affixing self-adhesive labels. Whether in the form of text or bar code, metadata can thus be added to the paper document, such as a serial number of the scanning device 101 used to scan the paper document. When the means of affixing the mark are configurable to dynamically define the mark to be affixed, metadata specific to each digitized paper document may be included in the affixed mark. For example, the date and possibly the time at which the paper document was scanned, the name of the user having scanned the paper document if the scanning device 101 is equipped with a user identification mechanism, a information representative of a set of scanning parameters (resolution, color mode or not, etc.) used to scan the paper document, etc.
Dans un mode de réalisation particulier, chaque marque apposée au moins lors de la première numérisation du document papier est représentative d'un identifiant du document papier dans le service de numérisation. Cet identifiant permet de faire le lien entre le document papier et la ou les versions numérisées présentes dans le service de numérisation. Afin de garantir l'unicité de cet identifiant, plusieurs méthodes sont envisageables : l'identifiant peut contenir le numéro de série du dispositif de numérisation 101 et un numéro de séquence permettant de distinguer les documents papier numérisés par le même dispositif de numérisation 101; ou, l'identifiant peut être généré par le serveur 102 qui garantit son unicité. Dans ce dernier cas, afin d'éviter des latences liées au temps nécessaire au dispositif de numérisation 101 pour interroger le serveur 102, le serveur 102 peut fournir à l'avance plusieurs identifiants de document au dispositif de numérisation 101. Le dispositif de numérisation 101 mémorise alors les identifiants fournis par le serveur 102 et les affecte aux documents papier au fil des numérisations. Un tel identifiant de document permet notamment d'effectuer des recherches dans la base de données de documents numérisés, dont un exemple illustratif est décrit ci-après en relation avec la Fig. 4. Dans l'étape 306, le serveur 102 gère les doublons lorsqu'une marque représentative d'une numérisation antérieure a été détectée. Comme déjà mentionné, l'étape 306 peut être mise en oeuvre par le dispositif de numérisation 101. En présence de doublons, le serveur 102 peut ignorer la dernière numérisation du document papier, et éventuellement incrémenter un compteur de numérisations ignorées. Ce compteur peut être mis à la disposition de l'utilisateur, par exemple dans le cadre d'un rapport présentant des statistiques sur le système telles que le nombre total de documents numérisés, le nombre de documents présents dans le service de numérisation, le nombre de numérisations ignorées, etc.In a particular embodiment, each mark affixed at least during the first digitization of the paper document is representative of an identifier of the paper document in the scanning service. This identifier makes it possible to make the link between the paper document and the scanned version (s) present in the scanning service. In order to guarantee the uniqueness of this identifier, several methods are conceivable: the identifier may contain the serial number of the digitizing device 101 and a sequence number making it possible to distinguish the digitized paper documents by the same digitizing device 101; or, the identifier can be generated by the server 102 which guarantees its uniqueness. In the latter case, in order to avoid latencies related to the time required for the scanning device 101 to query the server 102, the server 102 can provide several document identifiers in advance to the scanning device 101. The scanning device 101 stores the credentials provided by the server 102 and assigns them to the paper documents over the scans. Such a document identifier notably makes it possible to search the database of scanned documents, an illustrative example of which is described below in relation to FIG. 4. In step 306, the server 102 handles the duplicates when a mark representative of an earlier scan has been detected. As already mentioned, the step 306 can be implemented by the scanning device 101. In the presence of duplicates, the server 102 can ignore the last digitization of the paper document, and possibly increment an ignored scanning counter. This counter can be made available to the user, for example as part of a report presenting statistics on the system such as the total number of documents scanned, the number of documents present in the scanning service, the number scans skipped, etc.
En présence de doublons, le serveur 102 peut requérir que le dispositif de numérisation affiche un message notifiant à l'utilisateur que le document papier a déjà été numérisé et demandant à l'utilisateur de choisir l'action appropriée parmi une liste d'actions. Une telle action est par exemple : ignorer la dernière numérisation du document papier ; remplacer le document numérisé présent dans le service de numérisation par le document numérisé résultant de la dernière numérisation du document papier, et, si des métadonnées étaient attachées au document numérisé présent dans le service de numérisation, ces métadonnées peuvent être supprimées ou bien attachées au document numérisé de remplacement ; conserver les deux documents numérisés dans le service de numérisation ; ignorer la dernière numérisation du document papier et de plus supprimer le document numérisé présent dans le service de numérisation ; appliquer les traitements attendus par le serveur 102 sur numérisation d'un document papier pour la première fois, c'est-à-dire remettre le document numérisé dans le flux de traitement usuel.In the presence of duplicates, the server 102 may require that the scanning device display a message notifying the user that the paper document has already been scanned and asking the user to choose the appropriate action from a list of actions. One such action is for example: ignore the last digitization of the paper document; replace the scanned document in the Scan Service with the scanned document resulting from the last scan of the paper document, and if metadata was attached to the scanned document in the Scan Service, that metadata can be deleted or attached to the document digitized replacement; keep both scanned documents in the scanning service; ignore the last scan of the paper document and also delete the scanned document present in the scanning service; apply the processing expected by the server 102 on scanning a paper document for the first time, that is to say return the scanned document in the usual processing flow.
En présence de doublons, le serveur 102 peut stocker le document numérisé résultant de la dernière numérisation du document papier dans une zone mémoire ou un répertoire spécifique et permettre à l'utilisateur de choisir plus tard l'action à effectuer. En présence de doublons, le serveur 102 peut associer aux différents documents numérisés une information signalant l'existence des différents documents numérisés pour un même document papier, et une information créant un lien entre ces différents documents numérisés. En présence de doublons, le serveur 102 peut rechercher, grâce à l'identifiant de document susmentionné, tout document numérisé présent dans le service de numérisation et correspondant à ce même identifiant de document, puis assurer l'affichage du ou des document(s) numérisé(s) trouvé(s), tel que décrit ci-après en relation avec la Fig. 4. En présence de doublons, le serveur 102 peut comparer des paramètres de numérisation utilisés pour la dernière numérisation du document papier avec les paramètres de la numérisation pour laquelle le document numérisé est présent dans le service de numérisation, et ne conserver que le document numérisé présentant les paramètres correspondant à la numérisation de meilleure qualité. Dans un mode de réalisation particulier, lorsque la marque apposée par le dispositif de numérisation 101 contient un identifiant de document, une métadonnée est ajoutée par le serveur 102 au(x) document(s) numérisé(s) présent(s) dans le service de numérisation pour indiquer le nombre de fois où le document papier a été numérisé. Dans un mode de réalisation en variante de l'algorithme de la Fig. 3, le dispositif de numérisation 101 appose une marque à chaque numérisation du document papier. Le document papier peut alors comporter plusieurs marques représentatives de numérisations respectives. Dans le cas où chaque marque est représentative d'un identifiant de document et où l'étape d'analyse du document numérisé pour détecter la présence d'au moins une marque est effectuée après l'étape d'apposition d'une marque, le document papier peut être associé à une pluralité d'identifiants de document. Dans ce cas, le serveur 102 maintient une correspondance entre ces identifiants de document. Préférentiellement, le dispositif de numérisation 101 n'appose une marque que lorsque l'analyse du document numérisé révèle qu'aucune marque représentative d'une numérisation antérieure du document papier n'a été détectée. La Fig. 4 illustre schématiquement un algorithme d'affichage de document numérisé, dans le cadre de la gestion de doublons de documents numérisés. Dans une étape 401, le serveur 102 obtient un identifiant du dispositif de numérisation 101. Par exemple, cet identifiant est indiqué dans un message transmis par le dispositif de numérisation 101 à destination du serveur 102 et incluant le document numérisé. Dans une étape 402, le serveur 102 obtient un identifiant de document à partir de la marque représentative d'une numérisation antérieure et détectée à l'étape 303. Dans une étape 403, le serveur 102 effectue une recherche de document 20 numérisé dans la base de données de documents numérisés du service de numérisation, grâce à l'identifiant de document obtenu à l'étape 402. Dans une étape 404, le serveur 102 détermine un identifiant de session utilisateur dans le service de numérisation, correspondant à l'identifiant de dispositif de numérisation obtenu à l'étape 401. En d'autres termes, le serveur 102 détecte une 25 session utilisateur dans le service de numérisation ouverte sur un poste utilisateur et à laquelle le dispositif de numérisation 101 est associé. Dans une étape 405, le serveur 102 met à disposition, via la session utilisateur identifiée par l'identifiant de session utilisateur obtenu à l'étape 404, un résultat de la recherche effectuée à l'étape 403. L'affichage du résultat est alors assuré via ladite 30 session utilisateur. En reprenant l'exemple illustratif du système de la Fig. 1, le dispositif de numérisation 101 est associé à une session dans le service de numérisation ouverte sur le poste utilisateur 103. Lorsque des doublons sont détectés, le serveur 102 transmet au poste utilisateur 103 via ladite session utilisateur toute information nécessaire à l'affichage du résultat de la recherche de document numérisé effectuée à l'étape 403. Préférentiellement, le serveur 102 assure l'affichage par le poste utilisateur 103 de tout document numérisé résultant de la recherche et correspondant au même document papier que celui que l'utilisateur vient de numériser via le dispositif de numérisation 101. Ainsi, cela permet à l'utilisateur de vérifier par lui-même que le document papier a déjà été numérisé et qu'un document numérisé correspondant au document papier est effectivement présent dans le service de numérisation. En alternative ou conjointement, des métadonnées associées au document numérisé résultant de la recherche et correspondant au même document papier que celui que l'utilisateur vient de numériser via le dispositif de numérisation 101 peuvent être affichées. Ainsi, cela permet à l'utilisateur de retrouver dans le service de numérisation quelles données relatives à ce document papier sont déjà connues du système. Cela est utile pour accéder facilement à des métadonnées associées à un document dont l'utilisateur a la version papier sous la main. De telles métadonnées pouvant en outre contenir une indication de l'état d'avancement du document numérisé au sein de traitements appliqués par le serveur 102, cela permet à l'utilisateur de connaître cet état d'avancement simplement en insérant le document papier dans le dispositif de numérisation 101. Dans un mode de réalisation particulier, le serveur 102 effectue une comparaison de tout document résultant de la recherche et correspondant au même document papier que le document numérisé résultant de la dernière numérisation. Par exemple, la méthode de comparaison décrite dans la thèse « Comparaison d'images binaires reposant sur une mesure locale des dissimilarités - Application à la classification », Etienne Baudrier, Université de Reims Champagne-Ardenne, 9 décembre 2005, peut être mise en oeuvre. Cela est utile pour identifier les éventuelles altérations qui auraient pu être apportées au document papier après la numérisation dont résulte le document numérisé présent dans le service de numérisation. Cela permet à l'utilisateur de savoir si de telles altérations existent simplement en insérant le document papier dans le dispositif de numérisation 101.In the presence of duplicates, the server 102 can store the scanned document resulting from the last digitization of the paper document in a memory zone or a specific directory and allow the user to choose later the action to be performed. In the presence of duplicates, the server 102 may associate to the various scanned documents information indicating the existence of different documents scanned for the same paper document, and information creating a link between these different scanned documents. In the presence of duplicates, the server 102 can search, by means of the aforementioned document identifier, any scanned document present in the scanning service and corresponding to the same document identifier, then ensure the display of the document (s) digitized (s) found, as described below in connection with FIG. 4. In the presence of duplicates, the server 102 may compare scanning parameters used for the last scan of the paper document with the scanning parameters for which the scanned document is present in the scanning service, and retain only the scanned document. presenting the settings corresponding to the digitization of better quality. In a particular embodiment, when the mark affixed by the scanning device 101 contains a document identifier, a metadata is added by the server 102 to the scanned document (s) present in the service. scan number to indicate the number of times the paper document has been scanned. In an alternative embodiment of the algorithm of FIG. 3, the scanning device 101 affixes a mark to each scanning of the paper document. The paper document can then comprise several marks representative of respective scans. In the case where each mark is representative of a document identifier and the scanning step of the scanned document for detecting the presence of at least one mark is performed after the step of affixing a mark, the paper document may be associated with a plurality of document identifiers. In this case, the server 102 maintains a correspondence between these document identifiers. Preferably, the digitizing device 101 affixes a mark only when the analysis of the scanned document reveals that no mark representative of an earlier digitization of the paper document has been detected. Fig. 4 schematically illustrates a scanned document display algorithm, in the context of managing duplicate scanned documents. In a step 401, the server 102 obtains an identifier of the scanning device 101. For example, this identifier is indicated in a message transmitted by the scanning device 101 to the server 102 and including the scanned document. In a step 402, the server 102 obtains a document identifier from the mark representative of an earlier scan and detected in step 303. In a step 403, the server 102 performs a scanned document search in the database. of digitized document data of the digitizing service, by virtue of the document identifier obtained in step 402. In a step 404, the server 102 determines a user session identifier in the digitization service, corresponding to the identifier of the document. scanning device obtained in step 401. In other words, the server 102 detects a user session in the open scan service on a user station and to which the scanning device 101 is associated. In a step 405, the server 102 makes available, via the user session identified by the user session identifier obtained in step 404, a result of the search carried out at step 403. The display of the result is then provided via said user session. Using the illustrative example of the system of FIG. 1, the scanning device 101 is associated with a session in the scanning service opened on the user station 103. When duplicates are detected, the server 102 transmits to the user station 103 via said user session any information necessary for the display of the user. the result of the scanned document search performed in step 403. Preferably, the server 102 ensures the display by the user station 103 of any scanned document resulting from the search and corresponding to the same paper document that the user has just This allows the user to verify by himself that the paper document has already been scanned and that a scanned document corresponding to the paper document is indeed present in the scanning service. Alternatively or jointly, metadata associated with the scanned document resulting from the search and corresponding to the same paper document that the user has just digitized via the scanning device 101 can be displayed. Thus, this allows the user to find in the scanning service what data relating to this paper document are already known to the system. This is useful for easy access to metadata associated with a document that the user has the paper version on hand. Such metadata can furthermore contain an indication of the progress of the scanned document within the processes applied by the server 102, which enables the user to know this progress simply by inserting the paper document into the document. scanning device 101. In a particular embodiment, the server 102 performs a comparison of any document resulting from the search and corresponding to the same paper document as the scanned document resulting from the last scan. For example, the comparison method described in the thesis "Comparison of binary images based on a local measure of dissimilarities - Application to the classification", Etienne Baudrier, University of Reims Champagne-Ardenne, December 9, 2005, can be implemented . This is useful for identifying any alterations that may have been made to the paper document after the scan results in the scanned document in the scanning service. This allows the user to know if such alterations exist simply by inserting the paper document into the scanning device 101.
La Fig. 5A illustre schématiquement un premier exemple d'agencement matériel du dispositif de numérisation 101. Le dispositif de numérisation 101 comporte une fente d'insertion de documents papier et une fente d'éjection de documents papier, entre lesquelles un chemin de défilement 502 est défini. De manière à manipuler un document papier 510 le long du chemin de défilement 502, le dispositif de numérisation 101 comporte des rouleaux d'entraînement 501. Un premier jeu de rouleaux d'entraînement 501 est adapté pour saisir le document papier 510 inséré par la fente d'insertion. Un second jeu de rouleaux d'entraînement 501 est adapté pour éjecter le document papier 510 par la fente d'éjection. Ces deux jeux de rouleaux d'entraînement coopèrent pour faire progresser le document papier 510 le long du chemin de défilement 502. Le dispositif de numérisation 101 comporte en outre un capteur d'image par contact CIS (« Contact Image Sensor » en anglais) 503, qui permet de réaliser la numérisation du document papier 510 de manière compacte. Le capteur d'image par contact CIS 503 est tangent au chemin de défilement 502 afin d'entrer en contact avec le document papier 510 lorsque le document papier 510 est manipulé le long du chemin de défilement 502. Un second capteur d'image par contact CIS peut être installé en opposition au capteur d'image par contact CIS 503 le long du chemin de défilement 502, afin de réaliser une numérisation recto-verso du document papier 510.Fig. 5A schematically illustrates a first example of a hardware arrangement of the digitizer 101. The digitizer 101 includes a paper insertion slot and a paper document ejection slot, between which a scroll path 502 is defined. In order to manipulate a paper document 510 along the scroll path 502, the scanning device 101 includes drive rollers 501. A first set of drive rollers 501 is adapted to capture the paper document 510 inserted through the slot insertion. A second set of drive rollers 501 is adapted to eject the paper document 510 through the ejection slot. These two sets of drive rollers co-operate to advance the paper document 510 along the scrolling path 502. The scanning device 101 further comprises a CIS (Contact Image Sensor) image sensor 503 which makes it possible to digitize the paper document 510 in a compact manner. The CIS 503 contact image sensor is tangent to the scroll path 502 to contact the paper document 510 when the paper document 510 is manipulated along the scroll path 502. A second image sensor by contact CIS can be installed in opposition to the CIS 503 contact image sensor along the scroll path 502, in order to perform duplex scanning of the paper document 510.
Le dispositif de numérisation 101 comporte en outre un mécanisme 504 d'apposition de marque sur le document papier 510, placé le long du chemin de défilement 502. Dans un mode de réalisation particulier, le mécanisme 504 d'apposition de marque sur le document papier 510 est débrayable, de manière à permettre de faire transiter le document papier 510 sans apposer de marque sur le document papier 510. Le dispositif de numérisation 101 de la Fig. 5A peut être adapté pour retarder l'apposition de la marque sur le document papier 510 jusqu'à réception d'un signal confirmant que le document numérisé a bien été pris en compte par le service de numérisation. Ceci est particulièrement utile si l'analyse du document numérisé pour retrouver une marque de numérisation antérieure est effectuée par le serveur 102. Le dispositif de numérisation 101 peut alors réaliser une éjection différée du document papier : après numérisation, le document papier 510 reste pris dans le jeu de rouleaux d'entraînement adapté pour éjecter le document papier 510 par la fente d'éjection, jusqu'à réception du signal confirmant que le document numérisé a bien été pris en compte par le service de numérisation. Ensuite, si une marque doit être apposée, ces rouleaux tournent en sens inverse pour faire transiter le document papier 510 en sens inverse pour permettre d'apposer la marque. Après apposition de la marque, ou si aucune marque n'est à apposer, ces rouleaux assurent l'éjection du document papier 510.The scanning device 101 further includes a mark-affixing mechanism 504 on the paper document 510, placed along the scrolling path 502. In a particular embodiment, the mark-affixing mechanism 504 on the paper document 510 is disengageable, so as to allow the transit of the paper document 510 without affixing a mark on the paper document 510. The scanning device 101 of FIG. 5A can be adapted to delay the affixing of the mark on the paper document 510 until a signal is received confirming that the scanned document has been taken into account by the scanning service. This is particularly useful if the scan of the scanned document to retrieve an earlier scan mark is performed by the server 102. The scanning device 101 can then perform a delayed ejection of the paper document: after scanning, the paper document 510 remains in the document. the set of drive rollers adapted to eject the paper document 510 through the ejection slot until the signal confirming that the scanned document has been taken into account by the scanning service. Then, if a mark is to be affixed, these rollers turn in opposite directions to pass the paper document 510 in the opposite direction to allow to affix the mark. After affixing the mark, or if no mark is to be affixed, these rollers ensure the ejection of the paper document 510.
En d'autres termes, le dispositif de numérisation 101 est adapté pour : effectuer un premier défilement du document papier 510 sur le chemin de défilement 502 pour permettre de retrouver une éventuelle marque représentative d'une numérisation antérieure du document papier 510 ; et effectuer un second défilement sur le chemin de défilement 502 pour permettre d'apposer une marque lorsqu'aucune marque représentative d'une numérisation antérieure du document papier n'a été détectée. La Fig. 5B illustre schématiquement un second exemple d'agencement matériel du dispositif de numérisation 101. Le dispositif de numérisation 101 comporte une première fente d'insertion de documents papier adaptée à recevoir un document papier 510 inséré par l'utilisateur et une première fente d'éjection de documents papier adaptée pour éjecter le document papier 510 dans un réceptacle de stockage temporaire 540. Le dispositif de numérisation 101 comporte une seconde fente d'insertion de documents papier adaptée à recevoir le document papier 510 en attente dans le réceptacle de stockage temporaire 540 et une seconde fente d'éjection de documents papier adaptée pour éjecter le document papier 510. Un premier chemin de défilement 522 est ainsi défini entre la première fente d'insertion et la première fente d'éjection, et un second chemin de défilement 532 est ainsi défini entre la seconde fente d'insertion et la seconde fente d'éjection.In other words, the scanning device 101 is adapted to: perform a first scroll of the paper document 510 on the scroll path 502 to allow to find a possible mark representative of a prior digitization of the paper document 510; and performing a second scroll on the scroll path 502 to allow to affix a mark when no mark representative of an earlier scan of the paper document has been detected. Fig. 5B schematically illustrates a second example of a hardware arrangement of the digitizer device 101. The digitizer device 101 includes a first paper document insertion slot adapted to receive a user-inserted paper document 510 and a first ejection slot. adapted paper documents for ejecting the paper document 510 in a temporary storage receptacle 540. The scanning device 101 has a second paper insertion slot adapted to receive the paper document 510 waiting in the temporary storage receptacle 540 and a second paper ejection slot adapted to eject the paper document 510. A first scrollpath 522 is thus defined between the first insertion slot and the first ejection slot, and a second scrollpath 532 is thus defined between the second insertion slot and the second ejection slot.
De manière à manipuler le document papier 510 le long du premier chemin de défilement 522, le dispositif de numérisation 101 comporte des rouleaux d'entraînement 521. De manière à manipuler le document papier 510 le long du second chemin de défilement 532, le dispositif de numérisation 101 comporte des rouleaux d'entraînement 531. Les rouleaux d'entraînement 521 sont adaptés pour saisir le document papier 510 inséré par la fente d'insertion et faire transiter le document papier 510 le long du premier chemin de défilement 522. Les rouleaux d'entraînement 531 sont adaptés pour saisir le document papier 510 en attente dans le réceptacle de stockage temporaire 540 et faire transiter le document papier 510 le long du second chemin de défilement 532.In order to manipulate the paper document 510 along the first scroll path 522, the digitizer 101 includes drive rollers 521. In order to manipulate the paper document 510 along the second scroll path 532, the scanner Scanning 101 comprises drive rollers 531. Drive rollers 521 are adapted to grip the paper document 510 inserted through the insertion slot and pass the paper document 510 along the first scroll path 522. The rolls of The drive 531 is adapted to enter the pending paper document 510 into the temporary storage receptacle 540 and to route the paper document 510 along the second scrollpath 532.
Le dispositif de numérisation 101 comporte en outre un capteur d'image par contact CIS 523, qui permet de réaliser la numérisation du document papier 510 de manière compacte. Le capteur d'image par contact CIS 523 est tangent au premier chemin de défilement 522 afin d'entrer en contact avec le document papier 510 lorsque le document papier 510 est manipulé le long du premier chemin de défilement 522. Un second capteur d'image par contact CIS peut être installé en opposition au capteur d'image par contact CIS 503 le long du premier chemin de défilement 522, afin de réaliser une numérisation recto-verso du document papier 510. Le dispositif de numérisation 101 comporte en outre un mécanisme 524 d'apposition de marque sur le document papier 510, placé le long du second chemin de défilement 532. Dans un mode de réalisation particulier, le mécanisme 504 d'apposition de marque sur le document papier 510 est débrayable, de manière à permettre de faire transiter le document papier 510 sans apposer de marque sur le document papier 510.The digitizing device 101 further includes a CIS 523 contact image sensor, which makes it possible to digitize the paper document 510 in a compact manner. The CIS 523 contact image sensor is tangent to the first scroll path 522 to contact the paper document 510 when the paper document 510 is manipulated along the first scroll path 522. A second image sensor by CIS contact can be installed in opposition to the CIS 503 contact image sensor along the first scrollpath 522, to perform a duplex scan of the paper document 510. The digitizer 101 further includes a mechanism 524 marking application on the paper document 510, placed along the second scroll path 532. In a particular embodiment, the mechanism 504 for affixing a mark on the paper document 510 is disengageable, so as to allow to make transit the paper document 510 without affixing a mark on the paper document 510.
Le dispositif de numérisation 101 de la Fig.The digitizer 101 of FIG.
5B est adapté pour retarder l'apposition de la marque sur le document papier 510 jusqu'à réception d'un signal confirmant que le document numérisé a bien été pris en compte par le service de numérisation. Ceci est particulièrement utile si l'analyse du document numérisé pour retrouver une marque de numérisation antérieure est effectuée par le serveur 102. Le dispositif de numérisation 101 peut alors réaliser une éjection différée du document papier : après numérisation, le document papier 510 est éjecté dans le réceptacle de stockage temporaire 540. Le document papier 510 reste dans le réceptacle de stockage temporaire 540, jusqu'à réception du signal confirmant que le document numérisé a bien été pris en compte par le service de numérisation. Ensuite, les rouleaux 531 font transiter le document papier 510 le long du second chemin de défilement 532. Si une marque doit être apposée, le mécanisme 524 d'apposition de marque sur le document papier 510 est activé lors du transfert du document papier 510 le long du second chemin de défilement 532. En d'autres termes, le dispositif de numérisation 101 est adapté pour : effectuer un premier défilement du document papier 510 sur le premier chemin de défilement 522 pour permettre de retrouver une éventuelle marque représentative d'une numérisation antérieure du document papier 510 ; pour mettre en attente le document papier 510 jusqu'à détection d'une notification indiquant qu'aucune marque représentative d'une numérisation antérieure du document papier 510 n'a été détectée; effectuer un second défilement sur le second chemin de défilement 532 pour permettre d'apposer une dite marque sur détection de ladite notification.5B is adapted to delay the affixing of the mark on the paper document 510 until a signal is received confirming that the scanned document has been taken into account by the scanning service. This is particularly useful if the scan of the scanned document to retrieve an earlier scan mark is performed by the server 102. The scanning device 101 can then perform a delayed ejection of the paper document: after scanning, the paper document 510 is ejected in the temporary storage receptacle 540. The paper document 510 remains in the temporary storage receptacle 540, until receipt of the signal confirming that the scanned document has been taken into account by the scanning service. Then, the rollers 531 pass the paper document 510 along the second scrollpath 532. If a mark is to be affixed, the mark-affixing mechanism 524 on the paper document 510 is activated when transferring the paper document 510 on along the second scrolling path 532. In other words, the scanning device 101 is adapted to: perform a first scroll of the paper document 510 on the first scroll path 522 to allow to find a possible mark representative of a digitization previous paper 510; to hold the paper document 510 until a notification is detected that no mark representative of a previous scan of the paper document 510 has been detected; perform a second scroll on the second scrollpath 532 to allow to affix a said mark on detection of said notification.
Claims (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1261410A FR2998690A1 (en) | 2012-11-29 | 2012-11-29 | System for managing duplicates of paper documents in digitizing service, has management unit for managing duplicates when analysis unit finds mark representative of previous digitalization of paper document in digitized document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1261410A FR2998690A1 (en) | 2012-11-29 | 2012-11-29 | System for managing duplicates of paper documents in digitizing service, has management unit for managing duplicates when analysis unit finds mark representative of previous digitalization of paper document in digitized document |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2998690A1 true FR2998690A1 (en) | 2014-05-30 |
Family
ID=47902118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1261410A Pending FR2998690A1 (en) | 2012-11-29 | 2012-11-29 | System for managing duplicates of paper documents in digitizing service, has management unit for managing duplicates when analysis unit finds mark representative of previous digitalization of paper document in digitized document |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2998690A1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5959288A (en) * | 1996-03-12 | 1999-09-28 | Hitachi, Ltd. | Apparatus for sorting various kinds of sheets of paper |
US6644764B2 (en) * | 1998-10-28 | 2003-11-11 | Hewlett-Packard Development Company, L.P. | Integrated printing/scanning system using invisible ink for document tracking |
US20040039757A1 (en) * | 2002-08-26 | 2004-02-26 | Mcclure William B. | System, method, and apparatus for managing form-based business records |
US20050006480A1 (en) * | 2003-07-07 | 2005-01-13 | Srikrishna Talluri | Method and apparatus for management of a document generation process |
US7344078B2 (en) * | 2002-12-05 | 2008-03-18 | Riocoh Co., Ltd. | Device for scanning and printing barcodes |
-
2012
- 2012-11-29 FR FR1261410A patent/FR2998690A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5959288A (en) * | 1996-03-12 | 1999-09-28 | Hitachi, Ltd. | Apparatus for sorting various kinds of sheets of paper |
US6644764B2 (en) * | 1998-10-28 | 2003-11-11 | Hewlett-Packard Development Company, L.P. | Integrated printing/scanning system using invisible ink for document tracking |
US20040039757A1 (en) * | 2002-08-26 | 2004-02-26 | Mcclure William B. | System, method, and apparatus for managing form-based business records |
US7344078B2 (en) * | 2002-12-05 | 2008-03-18 | Riocoh Co., Ltd. | Device for scanning and printing barcodes |
US20050006480A1 (en) * | 2003-07-07 | 2005-01-13 | Srikrishna Talluri | Method and apparatus for management of a document generation process |
Non-Patent Citations (5)
Title |
---|
BSI: "Qu'est-ce qu'un système de gestion?", 1 January 2013 (2013-01-01), pages 1 - 2, XP055067877, Retrieved from the Internet <URL:http://www.bsigroup.ca/fr-ca/assessment-and-certification/management-systems/at-a-glance/what-is-an-ms/> [retrieved on 20130624] * |
DAVID GROSSMAN ET AL: "Information Retrieval: Algorithms and Heuristics", 1 January 2004, SPRINGER, article "5.4 Duplicate Document Detection", pages: 203 - 207, XP002711350 * |
GRAVIC, INC.: "Remark Office OMR Product Updates", XP002711351, Retrieved from the Internet <URL:http://www.gravic.com/remark/support/office/rooarchiveupdates.html> [retrieved on 20130815] * |
GRAVIC, INC: ""Review Duplicate" [fonction du logiciel informatique Remark Office OMR]", 10 February 2007 (2007-02-10), XP002711379, Retrieved from the Internet <URL:http://www.gravic.com/remark/kb/?q=282> [retrieved on 20130723] * |
KENNETH A. MEGILL: "Corporate Memory Information Services Management Series: Records And Information Management In The Knowledge Age", 1 January 2005, K.G. SAUR, article "Chapter 7: The Technologies", pages: 73 - 88, XP002711352 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101462289B1 (en) | Digital image archiving and retrieval using a mobile device system | |
US8620836B2 (en) | Preprocessing of text | |
FR2956230A1 (en) | METHOD FOR CATEGORIZATION AND SEPARATION OF DOCUMENTS IN ONE STEP | |
US9672420B2 (en) | Method for a medication dispenser to obtain information from a medication package, and medication dispenser | |
EA034337B1 (en) | Method for unit and container identification and tracking | |
CN113034421A (en) | Image detection method, device and storage medium | |
FR3068807B1 (en) | METHOD FOR PROCESSING AN IMAGE SHOWING A STRUCTURAL DOCUMENT COMPRISING A VISUAL INSPECTION ZONE FROM AN AUTOMATIC READING AREA OR BAR CODE TYPE | |
WO2019122653A1 (en) | Method, device and program for managing proofs of purchase | |
US20200186668A1 (en) | Method and device for recommending watermark for electronic terminal | |
CN101236559A (en) | Document management apparatus and document management method | |
JP5423380B2 (en) | Information processing program and information processing method | |
FR2998690A1 (en) | System for managing duplicates of paper documents in digitizing service, has management unit for managing duplicates when analysis unit finds mark representative of previous digitalization of paper document in digitized document | |
CN112000301A (en) | Method and device for monitoring printed documents | |
US20160203457A1 (en) | Transaction system, processing device, and control device | |
CN105718846A (en) | Bill information input method and apparatus | |
EP3336786A1 (en) | Method for electronic message edition with redundant elements suppression | |
EP1746536A2 (en) | Audience measuring device, terminal, information process, computer program, collecting device and server | |
JP2005322084A (en) | Document management device and method | |
JP5428466B2 (en) | Preference information processing system, portable information terminal, preference information processing program, and preference information processing method | |
CN111125225A (en) | Bill data analysis method and device and server | |
EP2806375A2 (en) | Apparatus and method of document tagging by pattern matching | |
FR2968882A1 (en) | Paperless credit card receipt or cash receipt generating and transmitting method for use during checkout in commercial supermarket, involves transmitting digital file in accordance with electronic data transmission process | |
FR2837011A1 (en) | METHOD FOR AUTOMATIC READING OF A DOCUMENT ON WHICH A PRE-PRINTED LABEL TO BE COMPLETED, CORRESPONDING LABEL, SYSTEM AND ACCOUNTING METHOD | |
JP2006227857A5 (en) | ||
EP3262501B1 (en) | Print format version with machine-readable link |