WO2001013279A2

WO2001013279A2 - Base de donnees interrogeable a partir d'un volume eleve de donnees journalistiques saisies

Info

Publication number: WO2001013279A2
Application number: PCT/US2000/022492
Authority: WO
Inventors: John R. Yokley; Don Nissen; Erik Schwartz; Bryan Kornele; Ed Lee; Kevin Kapel
Original assignee: Ptfs, Inc.
Priority date: 1999-08-17
Filing date: 2000-08-17
Publication date: 2001-02-22
Also published as: WO2001013279A9; WO2001013279A3; AU7060500A

Abstract

L'invention concerne un procédé de numérisation d'informations papier tirées d'un journal, qui comprend la saisie des informations en format d'image numérique puis le traitement de l'image, en vue de produire un texte que l'on peut interroger. Le traitement comporte le retrait des tampons de données et autres signes/marques imprimés sur le papier, améliorant l'image au moyen de fonctions de traitement d'une bibliothèque d'images, et réalisant une reconnaissance optique de caractères (OCR), afin de sélectionner une sortie OCR optimale. La sortie OCR optimale produit un texte extrêmement précis qui peut être interrogé, par un traitement de reconnaissance adaptatif, la logique aléatoire, la morphologie, et d'autres techniques, afin de constituer une base de données interrogeable par mots d'information papier tirée de journaux. Ce procédé est dirigé par logiciel de manière à ce que le flux de travail, électronique ou non-électronique, entre divers procédés ou postes, puisse être suivi et séquencé et que les données adéquates soient recueillies et stockées.