DK176834B1 - Fremgangsmåde til skanning - Google Patents
Fremgangsmåde til skanning Download PDFInfo
- Publication number
- DK176834B1 DK176834B1 DK200800356A DKPA200800356A DK176834B1 DK 176834 B1 DK176834 B1 DK 176834B1 DK 200800356 A DK200800356 A DK 200800356A DK PA200800356 A DKPA200800356 A DK PA200800356A DK 176834 B1 DK176834 B1 DK 176834B1
- Authority
- DK
- Denmark
- Prior art keywords
- computer
- implemented method
- predefined
- character
- document
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 64
- 239000002131 composite material Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000012015 optical character recognition Methods 0.000 description 28
- 230000008901 benefit Effects 0.000 description 23
- 238000012544 monitoring process Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- WYWHKKSPHMUBEB-UHFFFAOYSA-N 6-Mercaptoguanine Natural products N1C(N)=NC(=S)C2=C1N=CN2 WYWHKKSPHMUBEB-UHFFFAOYSA-N 0.000 description 1
- 101150075130 PNOC gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 229940095374 tabloid Drugs 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Processing Or Creating Images (AREA)
- Character Input (AREA)
- Facsimiles In General (AREA)
- Storage Device Security (AREA)
- Facsimile Image Signal Circuits (AREA)
- Cleaning In Electrography (AREA)
- Editing Of Facsimile Originals (AREA)
Description
DK 176834 B1
Fremgangsmåde til skanning Teknisk område 5 Denne opfindelse angår computer-implementeret behandling af digitale billeder eller optagelser, der er erhvervet ved optisk skanning af et dokument, som indeholder tekst, for eksempel trykte avissider eller andre former for fremvisning af tekst, hvor teksten kan være juridisk beskyttet imod ulovlig kopiering.
10
Opfindelsens baggrund
Direktivet 2001/29/EC fra det Europæiske Parlament og fra det Europæiske Råd fra 22. maj 2001 vedrørende harmonisering af ophavsrettigheder i EU-15 landene fastsætter reglerne for kopiering og skanning. Den ækvivalente US lovgivning er "Digital Millenium Copyright Act" (DMCA).
Skanning og kopiering kan udføres ved hjælp af en konventionel skanner, men eftersom konventionel skanning af ophavsret-beskyttede dokumenter 20 overtræder ophavsrettigheder, er der et behov for en løsning på dette problem.
EU Ophavsret Direktivets artikel 2 tilvejebringer den mest fundamentale "kopi" rettighed. Den tilvejebringer eksklusive rettigheder over reproduktionen af 25 "direkte eller indirekte, midlertidige eller permanente" kopier af værker til performere, fonogramproducenter, filmproducenter, radio- og fjernsynsforetagender og forfattere.
Artikel 5 i EU Ophavsret Direktivet fastsætter begrænsningerne og undtagelserne, som kan gælde for rettighederne tilvejebragt i artikel 2. Den lovpligtige 30 undtagelse til reproduktionsrettigheden i artikel 5(1) tilvejebringer "kortvarig og tilfældig” reproduktion, som er en "essentiel og integreret" del af netværkstransmission ved et mellemled eller tillader retsmæssig anvendelse af et værk uden nogen "uafhængig økonomisk betydning." DK 176834 B1 2
Det forhindrer også rettighedshavere fra at kontrollere al adgang til værker gennem digitale teknologier, som ved deres selvsamme design fremstiller midlertidige "kopier" af værker, når de overføres fra et medium såsom en DVD til afspillerens hukommelse for at blive behandlet, og derefter til et dis-5 play eller en højttaler.
Overvågning af ophavsret-beskyttede publikationer såsom aviser, magasiner, erhvervstidsskrifter, videnskabelige tidsskrifter og andre fagblade udføres systematisk for eksempel af firmaer i medie-overvågningsbranchen for at 10 betjene deres klienter ved at identificere artikler eller andre tekstsektioner af interesse. Overvågning udføres for at hjælpe klientvirksomheder og enkeltindivider med at holde styr på hvor ofte og i hvilken grad de nævnes i nyhedsmedierne.
15 Traditionelt er overvågning baseret på manuel læsning af for eksempel aviser. Når aviserne modtages, for eksempel hos medie-overvågningsfirmaet, udleveres de til kvalificerede menneskelige læsere, som hurtig-læser gennem avisen for at se efter relevante artikler, for eksempel artikler, hvor deres klienter er nævnt. Læserne ser efter ord såsom firmanavne, navne på enkelt-20 individer, og/eller andre nøgleord, der repræsenterer bestemte emner eller temaer for at bestemme hvilke af artiklerne, der er relevante artikler.
Læseren markerer nøgleordene, når han/hun finder dem på en side i avisen.
Når hele siden er læst, og alle nøgleord er markeret, udfører læseren en eva-25 luering nøgleord-for-nøgleord for at bestemme, om artiklen er relevant for en klient. Hvis artiklen findes relevant, så udfører læseren eller en assistent en fysisk udklipning af artiklen/artiklerne for klienten og sender det til ham.
Den tidskrævende del af processen er tiden, der bruges på at finde nøgleor-30 dene. Læsetiden per side, når der startes i det øvre venstre hjørne og sluttes i det højre nedre hjørne, er forholdsvis konstant i forhold til antallet af nøgleord på en side. Dette resulterer i et højt tidsforbrug per udklipning, hvis der DK 176834 B1 3 kun er få relevante artikler i en avis. Det meste af denne tid brugt på læsning, er dermed ineffektiv.
I nogen udstrækning, er automatisering af processen mulig ved anvendelse 5 af traditionelle skannere, der skanner hele avisen side-for-side og frembringer et digitalt billede af avissiderne med det formål at lagre en elektronisk version, for eksempel i et JPG, TIFF eller PDF format, til lagring i et filsystem eller en database. Efterfølgende genfindes hver fil til Optisk Karakter Genkendelse for at frembringe filer, hvor genkendte karakterer hver repræsente-10 res ifølge et bestemt indkodningssystem (for eksempel ASCII). Disse filer lagres også i et filsystem eller database. Endvidere er en såkaldt søgemaskine loadet med et set af nøgleord, og søgemaskinen genfinder de filer, hvor karakterer og sekvenser af karakterer er indkodet for at tilvejebringe et output i form af en udklipningsliste. En udklipningsliste tilvejebringer personen, som 15 udklipper artiklerne fra aviserne, med information, som dirigerer ham hen til siden i den fysiske avis - den specificerer titlen på artiklen, der skal udklippes, og dens tilnærmede placering. Denne automatiserede proces giver en god forøgelse i produktivitet i forhold til den manuelle proces.
20 Imidlertid, eftersom det digitale billede repræsenterer en elektronisk kopi af det originale materiale, betragtes denne proces som en overtrædelse af forfatterens ophavsret under mange lovgivninger. Blot at vise det skannede billede på en fremvisningsskærm betragtes, under bestemte lovgivninger, som en handling, der overtræder forfatterens ophavsret. De digitale billeder er 25 ikke direkte søgbare efter tekst, men kræver en konvertering til en kodet, digital form ved hjælp af Optisk Karakter Genkendelse, OCR. Imidlertid vil output fra denne konvertering, for eksempel den kodede, digitale form, også blive betragtet som en overtrædelse af ophavsret.
30 I nogle lande vil det blive betragtet som ikke at være en overtrædelse af forfatterens ophavsret, hvis den elektroniske kopi er "kortvarig og tilfældig" og en "essentiel og integreret” del af en søgeproces eller resume-skrivning.
DK 176834 B1 4
Hvis den traditionelle medieovervågnings-proces med brug af manuel læsning af tekstmæssige medier automatiseres, vil der fremstilles kopier af de tekstmæssige medier. Skabelsen af kopier af tekstmæssige medier er et problem i forhold til ophavsrettigheder. Ophavsrettigheder kan derved være 5 en hindring for at automatisere medieovervågning. Derved er automatisering af overvågningen af tekstmæssige medier samt afværgelse af at overtræde ophavsrettigheder, problemer, som stadig skal løses. Derved er der et behov for en teknisk løsning til at løse problemet med at automatisere en overvågning af tekstmæssige medier (for eksempel aviser, bøger) og problemet med 10 at undgå overtrædelse af ophavsrettigheder.
Kendt teknik 15 US 6904183 B2 beskriver et elektronisk apparat til opfangelse af billeder, som omfatter et elektronisk kamera med en detektor og en linse med et synsfelt, som er tilpasset til at begrænse indfaldende stråling på detektoren. En aktuator er tilvejebragt for at flytte kameraet og dets synsfelt henover dokumentet, og en styreenhed er tilvejebragt for at erhverve et set af overlappen-20 de underbilleder svarende til forskellige områder af dokumentet. Midler til at processere er tilvejebragt for at danne et sammensat billede af den del af dokumentet, der er dækket af settet af underbilleder. Et set af underbilleder frembringes, som hver omfatter et dataset af karakterer svarende til karakterer, der forekommer I et respektivt underbillede. Indholdet af hver af underbil-25 lederne sættes sammen på et blankt tekstdokument for at frembringe et komplet sammensat tekstdokument, der indeholder det tekstmæssige indhold af det skannede dokument. Underbilleder sendes først gennem en optisk karakter genkendelses (OCR)-rutine forud for sammensætningen, og sammensætning udføres da på et karakterniveau. Sådan en skanner kan have den 30 fordel, at den optager mindre skrivebordsplads end en såkaldt flatbed skanner.
i i DK 176834 B1 5
Den ovenstående applikation løser problemet at automatisere tekstskanning af et dokument. Men med hensyn til ophavsrettigheder er dette ikke et emne, som den ovenstående applikation eller andre applikationer hverken adresserer eller løser, eftersom dokumentet i den ovenstående applikation reprodu- i 5 ceres i digital form.
Eftersom kopiering er en overtrædelse af ophavsrettigheder, skal dette emne løses, når dokumentskanning udføres på trykte tekstmedier, såsom aviser eller bøger, eller når skanning udføres på elektronisk fremviste tekstdokumenter, såsom elektroniske bøger.
10
Derfor er problemet at automatisere en overvågning af nyhedsmedier uden at overtræde ophavsrettighederne ikke løst i den kendte teknik.
15 Sammendrag af opfindelsen
Beskrevet er en computer-implementeret fremgangsmåde til skanning af et dokument, omfattende trinnene: - erhvervelse, til en hukommelse, af mindst én optagelse begrænset til et felt, 20 der dækker et afgrænset område af et dokument; - processering af den i det mindste ene optagelse for at udføre karakter genkendelse; - når en karakter er genkendt, registrering af den i en hukommelse; og udførsel af de ovenstående trin gentagende gange, mens der optages på forskud- 25 te positioner for gradvist at opnå en karakterstreng; kendetegnet ved: - evaluering af strengen i forhold til en foruddefineret betingelse; - hvis betingelsen ikke er opfyldt, sletning fra hukommelsen af mindst en del af strengen og mindst en del af den i det mindste ene optagelse; 30 - hvis betingelsen er opfyldt, bestemmelse af hvorvidt der skal tilvejebringes et output.
DK 176834 B1 6
For at undgå overtrædelse af ophavsrettigheder må tekst ikke reproduceres i digital form eller på anden vis kopieres.
En løsning på dette problem er at filtrere indholdet af dokumentet for at uddrage informationen, som man ønsker at opnå, og filtrere resten ud.
5
For at udføre filtrering af indholdet, skal filter-egenskaber defineres. Filter-egenskaber kan defineres ved hjælp af forudbestemte betingelser. En forudbestemt betingelse kan for eksempel være genkendelse af et nøgleord, maksimal længde af en karakterstreng osv. Hvis genkendelse af nøgleord er en 10 filter-egenskab, så passerer, i overensstemmelse med det, kun nøgleord gennem filteret, og resten af informationen i dokumentet lades tilbage. Ved at filtrere indholdet af dokumentet, fremstilles ingen komplet kopi af dokumentet, og kun den ønskede information uddrages fra dokumentet.
Den ønskede information kan være mindre information end al information i et 15 dokument, således at kun en del af indholdet af dokumentet uddrages, og dermed tilvejebringes størstedelen af dokumentet fortrinsvist aldrig som et output.
I praksis, når filteret genkender et nøgleord, kan nøgleordet og positionen af 20 nøgleordet i dokumentet lagres. Så snart nøgleordet og dets position er lagret, kan optagelsen, for eksempel billede, som indeholdt nøgleordet, slettes, fordi al informationen, som er nødvendig om dette nøgleord, er registreret.
På denne måde vil der ikke genereres nogen kopier af dokumentet, eftersom skanningen angår en filtreringsproces og ikke kopi-produktion.
25
En skanning ved hjælp af denne fremgangsmåde kan betegnes som en kig-huls-skanning. Kighuls-skanningen kan udføres ved at billedfeltet flyttes til en forskudt position og en optagelse erhverves med et kamera. Imidlertid kan kighuls-skanningen også udføres med flere kameraer monteret over doku-30 mentsiden, og optagelserne erhverves ved at bruge kameraerne skiftevis. Endvidere kan kighuls-skanningen også udføres ved for eksempel videooptagelse af en skræm, der fremviser dokumenter eller andre former for se-rialiseret dokument repræsentation.
DK 176834 B1 7
Endvidere er det en fordel at kighuls-skanneren udfører en indholdsbaseret evaluering af det elektroniske input for at finde de relevante stykker information af dokumentet, det vil sige nøgleord. Kighuls-skanneren udfører en filtre-5 ring af indholdet, hvor indholdet er i form af fragmenter af dokumentet.
Når en karakterstreng evalueres og for eksempel et output fremstilles, slettes en del af strengen og optagelsen fra hukommelsen for at umuliggøre at kopier af dokumentet eller dele af dokumentet skabes i løbet af skanningen.
10 Filtreringsprocessen udføres i starten af skanningen, og kighuls-skanneren foretager derved søgeprocessen på ord-for-ord niveau, hvorved fremstilling af en kopi af dokumentet forhindres, og overtrædelse af ophavsrettigheder undgås.
15 Således er hardwaren eller softwaren i computeren og relaterede apparater, udstyr og/eller maskineri, som udfører skanningen af dokumentet, justeret således at det fungerer på en juridisk korrekt måde i forhold til ophavsrettigheder. Hvis intet af informationen, som er indikativ for indholdet af dokumentet, slettes fra hukommelsen, overtrædes ophavsrettigheder. Derimod, hvis 20 hele informationen, som er indikativ for indholdet af dokumentet, slettes, vil der ikke være nogen information tilgængelig til overvågningen af de tekstmæssige medier. Opfindelsen tilvejebringer fremgangsmåden beskrevet ovenfor, som er imellem at slette intet og slette alt. Denne opfindelse gør det muligt at udføre en automatiseret overvågning af tekstmæssige medier og på 25 samme tid undgå at overtræde ophavsrettigheder.
Herved løser opfindelsen problemet at automatisere processen til at overvåge et tekstmæssigt medie ved den computer-implementerede fremgangsmåde til skanning beskrevet ovenfor, og opfindelsen løser problemet at undgå 30 overtrædelse af ophavsrettigheder ved at slette en del af informationen fra hukommelsen, som er indikativ for indholdet af dokumentet, således at der aldrig vil eksistere en komplet kopi af dokumentet i hukommelsen.
DK 176834 B1 8
Udover fordelene nævnt ovenfor, omfatter opfindelsen de kendte tekniske effekter og fordele ved automatisering, såsom at være hurtigt og pålideligt, reducering af omkostningerne ved manuelt arbejde udført af mennesker, reducering af fejl og uregelmæssigheder, som mennesker kan udføre osv.
5
Karakterer kan være bogstaver, symboler, tegn og/eller grafemer, såsom alfabetiske bogstaver, kinesiske karakterer, talord, tegnsætningstegn og alle de individuelle symboler i i et hvilket som helst af verdens skriftsystemer.
10 I en udførelsesform omfatter den foruddefinerede betingelse at karakterstrengen forekommer i et af foruddefinerede nøgleord. En fordel ved denne udførelsesform er at, hvis enten et helt nøgleord findes i karakterstrengen, eller at en del af et nøgleord findes i karakterstrengen, slettes denne information ikke øjeblikkeligt, men det bestemmes hvorvidt der skal tilvejebringes et 15 output. Dermed kan den ønskede information i dette tilfælde være et helt nøgleord eller en del af et nøgleord.
Hvis der ikke er nogen indikation af et nøgleord i det skannede dokument, vil intet indhold blive lagret. Men hvis der er en indikation på, at der er et nøgleord, vil karakterstrengen ikke blive slettet øjeblikkeligt, men overvejet med 20 det formål at bestemme hvorvidt den indeholder ønsket information.
I en udførelsesform omfatter den foruddefinerede betingelse at mindre end et foruddefineret antal af karakterer evalueres. En fordel ved denne udførelses-form er at sikre at karakter-genkendelses-pnocessen vil stoppe, hvis antallet 25 af evaluerede karakterer overstiger en forudbestemt øvre grænse eller tærskel. Hvis for mange karakterer evalueres, overtrædes ophavsrettigheder muligvis, men denne udførelsesform sikrer, at dette ikke sker.
I en udførelsesform omfatter den foruddefinerede betingelse at skrifttype-30 størrelsen af karakteren er mindre end en foruddefineret skrifttype-størrelse.
En fordel ved denne udførelsesform er at hvis skrifttype-størrelsen af karakteren er større end en maksimal foruddefineret skrifttype-størrelse, så stopper karakter-genkendelses-processen for at undgå skanning af store karakte DK 176834 B1 9 rer, som ellers måske ville have været en meget tidskrævende og ineffektiv opgave.
I en udførelsesform er bestemmelse af hvorvidt et output skal tilvejebringes 5 baseret på hvorvidt karakterstregen matcher et foruddefineret nøgleord. En fordel ved denne udførelsesform er at bestemmelsen af hvorvidt et output skal tilvejebringes afhænger af, om der er et nøgleords-match. Outputtet kan tilvejebringes enten under matchningen, når en del af karakterstrengen matcher et nøgleord, eller når karakterstrengen danner et færdigt nøgleord.
10 I en udførelsesform er outputtet en reference til en placering i dokumentet omfattende den i det mindste ene optagelse, som indeholder indhold, der bidrager til strengen, som blev evalueret positivt i forhold til betingelsen. En fordel ved denne udførelsesform er at outputtet fremstilles som en reference 15 af positionen/beliggenheden/området af nøgleordet i dokumentet, således at det kan findes efterfølgende, når optagelsen og nøgleordet er slettet fra hukommelsen, hvorved der gives en reference til positionen af optagelsen indeholdende information om positionen af nøgleordet. Det er fordelagtigt at erhverve optagelser med en positions-bestemmelse, som vil gøre det nem- ! 20 mere at give en reference til optagelsen efterfølgende.
I en udførelsesform anbringes et nøgleord, der er matchet med strengen, i en dokument-skabelon på en position, der repræsenterer positionen af det tilsvarende ord i dokumentet, der er underkastet skanningen. En fordel ved 25 denne udførelsesform er at et nøgleord efterfølgende kan anbringes og efterfølgende genfindes på en dokument-skabelon til brug for udklipning, liste-generering, resume-skrivning osv. Dokument-skabelonen tjener til at give et overblik over den fysiske position af nøgleord i det originale dokument uden at fremstille en kopi af dokumentet.
30 Alle andre ord end nøgleord kan for eksempel betegnes med grå områder på dokument-skabelonen. Skrifttype-størrelsen og for eksempel grå-skala farve af nøgleordet kan også angives i dokument-skabelonen, således at det er DK 176834 B1 10 muligt at bestemme, om nøgleordet er placeret i en overskrift, i en brødtekst osv.
I en udførelsesform genereres og lagres information om position i dokumen-5 tet og/eller længden af de fundne nøgleord. En fordel ved denne udførelsesform er, at positionen af nøgleord/ene i dokumentet kan findes bagefter, og denne information kan bruges til at sammenligne positionen af nøgleord i forhold til hinanden for at bestemme, om nøgleordene er placeret tæt på hinanden.
10 Nøgleord kan have specielle betydninger, når de er i kombination med andre nøgleord, og positionen af nøgleord i forhold til hinanden kan indeholde information, som er vigtig for klienten.
Information om position af et nøgleord kan identificeres på forskellige måder, 15 såsom: - ved hjælp af koordinater af nøgleordet; - ved hjælp af positionen af linjen i hvilken nøgleordet befinder sig; - ved hjælp af hvilket nummer ord i dokumentet nøgleordet er; 20 - ved hjælp af typografiske symboler, hvor typografiske symboler omfatter punktum, komma og lignende; - ved hjælp af hvilken nummer sætning i dokumentet nøgleordet er i; - ved hjælp af hvilken nummer sektion/afsnit nøgleordet er i.
25 I en udførelsesform omfatter outputtet koder, der repræsenterer karakter-strengen, som opfylder den foruddefinerede betingelse. En fordel ved denne udførelsesform er at outputtet af karakterstrengen, som matcher et nøgleord, kan repræsenteres ved hjælp af hvilke som helst passende koder, såsom karakterer, symboler, referencenumre, indeks til liste af nøgleord osv.
I en udførelsesform omfatter outputtet en reference til et nøgleord iblandt foruddefinerede nøgleord i en foruddefineret nøgleordsliste.
30 DK 176834 B1 11 ! I en udførelsesform omfatter outputtet et nøgleord iblandt foruddefinerede nøgleord.
I en udførefsesform omfatter outputtet et nøgleord iblandt foruddefinerede 5 nøgleord og en reference til en position, der repræsenterer positionen af det tilsvarende ord i dokumentet underlagt skanning.
I en udførelsesform slettes karakterstrengen, når et output er tilvejebragt. En fordel ved denne udførelsesform er at, når indholdet af karakterstrengen er 10 outputtet, slettes det fra hukommelsen, og på denne måde fremstilles ingen kopi af dokumentet. Al vigtig information om karakterstrengen, som er nødvendig, er givet ved hjælp af outputtet.
I en udførelsesform omfatter fremgangsmåden sammensætning af udvalgte 15 optagelser til en sammensat optagelse. En fordel ved denne udførelsesform er, at det er muligt at sammensætte udvalgte optagelser til en større optagelse eller billede. Dette er fordelagtigt, eftersom feltstørrelsen nogen gange vil være meget mindre end skriftstørrelsen af en karakter (lille optagelse eller billedstørrelse), hvis skanningen udføres på en avis, som indeholder mange 20 forskellige skriftstørrelser af karakterer, det vil sige store karakter skriftstørrelser i overskrifter og mindre karakter skriftstørrelser i brødtekst, billedtekst osv. Og eftersom det kan være foretrukket, at feltdimensionen er mindre end fx fem gange skriftstørrelsen af den mindste karakter, som der udføres karaktergenkendelse på, vil de større karakterer ofte strække sig over mere end én 25 optagelse, og det er derfor nødvendigt at sammensætte udvalgte optagelser. Skriftstørrelserne af karaktererne på en dokumentside kan tilvejebringes til kighuls-skanneren som et input, fx ved at blive tastet ind af en operatør eller lignende.
30 I en udførelsesform processeres den sammensatte optagelse for at udføre genkendelse af en karakter, som strækker sig over en flerhed af udvalgte optagelser. En fordel ved denne udførelsesform er, at efter sammensætning af optagelser kan karaktergenkendelse af en karakter, som strækker sig over DK 176834 B1 12 en flerhed af udvalgte optagelser, udføres, eftersom den sammensatte optagelse vil tilvejebringe et billede eller en optagelse af den komplette karakter.
I en udførelsesform udføres et trin til sammensætning af udvalgte optagelser 5 til en sammensat optagelse, når processering af den i det mindste ene optagelse for at genkende en karakter ikke resulterede i genkendelse af en karakter, En fordel ved denne udførelsesform er, at når det ikke er muligt at genkende en karakter ud fra processeringen af den i det mindste ene optagelse, udføres sammensætning og processering af den sammensatte optagelse. På 10 denne måde kan karakterer bestemmes, selvom de strækker sig over mere end én optagelse.
I en udførelsesform omfatter den foruddefinerede betingelse, hvorvidt sammensatte optagelser resulterer i genkendelse af en karakter, når et foruddefi-15 neret antal optagelser er blevet sammensat. En fordel ved denne udførelsesform er, at der tages varsel, og at processen muligvis ikke fortsætter, hvis den sammensatte optagelse ikke ligner karakterer. Den sammensatte optagelse er da sandsynligvis en del af et billede. Det foruddefinerede antal af sammensatte optagelser kan sikre, at et komplet billede ikke vil blive proces-20 seret utilsigtet på grund af, at skanneren leder efter karakterer. Ved denne fremgangsmåde sikres det, at ophavsrettigheder ikke overtrædes ved at vælge et passende foruddefineret maksimalt antal sammensatte optagelser.
En yderligere fordel ved denne udførelsesform er at sikre, at der tages varsel, før en øvre grænse eller tærskel for antal af optagelser er nået. Hvis for 25 mange optagelser er evalueret, før skanningen stoppes, overtrædes ophavsrettigheder måske, men denne udførelsesform sikrer, at dette ikke vil ske.
I en udførelsesform omfatter den foruddefinerede betingelse at den samme farve forekommer i nabo-optagelser. En fordel ved denne udførelsesform er, 30 at hvis nabo-optagelser, det vil sige optagelser, som er ved siden af hinanden, indeholder den samme farve, så er det sandsynligt, at disse optagelser er af karakterer og ikke af billeder. Hvis nabo-optagelser til gengæld ikke indeholder den samme farve, så er det sandsynligt, at de er optagelser af et DK 176834 B1 13 billede, et foto, en tegning eller lignende. For at undgå at skanne et billede vil skanningen af denne del af dokumentet blive slettet.
I en udførelsesform slettes den sammensatte optagelse, når en foruddefine-5 ret betingelse er opfyldt. En fordel ved denne udførelsesform er, at sammensætning af optagelser kan slettes, når en betingelse er opfyldt, såsom at et output fremstilles, og al den ønskede information fra et dokument er opnået. På denne måde vil man undgå at fremstille kopier af et dokument og undgå overtrædelse af ophavsrettigheder.
10 I en udførelsesform er feltet konfigureret til at have en dimension på elleve ord anbragt ved siden af hinanden i en fortløbende tekst, det vil sige en ubrudt tekst. Alternativt er feltet konfigureret til at have en dimension på 5 ord ved siden af hinanden i en fortløbende tekst, 15 ord ved siden af hinanden i 15 en fortløbende tekst, 20 ord ved siden af hinanden i en fortløbende tekst, 25 ord ved siden af hinanden i en fortløbende tekst eller lignende. Hvis feltet omfatter elleve ord anbragt ved siden af hinanden i en fortløbende tekst, dækker feltet måske en bredde af en side i en bog eller bredden af et dokument med en størrelse som et A4 dokument, mens højden af feltet kan være 20 størrelsen af en skrifttype. Hvis der skannes en side med flere søjler, såsom en avisside, kan hver søjle-linje indeholde mindre end elleve ord ved siden af hinanden i en fortløbende tekst, og bredden af siden med flere søjler kan dermed også indeholde mindre end elleve ord ved siden af hinanden i en fortløbende tekst. Bredden af siden med flere søjler kan indeholde mere end elle-25 ve ord, men disse elleve ord er muligvis ikke ved siden af hinanden i en fortløbende tekst. I en udførelsesform er feltet derfor konfigureret til at have en dimension svarende til bredden af dokumentet og højden af skrifttypen af karaktererne.
30 I en udførelsesform er feltet konfigureret til at have en dimension mindre end fem gange størrelsen af den mindste karakter, som der udføres karaktergen-kendelse på.
DK 176834 B1 14
Alternativt er feltet konfigureret til at have en dimension, som er defineret så som: - at have en dimension på 10 mm, 20 mm, 30 mm eller lignende; 5 - svarende til et foruddefineret antal, fx 100 eller 200, af felter per dokument side; - i forhold til størrelsen af den største karakter skrifttype; - i forhold til størrelsen af den mindste karakter skrifttype; - i forhold til størrelsen af dokumentsiden.
10
Fordelen ved disse udførelsesformer er, at det sikres at ikke for mange karakterer skannes i en optagelse, eftersom dette kunne resultere i at for meget tekst skannes og dermed at ophavsrettigheder utilsigtet kunne blive overtrådt. Ved at sikre at feltet har en dimension fx mindre end fem gange stør-15 reisen af skifttypen af den mindste karakter, er det ikke muligt at skanne for mange karakterer utilsigtet på en gang.
Det er også muligt, at dimensionen af feltet kunne være mindre end 4 gange størrelsen af skrifttypen af den mindste karakter, eller mindre end 6 gange størrelsen af skrifttypen af den mindste karakter.
20 I en udførelsesform erhverves mindst to optagelser samtidigt.
En fordel ved denne udførelsesform er at ved at erhverve flere optagelser på samme tid vertikalt, kan skanningsprocessen blive betydeligt hurtigere. På samme tid vil risikoen for at optage for meget tekst, hvilket kan være en over-25 trædelse af ophavsrettigheder, ikke eksistere, eftersom ved erhvervelse af flere optagelser vertikalt, vil ord og sætninger skrevet horisontalt på en dokumentside ikke blive optaget på samme tid.
Hver optagelse slettes efterhånden, når optagelsen er blevet processeret for at udføre optisk karaktergenkendelse, og ethvert nøgleord, som forekommer, 30 er genkendt, eller en anden betingelse er opfyldt, og derfor fremstilles ingen kopier af dokumentet.
DK 176834 B1 15
Endvidere kan læsning på nogle sprog og i nogle lande foregå fra højre til venstre på en side i stedet for fra venstre til højre, og/eller vertikalt i stedet for horisontalt, og/eller fra bunden af en side til toppen af siden i stedet for fra toppen af en side til bunden af siden osv. Dermed kan skanning også udfø-5 res fra højre til venstre på en side i stedet for fra venstre til højre, og/eller vertikalt i stedet for horisontalt, og/eller fra bunden af en side til toppen af siden i stedet for fra toppen af en side til bunden af siden osv.
j
Den foreliggende opfindelse angår forskellige aspekter indbefattende frem-10 gangsmåden beskrevet ovenfor og i det følgende, og tilsvarende fremgangsmåder, anordninger, anvendelser og/eller produktmidler, som hver giver en eller flere af goderne og fordelene beskrevet i forbindelse med det første nævnte aspekt, og som hver har en eller flere udførselsformer svarende til udførelsesformeme beskrevet i forbindelse med det første nævnte 15 aspekt og/eller beskrevet i de vedføjede krav.
Især er der heri beskrevet et computer-læsbart medium indkodet med et program, der implementerer fremgangsmåden ifølge en hvilket som helst af de ovenstående udførselsformer, når det køres på en computer.
20
Et yderligere aspekt er et system omfattende en skanningsanordning og en computer loaded med et program, der implementerer fremgangsmåden ifølge en hvilken som helst af de ovenstående udførselsformer, når programmet køres på computeren.
25
Kort beskrivelse af tegningen
En detaljeret beskrivelse af udførelsesformer vil blive givet nedenfor med 30 henvisning til tegningen, hvor:
Fig. 1 viser et diagram over skannings-fremgangsmåden;
Fig. 2 viser den overordnede proces for kighulsskanneren;
Fig. 3 viser et eksempel på en kighulsskanningsproces; DK 176834 B1 16
Fig. 4 viser sektioner af en avisside overlejret med læsehoved bevægelser.
Detaljeret beskrivelse 5
Den digitale skanner ifølge denne opfindelse skanner dokumenter uden at skabe en digital kopi af dokumentet. Til et hvilket som helst givet tidspunkt i skanneoperationen kan den såkaldte kighulsskanner indeholde kun få ord eller dele af ord i sin hukommelse, før ordene eller delene af ordene slettes 10 eller overskrives, hvis ordene ikke svarer til ordene i en foruddefineret ordliste. Ved denne skanne- og søgefremgangsmåde skulle brugeren ikke krænke den respektive forfatters ophavsrettigheder.
Fig. 1 viser et diagram over skannings-fremgangsmåden.
15 Skanningen kan udføres ved at forskyde positionen af optagelse 101, fx ved at skanneren bevæger sig henover overfladen af dokumentet, fx en avis, på en sekventiel måde, og for hvert trin erhverver skanneren en optagelse, fx en afbildning, i et felt af dokumentet 102. Feltet er fortrinsvist lille, og størrelsen af feltet kan defineres på forskellige måder; 20 - feltet kan konfigureres, således at det har en dimension, der er mindre end fem gange størrelsen af skrifttypen af den mindste karakter, der udføres karaktergenkendelse på; - feltet kan konfigureres, således at det har en dimension på 10 mm; 25 - feltet kan konfigureres, således at det har en dimension svarende til et foruddefineret antal optagelser eller afbildningsfelter per dokumentside; - feltet kan konfigureres således at det har en dimension i forhold til den største karakter skrifttype størrelse; - feltet kan konfigureres således at det har en dimension i forhold til den 30 mindste karakter skrifttype størrelse; - feltet kan konfigureres således at det har en dimension i forhold til dokumentsidestørrelsen.
DK 176834 B1 17
Som nævnt ovenfor kan kighulsskanningen udføres ved at flytte afbildningsfeltet til en forskudt position og erhverve en optagelse med et kamera.
Alternativt kan kighulsskanningen også udføres ved at have flere kameraer monteret over dokumentsiden og erhverve optagelser ved at bruge kamera-5 eme på skift. Fx 100 kameraer kan monteres over dokumentet i en firkant, og det første kamera i det øvre højre hjørne kan erhverve den første optagelse, det andet kamera ved siden af det første kan erhverve den anden optagelse osv., indtil hele dokumentet er skannet.
Kighulsskanningen kan også udføres ved fx videooptagelse af en skærm, der 10 fremviser det elektroniske dokument, såsom en elektronisk bog eller e-bog. Dokumentet på skærmen kan optages ved enten at rulle dokumentet op eller ned på skærmen foran en fikseret kighulsskanner, fx et videokamera, eller ved at flytte en kighulsskanner henover skærmen. I alle tilfælde kan skanningen udføres såsom horisontalt eller vertikalt.
15 Endvidere kan video-screening udføres ved at bruge et monitor-output fra en computer, såsom et Video Graphics Array (VGA) monitor-signal eller lignende. Monitor-signalet overfører serialiseret det elektroniske dokument, der skal fremvises på monitoren. Kighulsskanneren kan fra det serialiserede monitorsignal uddrage et kighuls-vindue, fx 40 pixels i hver af 40 fortløbende skanli-20 nier, hvorved et billede svarende til kighuls-vinduet kan udtages fra monitorsignalet. Kighuls-vinduet kan da flyttes ned eller op eller til venstre eller til højre eller diagonalt osv., og et nyt kighuls-vindue kan skannes ved hjælp af kighulsskanneren. Ved hvert skan tages et billede svarende til kighuls-vinduet. Optaget data kan da konverteres i en computer ved hjælp af karak-25 tergenkendelse og processeres som beskrevet ovenfor.
Efter hvert trin i skanningsprocessen vil kighulsskanneren indeholde en lille optagelse, fx en afbildning, af et segment af overfladen af dokumentet 103. Optagelsen kan enten være i gråskala, sort/hvid, det vil sige binær, eller i 30 farve.
Hver optagelses- eller afbildningssegment analyseres ved hjælp af Optisk Karakter Genkendelse (OCR) for at bestemme, om det indeholder en karak DK 176834 B1 18 ter, del af en karakter, en del af et billede, et blank felt eller kombinationer heraf 104.
Hvis optagelsessegmentet indeholder en karakter, registreres og overføres 5 den til en såkaldt Ord-opbygningsenhed 105, se nedenfor.
Hvis optagelsessegmentet indeholder en del af en karakter, og karakteren derved ikke genkendes, foretages en næste optagelse 106, og OCR afventes for at bestemme, om optagelsessegmenterne kan pusles sammen til at danne en karakter, som kan overføres til Ord-opbygningsenheden.
10
Hvis optagelsessegmentet indeholder et billede eller en del af et billede, kan billededelen slettes for at undgå at en kopi af et ophavsret-beskyttet billede fotografi osv., fremstilles. Resten af optagelsessegmentet vil bruges til at bestemme, om det kan pusles sammen med det/de efterfølgende optagelses-15 segment/er for at danne en karakter.
I en kontinuerlig proces vil Ord-opbygningsenheden samle de skannede karakterer og forsøge at danne meningsfyldte ord. Disse potentielle ord vil blive testet imod en foruddefineret betingelse 107, fx en liste af nøgleord til gen-20 kendelse. Hvis et ord genkendes, fremstilles og optages et hit, og det besluttes 108, om et output skal fremstilles 109, og efterfølgende kan flere optagelser udføres.
Hvis karakterstrengen ikke matcher en foruddefineret betingelse, slettes mindst en del af karakterstrengen og mindst en del af den i den mindste ene 25 optagelse fra hukommelsen 110.
Når der testes om en karakterstreng opfylder et nøgleord, undersøges den komplette karakterstreng, også når karakterstrengen danner et ord, som spreder sig ud over fx to linjer ved hjælp af en bindestreg. Kighulsskanneren 30 vil dermed fortsætte skanning af den næste linje, hvis en bindestreg optræder som det sidste karaktersymbol på en foreliggende linje.
DK 176834 B1 19
Kighulsskanneren kan fungere som en konventionel skanner. En konventionel skanner fungerer ved at fastsætte et afbildningsfelt, tage en afbildning og lagre afbildningen i en hukommelse.
Endvidere kan konventionelle skannere udføre opgaverne med hensyn til 5 OCR og søgemaskine (SE)-processering (nøgleords-matchning). Når den j
konventionelle skanner udfører disse trin, lagres den erhvervede information, J
hvorved en kopi af det skannende dokument fremstilles. '
En skanner kan være en fiatbed-skanner, en rulleskanner, en feeder-skanner, eller lignende.
10
Kighulsskanneren kan udføre disse samme tre opgaver: skanningen, karaktergenkendelsen og nøgleords-matchningen. Men kighulsskanneren udfører opgaverne i én kontinuerlig operation og uden at skabe nogen kopier af dokumenterne. En konventionel skanner erhverver typisk en afbildning af et helt 15 dokument på en gang, hvorimod kighulsskanneren kun erhverver en afbildning af et afgrænset område af dokumentet ad gangen.
Fig. 2 viser den overordnede proces for kighulsskanneren, hvorimod fig. 1 viser en detaljeret proces af den. Kighulsskanneren "læser" dokumentet 301, 20 udfører optisk karaktergenkendelse (OCR) 302 og søger efter ord-match 303, som er som på fig. 1. Det resulterende output er en form for indikation af hvilke nøgleord, det skannede dokument indeholder. Denne indikation kan bruges til forskellige formål, såsom til at producere ud klipningslister, til at producere nøgleordslister, til at gøre resume-skrivning mulig osv. 304.
25
Kighulsskanneren kan kombinere hardware, firmware og software komponenter.
Fig. 3 viser et eksempel på en kighulsskannings proces, som i overordnede 30 termer fungerer som i fig. 1.1 fig. 3a) er en dokumentside 401 placeret under skanneren 402. Skannerens læsehoved 403 er anbragt på et eller flere spor 405, som kan bevæge sig på en eller flere glidere 406 for at bevæge sig over hele overfladen af dokumentet. Læsehovedet 403 er forbundet til en læseho- DK 176834 B1 20 ved-bevægelses-kontrolenhed 408 og en skan-sequenser (SS) 407, se fig.
3b), ved hjælp af et fladkabel, en USB forbindelse, infra-rød kommunikation eller lignende.
I et eksempel er læsehovedet et CCD-array med 100x100 pixels med en 8 bit 5 gråskala opløsning. Kighullet indeholder derfor 10000 pixels i et fysisk vinduesfelt svarende til 1 cm x 1 cm, hvilket er lig med 1 promille af en tabloid sidestørrelse.
Selvom et eksempel på et læsehoved er nævnt her, er det klart at læsehove-10 det kan have hvilke som helst specifikationer.
I fig. 3b) styrer skan-sequenseren (SS) 407 læsehoved-bevægelsen 408.
Generelt er bevægelserne af læsehovedet fra venstre til højre med en returnerings-cyklus. Denne sekvens kan ændres, hvis udfaldet af den optiske ka-15 raktergenkendelse (OCR) 409 og puslespils OCR’en 410 (se nedenfor) regulerer trinnet med en anmodning om at bevæge læsehovedet på en anden måde, såsom horisontalt til venstre, vertikalt nedad eller diagonalt opad.
Læsehoved-bevægelsen 408 kan styres af et TWAIN interface, som er en 20 standard for anordninger til erhvervelse af afbildninger. Et TWAIN interface kan styre positionen af et skanner-læsehoved, det vil sige x, y koordinaterne af læsehovedet, og forøgelsen i koordinater, det vil sige Δχ, Ay osv.
OCR’en 409 udfører en række opgaver. Den kan afsøge det indre område af 25 kighulsfeltet for at lokalisere en eller flere komplette karakterer, derefter kan den afsøge kanten for at lokalisere former, som kunne udgøre en del af en karakter. Den ser efter stykker af vertikale og horisontale kantlinjer. Den kan se efter linjemellemrum og evaluerer justering. Den kan se efter bindestregstegn og søjle-adskillelses-mellemrum. Den kan se efter mono-gråtone for-30 mer, som kunne være en del af en større karakter. Den kan se efter områder med varierende gråtone, som kunne være en del af et billede. Genkendte karakterer, for eksempel med deres skrifttype størrelser og position i dokumentet, overføres til Ord-opbygnlngsenheden 411.
i DK 176834 B1 21
Selvom eksempler på OCR opgaver er nævnt her, er det klart, at OCR skan- net kan udføres på en hvilken som helst velegnet måde.
5 Puslespils-OCR’en 410 kombinerer nærliggende kighulsafbildninger eller optagelser for at danne vinduer, fx 2, 4, 9 eller 16 kighulsafbildninger, som derefter udsættes for OCR i en iterativ proces. Puslespils-OCR'en 410 interage-rer med skan-sequenseren 407 og anmoder om hvilket nærliggende kighul . den behøver for at fremstille en komplet afbildning af en karakter. Hvert skan 10 kombineret med de op til otte nærliggende skan analyseres med henblik på genkendelse af karakterer eller dele af karakterer, linjier og billeder,
Ord-opbygningsenheden 411 modtager fra OCR’en 409 og puslespils-OCR’en 410 karakterer én-for-én fx indeholdende deres skrifttype størrelser 15 og positioner. Karakterstrengen indbefatter ækvivalente mellemrums-/blanktegns-karakterer og linjeindføring. Ord-opbygningsenheden 411 samler karaktererne sammen til ord og kan sammenligne dem med en nøgleordsliste. Ord eller karakterer, som genkendes som værende i nøgleordslisten, kan blive et blankt felt/slettes eller erstattes af en speciel karakter. Områder med 20 billeder, fotos og lignende kan erstattes med en foruddefineret gråtone eller en pictel. Puslespils-OCR skanningen kombineret med mellemrumskarakterer og en vertikal linje-detektion kan evaluere sandsynligheden for en søjle-separering i et givet område af siden.
Endeligt efter afsluttet skanning af en side, kan HIT opsamleren 412 have 25 samlet en liste sammen over alle tilhørende nøgleord og fx titellinjer, og det resulterende output kan være en liste af hits og deres position i dokumentet, det kan være en præsentation af blank-felt siden med nøgleordene vist (som kortlægger processen med at tilvejebringe de blanke felter), eller det kan være et hvilket som helst andet velegnet output format.
Fig. 4a) viser en sektion af en fiktiv forside af en avis overlejret med læsehoved-bevægelserne, hvor skanningen i overordnede termer fungerer som på fig. 1. Startpunktet er i det øvre, venstre hjørne af dokumentsiden. De første 30 DK 176834 B1 22 tre kighulsskan (PH-scan) 501, 502, 503 vil blive markeret som havende intet indhold og slettet eller overskrevet med blanktegn (tilnærmelsesvist samme farve). Det fjerde PH-scan, PH4, 504 indeholder information, men ingen ka- i rakterer genkendes af OCR’en. Et femte PH-scan, PH5, 505 anmodes derfor ' 5 og kombineres med PH4. OCR'en ser på det kombinerede skan PH4 + PH5 og detekterer karaktererne Thurs” og noget mere. Scan-sequenseren anmoder om et sjette og et syvende scan, PH6, 506, og PH7, 507. Scan PH4+PH5+PH6+PH7 kombineres og præsenteres for puslespils-OCR’en.
OCR’en returnerer ordet "Thursday" og karaktererne "30t” og noget mere.
10 Scan-sequenseren fortsætter ved at anmode om det næste scan. Ordet "Thursday” og fx dets skrifttype størrelse kan overføres til Ord-genkenderen.
Pga. skrifttype størrelsen kan ordet blive kategoriseret som tilhørende en overskrift eller en titelsætning. Med de næste scan vil ordet ’’Newspaper” blive genkendt osv.
15
Fig. 4b) viser skanning af brødtekst, som følger en lignende søge-strategi, som vist på fig. 1, og som trin-for-trin afdækker karakter-for-karakter og samler ord-for-ord sammen. Hver samlede ord kan da sammenlignes med en nøgleordsliste. Hvis et ord ikke findes på nøgleordslisten, så kan området, 20 der er okkuperet af ordet, overskrives med blanktegn og slettes fra hukommelsen.
Eksemplet i fig. 4b) viser en vertikal skansekvens. Søgeprocessen afdækker de følgende ord "Infopaq”, fornavnet "Jacob” (negligerende fortsættelsestegnet) og endeligt efternavnet "Meibom” i det viste tekststykke.
25 Hvilke som helst billeder i et dokument kan tilvejebringes med blanke felter.
Claims (28)
1. Computer-implementeret fremgangsmåde til skanning af et dokument, omfattende trinnene: 5. erhvervelse, til en hukommelse, af mindst én optagelse begrænset til et felt, der dækker et afgrænset område af et dokument; - processering af den i det mindste ene optagelse for at udføre karakter genkendelse; - når en karakter er genkendt, registrering af den i en hukommelse; og udfør-10 sel af de ovenstående trin gentagende gange, mens der optages på forskudte positioner for gradvist at opnå en karakterstreng; kendetegnet ved: - evaluering af strengen i forhold til en foruddefineret betingelse; - hvis betingelsen ikke er opfyldt, sletning fra hukommelsen af mindst en del 15 af strengen og mindst en del af den i det mindste ene optagelse; - hvis betingelsen er opfyldt, bestemmelse af hvorvidt der skal tilvejebringes et output.
2. Computer-implementeret fremgangsmåde ifølge krav 1, hvorved den 20 foruddefinerede betingelse omfatter, at karakterstrengen forekommer i et foruddefineret nøgleord.
3. Computer-implementeret fremgangsmåde ifølge krav 1 eller 2, hvorved den foruddefinerede betingelse omfatter, at mindre end et foruddefineret an- 25 tal af karakterer evalueres.
4. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-3, hvorved den foruddefinerede betingelse omfatter, at skrifttype-størrelsen af karakteren er mindre end en foruddefineret skrifttype-størrelse. 30
5. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-4, hvorved bestemmelse af, hvorvidt et output skal tilvejebringes, er baseret på, hvorvidt karakterstregen matcher et foruddefineret nøgleord. DK 176834 B1 24
6. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-5, hvorved outputtet er en reference til en placering i dokumentet omfattende den i det mindste ene optagelse, som indeholder indhold, der 5 bidrager til strengen, som blev evalueret positivt i forhold til betingelsen.
7. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-6, hvorved et nøgleord, der er matchet med strengen, anbringes i en dokument-skabelon på en position, der repræsenterer positionen af det 10 tilsvarende ord i dokumentet, der er underlagt skanningen.
8. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-7, hvorved information om positionen i dokumentet og/eller længden af de fundne nøgleord genereres og lagres. 15
9. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-8, hvorved outputtet omfatter koder, der repræsenterer karakter-strengen, som opfylder den foruddefinerede betingelse.
10. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-9, hvorved outputtet omfatter en reference til et nøgleord iblandt foruddefinerede nøgleord i en foruddefineret nøgleordsliste.
11. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af 25 kravene 1-10, hvorved outputtet omfatter et nøgleord iblandt foruddefinerede nøgleord.
12. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-11, hvorved outputtet omfatter et nøgleord iblandt foruddefinerede 30 nøgleord og en reference til en position, der repræsenterer positionen af det tilsvarende ord i dokumentet, der er underlagt skanning. DK 176834 B1 25
13. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-12, hvorved karakterstrengen slettes, når et output er tilvejebragt.
14. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af 5 kravene 1-13, hvorved fremgangsmåden omfatter sammensætning af udvalgte optagelser til en sammensat optagelse.
15. Computer-implementeret fremgangsmåde ifølge krav 14, hvorved den sammensatte optagelse processeres for at udføre genkendelse af en karak- 10 ter, som strækker sig over en flerhed af udvalgte optagelser.
16. Computer-implementeret fremgangsmåde ifølge krav 14, hvorved et trin til sammensætning af udvalgte optagelser til en sammensat optagelse udføres, når processering af den i det mindste ene optagelse for at genkende en 15 karakter ikke resulterede i genkendelse af en karakter.
17. Computer-implementeret fremgangsmåde ifølge krav 14, hvorved den foruddefinerede betingelse omfatter, hvorvidt sammensatte optagelser resulterer i genkendelse af en karakter, når et foruddefineret antal optagelser er 20 blevet sammensat.
18. Computer-implementeret fremgangsmåde ifølge krav 14, hvorved den foruddefinerede betingelse omfatter, at karakterstrengen forekommer i et af foruddefinerede nøgleord. 25
19. Computer-implementeret fremgangsmåde ifølge krav 14, hvorved den foruddefinerede betingelse omfatter at færre end et foruddefineret antal karakterer evalueres.
20. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 14-19, hvorved den foruddefinerede betingelse omfatter, at skrifttypestørrelsen af karakteren er mindre end en foruddefineret skrifttypestørrelse. DK 176834 B1 26
21. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 14-20, hvorved den foruddefinerede betingelse omfatter, at den samme farve forekommer i nabo-optagelser. 5
22. Computer-implementeret fremgangsmåde ifølge krav 17, hvorved den sammensatte optagelse slettes, når en foruddefineret betingelse er opfyldt.
23. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af 10 kravene 1-22, hvorved feltet er konfigureret til at have en dimension på elleve ord anbragt ved siden af hinanden i en fortløbende tekst.
24. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-23, hvorved feltet er konfigureret til at have en dimension svaren- 15 de til bredden af dokumentet og højden af skrifttypestørrelsen af karaktererne.
25. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-22, hvorved feltet er konfigureret til at have en dimension på min- 20 dre end fem gange størrelsen af den mindste karakter, som er underlagt karaktergenkendelse.
26. Computer-implementeret fremgangsmåde ifølge et hvilket som helst af kravene 1-25, hvorved mindst to optagelser erhverves samtidigt. 25
27. Computer-læsbart medium indkodet med et program, der implementerer fremgangsmåden ifølge et hvilket som helst af kravene 1-26, når det køres på en computer.
28. System omfattende en skanningsanordning og en computer loadet med et program, der implementerer fremgangsmåden ifølge en hvilken som helst af kravene 1-26, når programmet køres på computeren.
Priority Applications (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DK200800356A DK176834B1 (da) | 2008-03-07 | 2008-03-07 | Fremgangsmåde til skanning |
CN200980108147XA CN101981569A (zh) | 2008-03-07 | 2009-03-05 | 扫描方法 |
JP2010549149A JP2011513850A (ja) | 2008-03-07 | 2009-03-05 | スキャンの方法 |
EA201071042A EA201071042A1 (ru) | 2008-03-07 | 2009-03-05 | Способ сканирования |
MX2010009615A MX2010009615A (es) | 2008-03-07 | 2009-03-05 | Metodo de exploracion. |
CA2717378A CA2717378A1 (en) | 2008-03-07 | 2009-03-05 | Method of scanning |
BRPI0910255A BRPI0910255A2 (pt) | 2008-03-07 | 2009-03-05 | método de escaneamento |
PCT/EP2009/052616 WO2009109627A1 (en) | 2008-03-07 | 2009-03-05 | Method of scanning |
US12/667,930 US8605297B2 (en) | 2008-03-07 | 2009-03-05 | Method of scanning to a field that covers a delimited area of a document repeatedly |
EP09716359A EP2260412A1 (en) | 2008-03-07 | 2009-03-05 | Method of scanning |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DK200800356A DK176834B1 (da) | 2008-03-07 | 2008-03-07 | Fremgangsmåde til skanning |
DK200800356 | 2008-03-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
DK200800356A DK200800356A (da) | 2009-09-08 |
DK176834B1 true DK176834B1 (da) | 2009-11-23 |
Family
ID=40138036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DK200800356A DK176834B1 (da) | 2008-03-07 | 2008-03-07 | Fremgangsmåde til skanning |
Country Status (10)
Country | Link |
---|---|
US (1) | US8605297B2 (da) |
EP (1) | EP2260412A1 (da) |
JP (1) | JP2011513850A (da) |
CN (1) | CN101981569A (da) |
BR (1) | BRPI0910255A2 (da) |
CA (1) | CA2717378A1 (da) |
DK (1) | DK176834B1 (da) |
EA (1) | EA201071042A1 (da) |
MX (1) | MX2010009615A (da) |
WO (1) | WO2009109627A1 (da) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8798404B2 (en) * | 2010-05-26 | 2014-08-05 | Hin Leong Tan | Making available to a user machine editable text extracted from an image |
CN102385584A (zh) * | 2010-08-31 | 2012-03-21 | 北大方正集团有限公司 | 剪报方法、装置及系统 |
DE102012025351B4 (de) * | 2012-12-21 | 2020-12-24 | Docuware Gmbh | Verarbeitung eines elektronischen Dokuments |
DE102014207874A1 (de) * | 2014-04-25 | 2015-10-29 | Siemens Aktiengesellschaft | Verfahren zur automatisierten Erstellung eines eine technische Zeichnung charakterisierenden Datensatzes |
US10235583B2 (en) * | 2015-02-27 | 2019-03-19 | Captricity, Inc. | Electronically shredding a document |
US11379753B1 (en) * | 2017-04-24 | 2022-07-05 | Cadence Design Systems, Inc. | Systems and methods for command interpretation in an electronic design automation environment |
JP7292988B2 (ja) * | 2019-06-17 | 2023-06-19 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0465818A2 (en) * | 1990-06-12 | 1992-01-15 | Horst Froesel | Mass document storage and retrieval system |
WO2002017166A2 (en) * | 2000-08-24 | 2002-02-28 | Olive Software Inc. | System and method for automatic preparation and searching of scanned documents |
WO2008064378A1 (en) * | 2006-11-21 | 2008-05-29 | Cameron Telfer Howie | A method of retrieving information from a digital image |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62106574A (ja) * | 1985-11-05 | 1987-05-18 | Hitachi Ltd | 文書画像フアイル登録検索方式 |
JPH11306197A (ja) * | 1998-04-24 | 1999-11-05 | Canon Inc | 画像処理装置及びその方法、コンピュータ可読メモリ |
JP2000059588A (ja) * | 1998-08-12 | 2000-02-25 | Minolta Co Ltd | 画像処理装置 |
GB2359953B (en) * | 2000-03-03 | 2004-02-11 | Hewlett Packard Co | Improvements relating to image capture systems |
US20050076013A1 (en) * | 2003-10-01 | 2005-04-07 | Fuji Xerox Co., Ltd. | Context-based contact information retrieval systems and methods |
JP2007122392A (ja) | 2005-10-27 | 2007-05-17 | Canon Inc | 画像処理装置及び方法、並びにプログラム及び記憶媒体 |
JP4747828B2 (ja) * | 2005-12-21 | 2011-08-17 | 富士ゼロックス株式会社 | 履歴管理装置 |
US20080021938A1 (en) * | 2006-06-29 | 2008-01-24 | Ashish Jha | Technique for allocating objects in a managed run time environment |
US8209605B2 (en) * | 2006-12-13 | 2012-06-26 | Pado Metaware Ab | Method and system for facilitating the examination of documents |
DK176835B1 (da) * | 2008-03-07 | 2009-11-23 | Jala Aps | Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden |
-
2008
- 2008-03-07 DK DK200800356A patent/DK176834B1/da not_active IP Right Cessation
-
2009
- 2009-03-05 EP EP09716359A patent/EP2260412A1/en not_active Withdrawn
- 2009-03-05 CA CA2717378A patent/CA2717378A1/en not_active Abandoned
- 2009-03-05 US US12/667,930 patent/US8605297B2/en not_active Expired - Fee Related
- 2009-03-05 CN CN200980108147XA patent/CN101981569A/zh active Pending
- 2009-03-05 EA EA201071042A patent/EA201071042A1/ru unknown
- 2009-03-05 WO PCT/EP2009/052616 patent/WO2009109627A1/en active Application Filing
- 2009-03-05 BR BRPI0910255A patent/BRPI0910255A2/pt not_active IP Right Cessation
- 2009-03-05 JP JP2010549149A patent/JP2011513850A/ja active Pending
- 2009-03-05 MX MX2010009615A patent/MX2010009615A/es active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0465818A2 (en) * | 1990-06-12 | 1992-01-15 | Horst Froesel | Mass document storage and retrieval system |
WO2002017166A2 (en) * | 2000-08-24 | 2002-02-28 | Olive Software Inc. | System and method for automatic preparation and searching of scanned documents |
WO2008064378A1 (en) * | 2006-11-21 | 2008-05-29 | Cameron Telfer Howie | A method of retrieving information from a digital image |
Also Published As
Publication number | Publication date |
---|---|
EA201071042A1 (ru) | 2011-04-29 |
MX2010009615A (es) | 2011-02-24 |
JP2011513850A (ja) | 2011-04-28 |
BRPI0910255A2 (pt) | 2015-09-29 |
EP2260412A1 (en) | 2010-12-15 |
DK200800356A (da) | 2009-09-08 |
CN101981569A (zh) | 2011-02-23 |
CA2717378A1 (en) | 2009-09-11 |
US20100315688A1 (en) | 2010-12-16 |
WO2009109627A1 (en) | 2009-09-11 |
US8605297B2 (en) | 2013-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DK176835B1 (da) | Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden | |
JP4350414B2 (ja) | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム | |
JP4181892B2 (ja) | 画像処理方法 | |
DK176834B1 (da) | Fremgangsmåde til skanning | |
US9514103B2 (en) | Effective system and method for visual document comparison using localized two-dimensional visual fingerprints | |
JP4405831B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
US20030152277A1 (en) | Method and system for interactive ground-truthing of document images | |
US7640269B2 (en) | Image processing system and image processing method | |
JP2008022159A (ja) | 文書処理装置及び文書処理方法 | |
CN100397864C (zh) | 图像处理系统及图像处理方法 | |
JP4261988B2 (ja) | 画像処理装置及び方法 | |
CN100349454C (zh) | 图像形成装置、图像形成方法及其程序以及存储介质 | |
US6996293B1 (en) | Reduced image forming method and apparatus | |
US10560606B2 (en) | Image processing device, image processing method, and non-transitory computer readable medium | |
JP3171626B2 (ja) | 文字認識の処理領域・処理条件指定方法 | |
CN101478625A (zh) | 信息处理装置、信息处理系统以及信息处理方法 | |
JP2006134079A (ja) | 画像処理装置及びプログラム | |
JP4501731B2 (ja) | 画像処理装置 | |
JP2006333248A (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
JPH0757040A (ja) | Ocr付きファイリング装置 | |
JP2008152502A (ja) | 文書画像検索装置及びプログラム | |
KR100620381B1 (ko) | 화상형성장치 | |
JP2008107901A (ja) | 画像処理装置及びその制御方法、プログラム | |
JP2007048057A (ja) | 画像処理装置 | |
JP2005208978A (ja) | 文書ファイリング装置および文書ファイリング方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PBP | Patent lapsed |
Effective date: 20150331 |