[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

RU2251738C2 - Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты) - Google Patents

Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты) Download PDF

Info

Publication number
RU2251738C2
RU2251738C2 RU2003102203/09A RU2003102203A RU2251738C2 RU 2251738 C2 RU2251738 C2 RU 2251738C2 RU 2003102203/09 A RU2003102203/09 A RU 2003102203/09A RU 2003102203 A RU2003102203 A RU 2003102203A RU 2251738 C2 RU2251738 C2 RU 2251738C2
Authority
RU
Russia
Prior art keywords
image
objects
distortion
compensate
template
Prior art date
Application number
RU2003102203/09A
Other languages
English (en)
Other versions
RU2003102203A (ru
Inventor
К.А. Зуев (RU)
К.А. Зуев
И.З. Филимонова (RU)
И.З. Филимонова
Original Assignee
"Аби Софтвер Лтд."
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by "Аби Софтвер Лтд." filed Critical "Аби Софтвер Лтд."
Priority to RU2003102203/09A priority Critical patent/RU2251738C2/ru
Priority to US10/403,414 priority patent/US7251380B2/en
Publication of RU2003102203A publication Critical patent/RU2003102203A/ru
Application granted granted Critical
Publication of RU2251738C2 publication Critical patent/RU2251738C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

Изобретение относится к оптическому распознаванию символов. Его использование при распознавании текста, введённого в поля шаблона, обеспечивает технический результат в виде повышения возможности коррекции искажений в изображениях машиночитаемых форм. Этот результат достигается за счёт того, что назначают одну из форм шаблона или изображения в качестве изменяемой формы, а другую – неизменяемой; выделяют на форме изображения те области, которые содержат искажения; подразделяют все объекты на форме на несколько типов по надежности идентификации на изображении; назначают каждому объекту на форме изображения уровень надежности идентификации; для каждой области и для объектов каждого типа: устанавливают соответствие между тождественными объектами формы изображения и формы шаблона, вычисляют частные коэффициенты коррекции искажений пространственных параметров изменяемой формы, вычисляют единый обобщенный коэффициент коррекции пространственных параметров для изменяемой формы и корректируют пространственные параметры изменяемой формы с учетом этого единого коэффициента. 2 с. и 30 з.п.ф-лы, 5 ил.

Description

Изобретение относится к области оптического распознавания символов в полях форм ввода и, в частности, к способам подготовки изображения и/или шаблона к проведению операций распознавания текста из растрового изображения при наличии искажений изображения, вызванных обработкой внешними устройствами.
Известен способ распознавания текстовой информации, при котором растровое изображение разбивают на области, содержащие текст, и области, содержащие нетекстовые объекты.
Проводят предварительную обработку растрового изображения, позволяющую определить и скорректировать искажения, появившиеся в результате обработки внешними устройствами.
При этом в качестве ориентиров для оценки горизонтального и/или вертикального направления используют направление ориентации строк, предполагая их горизонтальными.
Известны способ и устройство для обнаружения углов наклона изображения, которые описываются в патенте США №5563403 (October 8, 1996). Вычисление угла наклона изображения осуществляется по набору точек-ориентиров, по координатам которых вычисляют регрессионный коэффициент. Регрессионный коэффициент используют для определения угла наклона изображения. В одном изображении выделяют несколько наборов точек для определения угла наклона. Это позволяет снизить вероятность ошибки.
Способ и устройство позволяют определять и исправлять незначительные углы наклона изображения и требуют для эффективной обработки больших блоков печатного текста.
Известны также способ и устройство для определения наклона изображения и искажения его размеров и формы - патенты №5818976 (October 6, 1998) и №6064778 (May 16, 2000). В предложенных реализациях способов и устройства искажения и наклон вначале определяют и частично компенсируют аппаратно, затем обрабатывают математически. Согласно предложенным способам, вычисляют ряд опорных точек, через которые проводят предположительно вертикальные или горизонтальные линии. По расстоянию между полученными горизонтальными линиями оценивают искажения формы и размеров, а по наклону вертикальных линий - угол наклона изображения.
Способы и устройства не приспособлены для обработки машиночитаемых форм, а также при больших искажениях размера и формы документа.
В патенте США №5828771 (October 27, 1998) предлагается способ определения по наличию специфических искажений является ли документ оригинальным или переданным с помощью факсимильного аппарата. Основными параметрами для оценки искажений являются специфические признаки изменения параметров разрешения до 100-200 точек на дюйм, характерных для факсимильных аппаратов.
Способ может применяться очень ограниченно и способен обрабатывать малые значения искажений.
Известен способ (патент США №6014470, January 11, 2000) определения и компенсации искажения изображения, вызванного искривлением поверхности страницы. Определение и исправление искажения полностью базируется на том, что искаженная строка символов принимает форму дуги окружности, и для компенсации такого искажения необходимо вычислить параметры окружности.
Способ имеет очень ограниченное применение, поскольку направлен на определение и исправление искажения только одного вида.
В патенте США №6470091 (October 22, 2002) предлагается способ поиска и распознавания адресной надписи на почтовом конверте. Основой способа является известное местоположение и известный формат адресной надписи, что позволяет распознавать ее элементы, слова и в конечном итоге - автоматизировать сортировку почтовой корреспонденции.
Способ позволяет обрабатывать документы единственного типа (адресная часть почтовых конвертов) и не предполагает обработку искажений, возникающих при сканировании изображения.
Известные способы не позволяют корректировать значительные искажения изображения (превышающие 10% исходного размера изображения).
Техническим результатом изобретения является повышение возможности коррекции искажений изображения машиночитаемых форм, возникающих при обработке его внешними устройствами, расширение возможности обработки линейных и нелинейных искажений.
Указанный технический результат достигается тем, что после сканирования изображение машиночитаемой формы разбивают на области, содержащие изображения полей ввода, специальных реперов линий и др. объектов. После этого все объекты, которые могут присутствовать на форме, подразделяют на ряд категорий по степени надежности идентификации. Затем обнаруженным на форме изображениям объектов присваивают коэффициенты надежности идентификации и проводят анализ соответствия положения и углов наклона объектов изображения координатам, заданным в форме шаблона, не имеющей искажений.
Согласно одному из вариантов способа вычисляют значения искажений относительно каждого объекта. Затем для каждой группы объектов одного уровня надежности идентификации вычисляют обобщенный поправочный коэффициент изменения (пространственных характеристик) размеров или координат. Этот коэффициент применяют для компенсации искажений всех объектов того же уровня надежности идентификации и ниже. После этого переходят к объектам следующего более низкого уровня надежности идентификации.
В соответствии с другим вариантом способа вычисляют значения искажений относительно каждого объекта. Затем все значения искажений вместе с типами (категорией) объектов как весовыми коэффициентами объединяют в один обобщенный показатель - поправочный коэффициент, который затем применяют к координатам и/или размерам каждого объекта для компенсации искажений.
Необходимые пояснения для предлагаемого способа следующие. Для уверенной компенсации искажений, в особенности нелинейных и значительных линейных, необходимо иметь в системе данные о шаблоне формы без искажений.
Шаблон формы
Информация о распознаваемой форме без искажений должна в том или ином виде присутствовать в системе. Описание формы задают с помощью шаблона. Шаблон содержит описание всех объектов формы. При этом для объекта задают:
- координаты объекта на бланке и его геометрическую форму,
- имя поля - с именем поля связывают тип заносимой в него информации, а также адрес передачи результатов распознавания,
- параметры распознавания - такие как тип текста (рукописный, печатный), допустимый интервал возможных значений набора символов, перечень словарей, применяемых для проверки содержимого поля,
- другую информацию для последующей обработки, верификации и сохранения результатов распознавания.
Координаты полей в шаблоне и на сканированном изображении могут не совпадать в виду наличия искажений, возникающих при печати бланков и при сканировании.
Виды искажений
При печати бланков форм на внешних устройствах (в типографии, на принтере) могут возникать следующие искажения изображения:
небольшие смещения по горизонтали и по вертикали,
небольшие растяжения/сжатия по горизонтали и по вертикали,
поворот на небольшой угол,
В процессе сканирования бумажных форм возникают более значительные искажения:
- смещения по горизонтали и по вертикали,
- поворот на большой угол,
- изменение разрешающей способности сканеров по горизонтали,
- изменение разрешающей способности по вертикали - определяется скоростью движения считывающего элемента, которая может быть непостоянной даже для одного сканера в зависимости от степени прогрева, уровня напряжения сети и других факторов,
- небольшие нелинейные растяжения/сжатия по вертикали - скорость сканирования может меняться в пределах одного изображения.
Все искажения за исключением нелинейных моделируются аффинным преобразованием.
Задача выделения полей на форме стандартного бланка, таким образом, сводится к подбору коэффициентов обратного аффинного преобразования.
Способ совмещения шаблона и изображения.
Для совмещения шаблона и изображения необходимо подобрать коэффициенты аффинного преобразования так, чтобы при применении этого преобразования к форме шаблона или к форме изображения указанные в шаблоне области полей совмещались бы с соответствующими областями на изображении заполненной формы.
Наиболее последовательный и хорошо зарекомендовавший себя при решении задач обработки сигналов способ основан на вычислении корреляционной функции:
(х, у, ...)=arg max RTI(x, у, ...),
где RTI (х, у, ...) - корреляционная функция между изображением (I) и шаблонным изображением (Т),
RTI(x, у, ...)=
Figure 00000002
T (х,у, ...)I(х-х, у-у, ...) dx dy d...
Прямое вычисление корреляционной функции для изображения требует значительного объема вычислений - n2m, где n – размер изображения в пикселях (1000-2000), m=5 – количество параметров (смещения по вертикали и по горизонтали, угол поворота, растяжение/сжатие по вертикали и по горизонтали).
Для уменьшения объема вычислений применяют данный способ отдельно к различным группам параметров. Это допустимо, так как рассматриваемый диапазон параметров достаточно узок, вследствие чего весьма маловероятно наличие ложного максимума на проекции корреляционной функции на выбранные параметры. Поэтому можно вычислять отдельно по видам искажений следующим образом:
- вычисление смещений,
- вычисление угла поворота,
- вычисление коэффициента горизонтального растяжения/сжатия,
- вычисление коэффициента вертикального растяжения/сжатия.
Вычисление смещения не удается разбить на независимое вычисление смещений по горизонтали и по вертикали, так как из-за близости к периодической строчной структуре изображения на проекциях корреляционной функции появляются ложные максимумы.
Дальнейшую оптимизацию основывают на выборе адекватного представления изображения.
Представление изображения
В большинстве систем сегментации изображения печатных документов принято переходить к представлению изображения в виде списка прямоугольников, соответствующих связным областям изображения, как правило, буквам и разделительным линиям. Это представление оказывается достаточной аппроксимацией для работы алгоритмов сегментации.
Основой данного изобретения является способ вычисления корреляционной функции для изображения, представленного списком связных областей.
Аналогичное представление необходимо и для формы шаблона.
Оптимизация вычисления корреляционной функции для представления изображения в виде списка прямоугольников
Изображение, представляемое списком прямоугольников, может быть интерпретировано как суперпозиция нескольких изображений, каждое из которых содержит один из прямоугольников:
I=ΣIk, где Ik - это изображение одного прямоугольника аналогично для шаблона;
Т=ΣTk, где Tk - это изображение одного прямоугольника.
При этом фактом, что прямоугольники могут пересекаться, пренебрегают.
Тогда корреляционная функция RTI разлагается следующим образом:
RTI=
Figure 00000003
T(x,y)I(x-х, у-у) dx dy=
Figure 00000004
ΣTi(x,y)ΣIk(x-х, у-у) dx dy=Σik
Figure 00000005
Ti(x,y)Ik(x-х, у-у) dx dy,
т.е. на сумму корреляционных функций отдельных прямоугольников. Однако изображение прямоугольника представляется как произведение функций Хевисайда:
Ik(x, у)=θ(х-x1k)θ(x2k-х)θ(у-y1k)θ(y2k-у),
где х1k, x2k, y1k, y2k - координаты прямоугольника;
Ik(x, у)=θ(х-x1k)θ(x2k-х)θ(у-y1k)θ(y2k-у)=
Figure 00000006
(δ(x-x1k)δ(y-y1k)-δ(x2k-x)δ(y-y1k)-δ(x2k-х)δ(у-y1k)+δ(x2k-x)δ(y2k-y)) dx dy,
где δ(x-xjk) - дельта-функция на границе прямоугольника.
Аналогично для Тi(х,у):
Ti(х, у)=θ(х-х1i)θ(х2i-х)θ(у-у1i)θ(у2i-у)=
Figure 00000007
(δ(x-x1i)δ(y-у1i)-δ(x2i-х)δ(у-у1i)-δ(х2i-х)δ(у-у1i)+δ(x2i-х)δ(у2i-y))dx dy.
Тогда корреляционная функция двух прямоугольников может быть вычислена следующим способом:
Figure 00000008
Ti(x,y)Ik(x-х, у-у) dx dy=
Figure 00000009
Figure 00000010
Fik(x, у) dx dy
Fik(x, y)=[δ(x-(x2i-x1k))-δ(x-(x2i-x2k))-δ(x-(x1i-x1k))+δ(x-(x1i-X2k))]
[δ(y-(y2i-y1k))-δ(y-(y2i-y2k))-δ(y-(y1i-y1k))+δ(y-(y1i-y2k)]
Корреляционная функция изображения и шаблона выражается через
Fik(x, y) следующим образом:
RTIik
Figure 00000011
Ti(x,y)Ik(x-х, у-у) dx dy=Σik
Figure 00000012
Figure 00000013
Fik(x, у) dx dy=
Figure 00000014
Figure 00000015
ΣikFik(x, у) dx dy
Если вернуться к дискретному представлению, то ΣikFik(x, у) является двумерной гистограммой, заполняемой следующим алгоритмом:
Для каждой пары прямоугольников изображения и шаблона:
Добавить "1" в гистограмму в точках:
(x2i-x1k, y2i–y1k)
(x1i-x2k, y2i-y1k)
(x2i-x2k, y2i-y2k)
(x1i-x1k, y2i-y2k)
(x2i-x2k, y1i-y1k)
(x1i-x1k, y1i-y1k)
(x2i-x1k, y1i-y2k)
(x1i-x2k, y1i-y2k)
Добавить "-1" в гистограмму в точках
(x2i-x2k, y2i-y1k)
(x1i-x1k, y2i-y1k)
(x2i-x1k, y2i-y2k)
(x1i-x2k, y2i-y2k)
(x2i-x1k, y1i-y1k)
(x1i-x2k, y1i-y1k)
(x1i-x1k, y1i-y2k)
(x2i-x2k, y1i-y2k)
После интегрирования двумерной гистограммы получают искомую корреляционную функцию. При этом интегрирование производят один раз, а не для каждого значения параметра корреляционной функции, т.е. объем вычислений понижается на порядок.
Дополнительный этап - накопление двумерной гистограммы, хотя и является квадратичным, работает быстро, так как количество прямоугольников значительно меньше, чем количество пикселей.
Данный способ описан на примере вычисления корреляционной функции для смещений. Вычисление коэффициентов остальных линейных преобразований выполняют аналогичным образом.
Для компенсации местных нелинейных искажений в одном или двух направлениях применяют выделение на изображении областей, подверженных нелинейным искажениям, и обработку указанных областей отдельно от остального изображения способами, применяемыми для линейных искажений. При этом размер области выбирают более размера искаженной части.
Сущность предложения иллюстрируется на фигурах 1-5.
Фиг.1. Пример изображения формы.
Фиг.2. Пример изображения формы с выделенными связными областями.
Фиг.3. Представление изображения в виде списка прямоугольников.
Фиг.4. Представление шаблона в виде списка прямоугольников.
Фиг.5. Выделение на изображении областей, имеющих искажения.
Предполагаются два варианта способа осуществления изобретения.
Согласно первому варианту выполняют следующие действия.
Назначают, какая из двух форм - форма изображения или форма шаблона - будет подвергаться коррекции для компенсации имеющихся искажений.
Отсканированное изображение машиночитаемой формы, содержащее искажения, разбивают на ряд непересекающихся областей с условием, что искажения в пределах каждой области могут обрабатываться как линейные и пределы распространения искажений менее размера области. При отсутствии значительных нелинейных искажений может быть выделена одна область, равная всему отсканированному изображению.
После этого весь перечень объектов, которые могут встретиться на форме, подразделяют на несколько типов, отличающихся уровнем надежности идентификации на изображении и степенью подверженности искажениям пространственных параметров.
На отсканированном изображении идентифицируют объекты, соотносят каждый из объектов с одним из типов. Для каждого объекта определяют уровень надежности идентификации по его типу.
Для каждой выбранной области и каждого типа объектов, начиная с самых надежно идентифицируемых, последовательно снижая уровень до самого нижнего, выполняют следующие действия:
- устанавливают соответствия между тождественными объектами формы изображения и формы шаблона,
- вычисляют коэффициенты коррекции пространственных параметров объектов выбранного уровня,
- корректируют пространственные параметры формы, принятой за изменяемую, с учетом вычисленных коэффициентов, затрагивая только объекты выбранного уровня надежности идентификации и ниже.
Переходят к дальнейшей обработке изображения формы.
Согласно второму варианту выполняют следующие операции (действия).
Выбирают какая из двух форм - форма изображения или форма шаблона - будет подвергаться коррекции для компенсации имеющихся искажений. Выбор делают произвольно, исходя, например, из имеющегося инструментария для дальнейшей обработки, выбранного технологического процесса обработки и др.
Отсканированное изображение машиночитаемой формы, содержащее искажения, разбивают на ряд непересекающихся областей с условием, что искажения в пределах каждой области могут обрабатываться как линейные и пределы распространения искажений менее размера области. При отсутствии значительных нелинейных искажений может быть выделена одна область, равная всему отсканированному изображению.
После этого весь перечень объектов, которые могут встретиться на форме, подразделяют на несколько типов, отличающихся уровнем надежности идентификации на изображении и степенью подверженности искажениям пространственных параметров (в том числе геометрической формы и размеров).
На отсканированном изображении идентифицируют объекты, соотносят каждый из объектов с одним из типов. Для каждого объекта определяют уровень надежности идентификации по его типу. Например, зачерненный квадратный объект имеет уровень надежности идентификации выше, чем незачерненный. Перекрещивающиеся отрезки прямых имеют уровень надежности идентификации выше, чем символ и т.д.
Для каждой выбранной зоны, а также для объектов каждого типа выполняют следующие действия:
устанавливают соответствия между тождественными объектами формы изображения и формы шаблона,
вычисляют частные коэффициенты коррекции пространственных параметров (в т.ч. положения, масштаба, сдвига, наклона и размеров) формы, принятой за изменяемую, для каждого объекта, встречающегося на форме,
вычисление единого обобщенного коэффициента коррекции пространственных параметров для формы, принятой за изменяемую, исходя из частных коэффициентов коррекции, вычисляемых для отдельных объектов с учетом их уровней надежности идентификации,
коррекция пространственных параметров (в т.ч. размеров, масштаба по одной или двум осям, наклона, сдвига, скоса) формы, принятой за изменяемую, с учетом указанного единого обобщенного коэффициента.
Переходят к дальнейшей обработке изображения формы. Обычно это распознавание текста в полях ввода формы.
За изменяемую принимают форму шаблона или форму изображения. На каждом этапе вычисляют оценку качества сопоставления объектов.
Производят оценку ориентации изображения и установление правильной ориентации. Оценку правильности ориентации проводят любым известным способом. Например, [5].
Производят подтверждение соответствия формы изображения сравниваемой форме шаблона.
За один сеанс работы может проверяться на соответствие несколько шаблонов.
Компенсация искажений может проводиться по одной или двум осям.
Возможно проводить компенсацию линейных, нелинейных искажений, а также сдвига, перекоса, масштаба, углов наклона.
Малые углы наклона изображения допускается корректировать как сдвиг.
Дальнейшая обработка включает в том числе распознавание символов в полях формы.
Библиография
1. J. Yuan, L. Xu, C.Y. Suen, "Form Items Extraction By Model Matching", ICDAR91, pp.210-218.
2. D. Wang, S. Srihari, "Analysis of form images", ICDAR91, pp. 181-191.
3. Y. Belaid, A. Belaid, E. Turolla, "Item Searching in Forms: Application to French Tax Form", ICDAR95, pp. 744-747.
4. A. Agarwal, L. Granowetter, К. Hussein, A. Gupta, "Detection of Curtesy Amount Block on Bank Checks", ICDAR95, pp.748-751.
5. J. Yuan, Y. Tang, C. Suen, "Four directional adjacency graphs and their application in locating fields in forms", ICDAR95, pp. 752-755.
6. D.Wang, S.N.Srihari "Analysis of Form Images" Series in Machine Perception and Artificial Intelligence. - Vol.16, 1996, p.p. 1031-1036.
7. E.Ardizzone, V. Di Gesu "Content-Based Indexing and Video Databases by Global and Shape Features." International Conference on Pattern Recognition, August 25-29, 1996, Vienna, Austria, p.p. 140-144.

Claims (32)

1. Способ приведения в соответствие заполненной машиночитаемой формы в электронном виде, полученной путём оптического ввода с бумажного носителя при наличии искажений, и ее шаблона в электронном виде, описывающего пространственные соотношения и параметрические свойства объектов формы без искажений, причём указанная форма шаблона содержит по крайней мере информацию о пространственных характеристиках реперов, информацию о пространственно-параметрических характеристиках полей ввода данных, причём указанная форма изображения в виде растрового изображения содержит по крайней мере изображение реперов, изображения полей ввода, изображения введенной в поля ввода информации, искажения, вносимые аппаратными средствами при переводе формы из электронного в бумажный вид или наоборот; состоящий в выполнении следующей последовательности действий: назначение формы изображения или формы шаблона в качестве изменяемой формы, которая будет подвергаться коррекции, с одновременным назначением другой формы как неизменяемой, которая не будет подвергаться коррекции; выделение на неизменяемой форме одной или более не перекрывающихся областей, расположенных в пределах проявления искажения, причем размер области выбирают более предполагаемых пределов проявления искажения; обозначение на изменяемой форме областей, соответствующих областям, выделенным на неизменяемой форме; подразделение всех объектов, которые могут присутствовать на форме, на несколько типов, отличающихся уровнем надежности идентификации на изображении; назначение изображению каждого объекта, присутствующему на форме изображения, уровня надежности идентификации в зависимости от его типа; для каждой выбранной области, а также для объектов каждого типа, начиная с самого высокого уровня надежности идентификации, последовательно снижая уровень до самого нижнего, выполнение следующих действий: установление соответствия между тождественными объектами формы изображения и формы шаблона; вычисление коэффициентов коррекции искажений пространственных параметров для каждого объекта выбранного уровня, присутствующего на изменяемой форме; коррекцию пространственных параметров объектов изменяемой формы с учетом вычисленных коэффициентов, затрагивающую только объекты выбранного уровня надежности идентификации и ниже.
2. Способ по п. 1, отличающийся тем, что на каждом этапе вычисляют оценку качества сопоставления объектов.
3. Способ по п. 1, отличающийся тем, что дополнительно проводят оценку правильности ориентации изображения.
4. Способ по п. 3, отличающийся тем, что дополнительно при необходимости устанавливают правильную ориентацию изображения.
5. Способ по п. 1, отличающийся тем, что производят подтверждение соответствия формы изображения сравниваемой форме шаблона.
6. Способ по п. 5, отличающийся тем, что за один сеанс работы проверяют на соответствие несколько шаблонов.
7. Способ по п. 1, отличающийся тем, что применяют для компенсации искажений по одной оси.
8. Способ по п. 1, отличающийся тем, что применяют для компенсации искажений по двум осям.
9. Способ по п. 1, отличающийся тем, что применяют для компенсации нелинейных искажений.
10. Способ по п. 1, отличающийся тем, что применяют для компенсации линейных искажений.
11. Способ по п. 1, отличающийся тем, что применяют для компенсации сдвига изображения.
12. Способ по п. 1, отличающийся тем, что применяют для компенсации перекоса изображения.
13. Способ по п. 1, отличающийся тем, что применяют для компенсации масштаба изображения.
14. Способ по п. 1, отличающийся тем, что дальнейшая обработка включает в том числе распознавание символов в полях формы.
15. Способ по п. 1, отличающийся тем, что применяют для компенсации углов наклона изображения.
16. Способ по п. 15, отличающийся тем, что малые углы наклона изображения корректируют, как сдвиг.
17. Способ приведения в соответствие заполненной машиночитаемой формы в электронном виде, полученной путём оптического ввода с бумажного носителя при наличии искажений и ее шаблона в электронном виде, описывающего пространственные соотношения и параметрические свойства объектов формы без искажений, причём указанная форма шаблона содержит по крайней мере информацию о пространственных характеристиках реперов, информацию о пространственно-параметрических характеристиках полей ввода данных; причём указанная форма изображения в виде растрового изображения содержит по крайней мере изображение реперов, изображения полей ввода, изображения введенной в поля ввода информации, искажения, вносимые аппаратными средствами при переводе формы из электронного в бумажный вид или наоборот; состоящий в выполнении следующей последовательности операций: назначение формы изображения или формы шаблона в качестве изменяемой формы, которая будет подвергаться коррекции, с одновременным назначением другой формы как неизменяемой, которая не будет подвергаться коррекции; выделение на неизменяемой форме одной или более не перекрывающихся областей, расположенных в пределах проявления искажения, причем размер зоны выбирают более предполагаемых пределов проявления искажения; обозначение на изменяемой форме областей, соответствующих областям, выделенным на неизменяемой форме; подразделение всех объектов, которые могут присутствовать на форме, на несколько типов, отличающихся уровнем надежности идентификации на изображении; назначение изображению каждого объекта, присутствующему на форме изображения, уровня надежности идентификации в зависимости от его типа; последовательно для каждой выбранной области, а также для объектов каждого типа, выполнение следующих действий: установление соответствия между тождественными объектами формы изображения и формы шаблона, вычисление частных коэффициентов коррекции искажений пространственных параметров для каждого объекта, встречающегося на изменяемой форме, вычисление единого обобщенного коэффициента коррекции искажений пространственных параметров для всех объектов изменяемой формы, исходя из частных коэффициентов коррекции вычисляемых для отдельных объектов с учетом их уровней надежности идентификации, коррекцию пространственных параметров объектов изменяемой формы с учетом указанного единого обобщенного коэффициента.
18. Способ по п. 17, отличающийся тем, что на каждом этапе вычисляют оценку качества сопоставления объектов.
19. Способ по п. 17, отличающийся тем, что дополнительно проводят оценку правильности ориентации изображения.
20. Способ по п. 19, отличающийся тем, что дополнительно при необходимости устанавливают правильную ориентацию изображения.
21. Способ по п. 17, отличающийся тем, что производят подтверждение соответствия формы изображения сравниваемой форме шаблона.
22. Способ по п. 21, отличающийся тем, что за один сеанс работы проверяют на соответствие несколько шаблонов.
23. Способ по п. 17, отличающийся тем, что применяют для компенсации искажений по одной оси.
24. Способ по п. 17, отличающийся тем, что применяют для компенсации искажений по двум осям.
25. Способ по п. 17, отличающийся тем, что применяют для компенсации нелинейных искажений.
26. Способ по п. 17, отличающийся тем, что применяют для компенсации линейных искажений.
27. Способ по п. 17, отличающийся тем, что применяют для компенсации сдвига изображения.
28. Способ по п. 17, отличающийся тем, что применяют для компенсации перекоса изображения.
29. Способ по п. 17, отличающийся тем, что применяют для компенсации масштаба изображения.
30. Способ по п. 17, отличающийся тем, что дальнейшая обработка включает в том числе распознавание символов в полях формы.
31. Способ по п. 17, отличающийся тем, что применяют для компенсации углов наклона изображения.
32. Способ по п. 31, отличающийся тем, что малые углы наклона изображения корректируют, как сдвиг.
RU2003102203/09A 2003-01-28 2003-01-28 Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты) RU2251738C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2003102203/09A RU2251738C2 (ru) 2003-01-28 2003-01-28 Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты)
US10/403,414 US7251380B2 (en) 2003-01-28 2003-04-01 Adjustment method of a machine-readable form model and a filled form scanned image thereof in the presence of distortion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2003102203/09A RU2251738C2 (ru) 2003-01-28 2003-01-28 Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты)

Publications (2)

Publication Number Publication Date
RU2003102203A RU2003102203A (ru) 2004-10-10
RU2251738C2 true RU2251738C2 (ru) 2005-05-10

Family

ID=34511375

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2003102203/09A RU2251738C2 (ru) 2003-01-28 2003-01-28 Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты)

Country Status (2)

Country Link
US (1) US7251380B2 (ru)
RU (1) RU2251738C2 (ru)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2581786C1 (ru) * 2014-09-30 2016-04-20 Общество с ограниченной ответственностью "Аби Девелопмент" Определение преобразований изображения для повышения качества оптического распознавания символов
RU2621601C1 (ru) * 2016-06-27 2017-06-06 Общество с ограниченной ответственностью "Аби Девелопмент" Устранение искривлений изображения документа
RU2631765C1 (ru) * 2016-04-26 2017-09-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
RU2634192C1 (ru) * 2016-06-24 2017-10-24 Общество с ограниченной ответственностью "Аби Девелопмент" Ввод данных из серии изображений, соответствующих шаблонному документу
RU2636097C1 (ru) * 2016-12-06 2017-11-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система эффективной подготовки содержащих текст изображений к оптическому распознаванию символов
RU2651144C2 (ru) * 2014-03-31 2018-04-18 Общество с ограниченной ответственностью "Аби Девелопмент" Ввод данных с изображений документов с фиксированной структурой
RU2665274C2 (ru) * 2014-06-27 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Всплывающая панель верификации

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110188759A1 (en) * 2003-06-26 2011-08-04 Irina Filimonova Method and System of Pre-Analysis and Automated Classification of Documents
RU2003108433A (ru) * 2003-03-28 2004-09-27 Аби Софтвер Лтд. (Cy) Способ предварительной обработки изображения машиночитаемой формы
RU2635259C1 (ru) 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
US20050276454A1 (en) * 2004-06-14 2005-12-15 Rodney Beatson System and methods for transforming biometric image data to a consistent angle of inclination
US20060224953A1 (en) * 2005-04-01 2006-10-05 Xiaofan Lin Height-width estimation model for a text block
WO2008003119A1 (en) * 2006-07-03 2008-01-10 Ondis Pty Ltd Business card scanner
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
JP6969258B2 (ja) * 2017-09-26 2021-11-24 カシオ計算機株式会社 撮像装置、印刷システム、画像処理方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5955574A (ja) * 1982-09-17 1984-03-30 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション マ−ク・シ−ト読取装置
US5796410A (en) 1990-06-12 1998-08-18 Lucent Technologies Inc. Generation and use of defective images in image analysis
US5305396A (en) * 1992-04-17 1994-04-19 International Business Machines Corporation Data processing system and method for selecting customized character recognition processes and coded data repair processes for scanned images of document forms
US5416849A (en) * 1992-10-21 1995-05-16 International Business Machines Corporation Data processing system and method for field extraction of scanned images of document forms
US5818976A (en) 1993-10-25 1998-10-06 Visioneer, Inc. Method and apparatus for document skew and size/shape detection
JP3338537B2 (ja) 1993-12-27 2002-10-28 株式会社リコー 画像傾き検出装置
US5822454A (en) * 1995-04-10 1998-10-13 Rebus Technology, Inc. System and method for automatic page registration and automatic zone detection during forms processing
US5828771A (en) 1995-12-15 1998-10-27 Xerox Corporation Method and article of manufacture for determining whether a scanned image is an original image or fax image
JP4011646B2 (ja) 1996-05-23 2007-11-21 株式会社東芝 行検出方法および文字認識装置
JPH1013669A (ja) 1996-06-26 1998-01-16 Minolta Co Ltd 画像読取り装置におけるデータ処理方法
JP3246432B2 (ja) 1998-02-10 2002-01-15 株式会社日立製作所 宛名読取り装置および郵便物等区分機

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2651144C2 (ru) * 2014-03-31 2018-04-18 Общество с ограниченной ответственностью "Аби Девелопмент" Ввод данных с изображений документов с фиксированной структурой
RU2665274C2 (ru) * 2014-06-27 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Всплывающая панель верификации
RU2581786C1 (ru) * 2014-09-30 2016-04-20 Общество с ограниченной ответственностью "Аби Девелопмент" Определение преобразований изображения для повышения качества оптического распознавания символов
RU2631765C1 (ru) * 2016-04-26 2017-09-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
RU2634192C1 (ru) * 2016-06-24 2017-10-24 Общество с ограниченной ответственностью "Аби Девелопмент" Ввод данных из серии изображений, соответствующих шаблонному документу
RU2621601C1 (ru) * 2016-06-27 2017-06-06 Общество с ограниченной ответственностью "Аби Девелопмент" Устранение искривлений изображения документа
US9959475B2 (en) 2016-06-27 2018-05-01 Abbyy Development Llc Table data recovering in case of image distortion
RU2636097C1 (ru) * 2016-12-06 2017-11-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система эффективной подготовки содержащих текст изображений к оптическому распознаванию символов

Also Published As

Publication number Publication date
US7251380B2 (en) 2007-07-31
US20050089248A1 (en) 2005-04-28

Similar Documents

Publication Publication Date Title
EP0764308B1 (en) System and method for automatic page registration and automatic zone detection during forms processing
RU2251738C2 (ru) Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты)
US9600870B2 (en) Method, system, digital camera and asic for geometric image transformation based on text line searching
US7437001B2 (en) Method and device for recognition of a handwritten pattern
EP0483391B1 (en) Automatic signature verification
EP0543593B1 (en) Method for determining boundaries of words in text
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
JP2930612B2 (ja) 画像形成装置
US11836969B2 (en) Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
US5434933A (en) Image processing
US6771842B1 (en) Document image skew detection method
US7013045B2 (en) Using multiple documents to improve OCR accuracy
CN111213157A (zh) 一种基于智能终端的快递信息录入方法及录入系统
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统
US7499580B2 (en) System for determining image resolution using MICR characters
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
Hadi et al. A novel approach of skew estimation and correction in persian manuscript text using radon transform
US11386686B2 (en) Method and apparatus to estimate image translation and scale for alignment of forms
US10181077B1 (en) Document image orientation assessment and correction
JPH0668304A (ja) 手書き文字正規化方式
Wajid et al. Pixel Probability Based Estimation of Skew Angle for Text Images
JPH0589283A (ja) 文字サイズ抽出方法
JPH03260887A (ja) 文字認識方法

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20070129

NF4A Reinstatement of patent

Effective date: 20071127

HE4A Change of address of a patent owner
PC41 Official registration of the transfer of exclusive right

Effective date: 20141031

QB4A Licence on use of patent

Free format text: LICENCE

Effective date: 20151118

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311