Ding et al., 2023 - Google Patents

Improving handwritten OCR with training samples generated by glyph conditional denoising diffusion probabilistic model

Ding et al., 2023

Document ID: 15201680327244668610
Author: Ding H; Luan B; Gui D; Chen K; Huo Q
Publication year: 2023
Publication venue: International Conference on Document Analysis and Recognition

External Links

Cited by

Snippet

Constructing a highly accurate handwritten OCR system requires large amounts of representative training data, which is both time-consuming and expensive to collect. To mitigate the issue, we propose a denoising diffusion probabilistic model (DDPM) to generate …

Continue reading at arxiv.org (PDF) (other versions)

Classifications

- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/62—Methods or arrangements for recognition using electronic means
- G06K9/6267—Classification techniques
- G06K9/6268—Classification techniques relating to the classification paradigm, e.g. parametric or non-parametric approaches
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/62—Methods or arrangements for recognition using electronic means
- G06K9/6217—Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRICAL DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/20—Handling natural language data
- G06F17/27—Automatic analysis, e.g. parsing
- G06F17/2705—Parsing
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/62—Methods or arrangements for recognition using electronic means
- G06K9/68—Methods or arrangements for recognition using electronic means using sequential comparisons of the image signals with a plurality of references in which the sequence of the image signals or the references is relevant, e.g. addressable memory
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRICAL DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/20—Handling natural language data
- G06F17/27—Automatic analysis, e.g. parsing
- G06F17/2765—Recognition
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/62—Methods or arrangements for recognition using electronic means
- G06K9/6288—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/62—Methods or arrangements for recognition using electronic means
- G06K9/6201—Matching; Proximity measures
- G06K9/6202—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRICAL DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/20—Handling natural language data
- G06F17/21—Text processing
- G06F17/22—Manipulating or registering by use of codes, e.g. in sequence of text characters
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/36—Image preprocessing, i.e. processing the image information without deciding about the identity of the image
- G06K9/46—Extraction of features or characteristics of the image
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/20—Image acquisition
- G06K9/22—Image acquisition using hand-held instruments
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06K—RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K9/00—Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
- G06K9/00852—Recognising whole cursive words
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRICAL DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/30—Information retrieval; Database structures therefor; File system structures therefor
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass

Similar Documents

Publication	Publication Date	Title
Kang et al.	2019	Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
Zhao et al.	2022	Exploiting unlabeled data with vision and language models for object detection
Xie et al.	2022	Toward understanding wordart: Corner-guided transformer for scene text recognition
Zhang et al.	2020	Radical analysis network for learning hierarchies of Chinese characters
Kuang et al.	2023	Visual information extraction in the wild: practical dataset and end-to-end solution
Ding et al.	2023	Improving handwritten OCR with training samples generated by glyph conditional denoising diffusion probabilistic model
Barrere et al.	2022	A light transformer-based architecture for handwritten text recognition
Dutta et al.	2018	Towards accurate handwritten word recognition for Hindi and Bangla
Gui et al.	2023	Zero-shot generation of training data with denoising diffusion probabilistic model for handwritten Chinese character recognition
Ríos-Vila et al.	2022	On the use of transformers for end-to-end optical music recognition
Abdurahman et al.	2021	AHWR-Net: offline handwritten amharic word recognition using convolutional recurrent neural network
Addis et al.	2018	Printed ethiopic script recognition by using lstm networks
Ngo et al.	2021	Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition
Cascianelli et al.	2021	Learning to read L’Infinito: handwritten text recognition with synthetic training data
Zdenek et al.	2023	Handwritten text generation with character-specific encoding for style imitation
Dai et al.	2025	One-dm: One-shot diffusion mimicker for handwritten text generation
Wang et al.	2023	Affganwriting: a handwriting image generation method based on multi-feature fusion
Peer et al.	2022	Self-supervised vision transformers with data augmentation strategies using morphological operations for writer retrieval
Hamdan et al.	2023	Refocus attention span networks for handwriting line recognition
Chang et al.	2023	Crosslingual handwritten text generation using gans
Calvo-Zaragoza et al.	2023	Optical Music Recognition: Recent Advances, Current Challenges, and Future Directions
Dhiaf et al.	2021	DocNER: A deep learning system for named entity recognition in handwritten document images
Hamdi et al.	2021	ASAR 2021 competition on online Arabic character recognition: ACRC
Kohút et al.	2023	Fine-Tuning is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition
Burdett et al.	2022	Active transfer learning for handwriting recognition