仕事でtiffで出力された帳票とPDFで出力された帳票を比較するという作業を行っているが、単調な作業で死にそうである。何とか機械的に作業出来ないかと思い、色々調べて行くと、tesseractと言うOCRエンジンを活用すればなんだか出来そうな気がした。 tesseractはgoogleが開発を行っているOCRエンジンである。英語はもちろん、日本語にも対応しており、簡単にOCR処理を行う事が可能である。インストール方法も簡単だったので取り合えず書いておく。 1.google codeよりインストーラーをダウンロード http://code.google.com/p/tesseract-ocr/ ↑のdownloadより自分の環境の資産をダウンロード 2.日本語処理用にlangageDataをダウンロード インストーラと同じ要領で日本語LangegeDataをダウンロード 3.tesseract