TWAIN未対応の機種でスキャンしてから、それにバンドルされていないOCRソフトで改めて文字認識させるのは、どんな手間・損なことがあるでしょうか?
自炊のためにスナップスキャンの購入を考えています。ただ、どうしてもひっかかるのが「TWAIN未対応」です。
用途としては、ペーパーバックをOCRしてキンドル文書にするつもりです。将来はフランス語、その他マイナー言語の取り込みも考えているので、多くのOCRソフトを試すことになるはずです。ですからTWAINには対応していてほしいのです
が、対抗機種のキャノン製品はTWAINには対応しているものの、発売されてから時間もたち、スナップスキャンの流行りぶりから、こちらも決断しきれません。
ですから、スナップスキャンで取り込んで、あらためて処理しなおすのが大した手間でないなら、スナップスキャンでと考えています。
よろしく御教示ください>
PCにの操作が苦手な方にとってはTWAIN対応の方が無難ですが、慣れてしまえば別々に操作するのはたいした手間ではないので、TWAIN非対応はデメリットと感じる必要はないと思います。
Kindle用ならモノクロスキャンなのでCanonの方が早いですが、カラーならScanSnapの方が早いですね。
遅い方が紙詰まりしにくく画質も確保できやすい面もあるのでなかなか判断しづらいです。
英語中心であれば、どちらもAcrobatが同梱されているのでそれでOCRは問題ないでしょう。
フランス語、さらにはパーリ語に対応したOCRソフトがPDFのからのOCR化に対応しているか、画像ファイルからの取り込みしか対応していないか、そちらの方を優先して考える必要があると思います。
ScanSnapは触ったこともあるので無難かつ間違いない選択と思いますが、自宅ではCanonのMX870でそこそこ使えているので、Canonも十分使えると思いますし。
機種の問題ではなく、値段との兼ね合いとOCRソフトとの組み合わせになるでしょうか。
「スナップスキャン」って、scansnap のことで良いですよね?
scansnap のセールスポイントは、別のソフトウェアに頼らず、そのスキャナと付属ソフトだけで、紙の電子化ができるところにあります。
あまり知らない人でも、コピー機の感覚で PDF を作ってくれることと、
連続でスキャンする仕様に特化していることが、メリットなのだと思います。
自信の表れでしょうか、TWAIN には頑固に対応しません。
しかも、SDK (開発キット) が有料なので、なかなかサードパーティ品も出てきません。
数年前に対応を依頼され調べたときには、100万からしたのですが、
最近のでは、20万くらいまで下げているよう(↓)です。
http://www.pfu.fujitsu.com/news/2011/new110207.html
後、数年経てば、TWAIN にも対応するかな?
あ、肝心の↓に言及して無かった (^^;
TWAIN未対応の機種でスキャンしてから、それにバンドルされていないOCRソフトで改めて文字認識させるのは、どんな手間・損なことがあるでしょうか?
対抗馬のスキャナが何か分かりませんが、scansnap のある程度上位の機種では、紙をフィーダーで給紙できます。
連続で処理できるので、例えれば、FAX を送る感覚で PDF ができあがります。
scansnap の精度に満足できるなら、そこから先にチマチマ作業するのが、けっこう手間に感じられるかも。
あくまでも、私見ですが、精度が特別良い、という感じはしません。
なので、気にするとしたら「フランス語など...」というところでしょうか?
参考になれば。
スナップスキャン→スキャンスナップですね?
スキャンスナップの利点は大量高速スキャンですから、スキャンする手間・時間のストレスはかなり軽減されると思います。
TWAINに非対応でも、ある程度は連携できるソフトがあるようです。
http://scansnap.fujitsu.com/jp/solution/index.html#software
自炊の仕方にもよりますが、スキャンした画像をOCRで直接テキスト文書にするのであればOCRソフトからのTWAINは便利ですが、PDFで閲覧するのであれば、高速・高圧縮のスキャンスナップはお薦めです。
(私はCanonの複合機でスキャン&PDF化していますが結構時間がかかるのでストレスがたまります)
おそらくスキャンスナップの方が他のスキャナで読み込むより時間が早いので、読み込んだ後にOCRソフトを立ち上げてからテキスト変換しても、結果的には処理が早く終るかもしれませn。
原稿をスキャンする時間・手間と、OCRソフトで変換する時間・手間をてんびんにかけて検討してみてはいかがでしょうか。
「スナップスキャン」というのは ScanSnap のことですよね?
私は ScanSnap S1500を使って自炊していますが、TWAIN非対応は全く問題ありません。
ScanSnap S1500にはAcrobat Standardがバンドルされているので、スキャンしてから直接PDFを作成できます。日本語OCRはAcrobatの機能で十分です。
Photoshopのように、TWAIN経由でないとスキャン画像を取り込めないようなアプリの場合はTWAIN対応が便利ですが、ScanSnapのように自分自身がアプリを制御できる場合はTWAINは必須でないと思います。
PCにの操作が苦手な方にとってはTWAIN対応の方が無難ですが、慣れてしまえば別々に操作するのはたいした手間ではないので、TWAIN非対応はデメリットと感じる必要はないと思います。
Kindle用ならモノクロスキャンなのでCanonの方が早いですが、カラーならScanSnapの方が早いですね。
遅い方が紙詰まりしにくく画質も確保できやすい面もあるのでなかなか判断しづらいです。
英語中心であれば、どちらもAcrobatが同梱されているのでそれでOCRは問題ないでしょう。
フランス語、さらにはパーリ語に対応したOCRソフトがPDFのからのOCR化に対応しているか、画像ファイルからの取り込みしか対応していないか、そちらの方を優先して考える必要があると思います。
ScanSnapは触ったこともあるので無難かつ間違いない選択と思いますが、自宅ではCanonのMX870でそこそこ使えているので、Canonも十分使えると思いますし。
機種の問題ではなく、値段との兼ね合いとOCRソフトとの組み合わせになるでしょうか。
コメント(10件)
私の表記の不明瞭で、少し論点がずれているので整理します。
#1 購入はドキュメントスキャナに決めている
#2 ScanSnap S1500 もしくはキャノンのimageFORMULA DR-2510Cのどちらか
#3 最終的なアウトプットはAmazon Kindleのフォーマットである.azwまたは.prc形式
(PDFからアプリケーションを介して変換)
#4 対象は英語。将来的には仏語。さらには日本語混在のextended latin 文字のパーリ語
従って、ScanSnapにバンドルしているアプリでは限界があり、フリーも含めた様々なOCRソフトを試すことは必須になると考えています。
ならば、「TWAIN対応のキャノンとする」のが結論なのでしょうが、機種の性能自体はScanSnap S1500の評判がいいので悩んでいるわけです。
よって、知りたいのは「ScanSnap S1500でスキャンして、OCR自体は他のアプリを使う事は可能ですか」ということです。「それで全部まかなえますね」ということではなく。
その工程がテクニカルに煩雑でなければScanSnap S1500を購入しようとおもっているわけです。
よろしくお願いします。
scansnap は、jpeg で取り込めますから、他のアプリが jpeg から読み取れれば、大丈夫です。
ただ、その「他のアプリ」が、複数の jpeg ファイルを解析することに、どれくらい手間がかかるのかが分かりません。
逆に言うと、scansnap で紙を取り込んで PDF に出力するのは、ものすごく楽なんです。
別のソフトを起動して、ファイルを選択するのが手間に思えるくらい。
少なくとも、「他のアプリ」が jpeg を取りこんで解析できるのであれば、
テクニカルに煩雑だ、ということは無いと思います。
そういった基本的な事を教えていただきたかったのです。
jpegだけが実質唯一の「経路」、方法だと考えてよろしいでしょうか。
「他のアプリ」が対応できる画像ファイルが、jpeg 以外であれば、
jpeg → 他の画像形式、というひと手間が増えます。
それでも、テクニカルに煩雑、というほどではないですよね。
わざわざAcrobatを購入するのはお金がかかりますが、ScanSnapもDR-2510CもAcrobat同梱ですからお金も手間もかからないですね。
教えていただいた「入力形式」について購入を検討しているOCRソフトを調べて見ました。
JPEGはまず対応、PDF対応も多いようです。
一旦、これらで出力してから、入力しなおせば、まぁ対応可能ということで、scansnapに心が大きく傾きました。
ありがとうございました。
PDFとJPEG云々についてはプロが用いるのはTiffであることを念頭において置いてください。PDFは悪い書式ではないのですが、欠点が幾つかあります。一番目はバージョンや方言の違いから特にサード・パーティ製のソフトを用いた場合に表示できないとか、思ったような処理ができないといった場合が多々あります。
ScanSnapで取り込んだPDF画像ファイルを他のOCRソフトで読み込むことはソフトが対応していれば十分可能ですが、私の経験からだと大容量ファイルの場合読み込みだけで時間がかかったり、場合によっては処理できない可能性があることは覚悟してください。その場合、いったんTiffに変換することで対応は可能でしょう。
技術的には可能ですが、問題が二つあると考えています。
一番目は将来OCR化を考えているバーリ語ですが、日本語とバーリ語双方に対応したOCRソフトというのはあるのでしょうか?OCRというのは文字を形から判断するだけでなく、単語辞書や文法からも文字を認識します。そのため、自身が有していない単語は似た単語に置き換えてしまうという悪い癖があります。私が経験した例では、それこそ明治時代に書かれた書籍や漢文混じりの兵法解説書というのはガタガタでした。
二番目はコメントであげられた、2機種は共に書籍を裁断しないとスキャニングできないタイプですが、最近の著作権を巡る話題から判断して近々著作権法が改正されるのは間違いありません。その場合、裁断して全てを破棄或いは売却してしまった書籍のデータを所有していること自体が違法とされかねないことです。国会図書館などでも書籍の電子化を依頼する入札が行われていますので、第三者委託は合法とされるでしょうが、書籍の全部を破棄してしまった場合はそれをスキャンした電子データを所有していること自体が違法となる可能性があると私は予測しています。その点をどう考えるかが問題です。
こういった問題は残りますが、裁断した紙のスキャニング自体にTwainを経由しているDR-2510Cを求められるか、そうでないScanSnapを求められるのかという点ですが、読み取った後すぐに電子データにOCRをして結果を確認できる点とハードウェア自体はDR-2510Cの方が高速ですから、将来的にはDR-2510Cの方がかなり使いやすいと考えられます。
ただし、低スペックのマシンに接続した場合ではTwainドライバの関係もあってScanSnapの方が性能がでるだろうと予測され、その分使い勝手が良いだろうと思われます。
更に調べていて、tiffとは何か、スキャンした「現物の様式」とは何か気になっていたところです。
非常に参考になる御意見ありがとうございました。
慌てて回答を締め切ったためにお礼もできずに申し訳ありません。
キヤノン、排紙スペース不要のドキュメントスキャナ「imageFORMULA DR-C125」
http://japan.cnet.com/digital/pc/35003759/
省スペースで使いやすそうですが、Acrobatではなく「eCopy® PDF Pro Office」が同梱なのでこれまた悩ましいです。
imageFORMULAはそろそろ新製品がでるのかなと調べていたところです。
いまはtwainを介して高性能な他言語OCRが使えたほうがいいかなと考えています。
貴重な情報ありがとうございました。