1月23日、NTTデータのプライベートイベント「NTT DATA Innovation Conference 2015」が都内で開催された。特別講演(基調講演)ではバチカン図書館のCIOが登壇し、同図書館がNTTデータと共同で進める一大プロジェクト「所蔵手書き文献約8万冊のデジタル化」の意義や裏側を語った。
「人類の歴史的遺産」をあまねく共有するためのプロジェクト
世界最古の図書館の1つであるバチカン図書館。そこには、2世紀から20世紀に書き残された約8万2000冊、4000万ページにも及ぶ手書き文献も所蔵されている。
「マニュスクリプト(manuscript)」と呼ばれるこうした手書き文献は“一点もの”であり、豪華な装飾が施された美術的価値の高いもの、当時の歴史や法律、哲学、科学、神学などについて記した研究的価値の高いものなど、極めて貴重な歴史的遺産となっている。
この手書き文献をすべてデジタル画像化し、長期保存と共有/活用の仕組みを作るというのが、バチカン図書館が推進しているデジタル化プロジェクトの輪郭だ。
同プロジェクトに関して、昨年3月、バチカン図書館(バチカン市国)はNTTデータと初期契約を結んでいる(関連記事)。契約内容は「約3000冊の手書き文献を、4年間(2018年3月末まで)でデジタル化する」というもの。その費用だけでも約23億円に上り、8万2000冊すべてのデジタル化には巨額の費用と時間が必要とされるのは間違いない。
それだけのリソースを投じて、所蔵文献のフルデジタル化を推進する理由について、バチカン図書館Information Technology CentreのCIO、ルシアノ・アメンティ氏は以下のように説明する。
「我々が所蔵する手書き文献は、人類共通の歴史的遺産。大切に保管するばかりではなく、人々の間で広く共有されなければならない。それが、文献のデジタル化を決断した理由だ」
手書き文献には、羊皮紙やパピルスに書かれたものや金銀などで装飾されたものが多く、時間の経過とともに劣化が進む運命にある。貴重な文献の「保存」を第一に考えると、その閲覧や活用にはさまざまな制限を設けざるを得ない。その結果、「500年間で、手書き文献全体(8万2000冊)の20%程度しか読まれていない」という事態に陥っていたと、アメンティ氏は説明する。
そんな状況を看過していれば、せっかくの歴史的遺産も、文字通り「宝の持ち腐れ」になりかねない。そこで、バチカン図書館は、所蔵文献をデジタル化して「すべての人が自由に、かつ無償で、どこからでも歴史的遺産を読めて、活用できる環境を整えることにした」(アメンティ氏)のである。
デジタル化のリスクを避け、100年先でも読めるフォーマットを
手書き文献のデジタル化に際して、バチカン図書館では、高精度のスキャニングとデータ処理によって、オリジナルの文献を完全なかたちで再現することに強くこだわったという。この要望を満たすために、NTTデータはデジタルアーカイブ・サービスの「AMLAD(アムラッド)」を提供したが、その品質はバチカン図書館にとって満足のゆくレベルにあったようだ。
さらに、バチカン図書館には、特定技術の変化や衰退によって、将来的に文献のデジタルアーカイブが「無価値化」する、あるいは「読めなくなる」リスクを是が非でも避ける必要があった。
「歴史的遺産である文献のデータは、50年先、100年先も、現在と変わらぬ状態で閲覧できなければならない。そのため、データのアーカイブフォーマットには将来的な継続性が強く求められた」
こうした考えの下、バチカン図書館が採用したデータフォーマットが「FITS(Flexible Image Transport System)」だ。FITSは、オープンスタンダードの画像アーカイブフォーマットで、これまで天体物理学や医学の領域で40年以上の長きにわたって利用されてきたという。ファイルサイズに制限がなく、64ビット対応で、3D画像もサポートするといった特色があるほか、オープンスタンダードであるため、特定のプラットフォーム/ベンダーへの依存度は低い。
「PDFやTIFFなど、特定ベンダーによって作られた独自性の強いフォーマットは、ベンダーの戦略や趨勢によって将来が大きく左右される。そのため、これらの技術が50年後にどうなっているかは、ほとんど予想することができない。これに対して、FITSのようなオープンスタンダードのテクノロジーの場合、強固なコミュニティによって長期の継続性が担保されており、更新のサイクルも短い。その意味でも、FITSは我々のプロジェクトに最適な技術と言える」
「パターン認識」技術により、歴史的文献の研究がさらに加速
バチカン図書館では、昨年10月から順次、デジタル化の完了した文献をインターネット経由で公開/配信し始めている。このシステムでは、FITSフォーマットからTIFFやPDF、JPEGなど異なるフォーマットに変換する機能も用意されている。要するに、アーカイブのフォーマットはFITSで統一しながらも、利用者の環境に適した形式でデータを公開/配信する仕組みも提供しているわけだ。
さらに、パターン認識検索のテクノロジーも取り入れられている。これは、デジタル画像化された手書き文字を“パターン”として認識し、それに基づく検索を行うものだ。この技術を利用すれば、たとえば筆跡のパターンに基づいて「同一筆者の記述を含む文献」を一括検索したり、文献どうしの新たな相互関係を突き止めたり、同じ名前が記されたページを抽出したり、といった柔軟な検索が可能になる。これによって、歴史的文献を使った研究のプロセスも大きく効率化される可能性が高い。
こうした技術の実装も含め、アメンティ氏は、今回のプロジェクトの出来映えと進捗度合いにかなりの満足感を示しており、NTTデータの働きぶりに対しても惜しみない賛辞を贈っている。同氏は講演の最後をこう締めくくった。
「NTTデータは、スキャニングの技術から、ITインフラ(データセンター)構築、さらには、文献データの公開/配信の仕組みに至るまで、我々のプロジェクトを全方位で支援してくれている。技術のプロフェッショナルとしての彼らの仕事ぶりは、賞賛に値するもの。彼らの変わらぬ協力があれば、プロジェクトは必ず成功すると確信している」