PDFファイルはこちら
カレントアウェアネス
No.305 2010年9月20日
CA1727
動向レビュー
1. OPACからディスカバリ・インターフェースへ
図書館が提供するコンテンツは、従来からOPACが守備範囲としてきた冊子体資料に加え、ライセンス契約の電子コンテンツ(電子ジャーナル、電子書籍、文献データベースなど)、リポジトリ中の研究成果、デジタル化された所蔵資料、マルチメディア資料など、多様化している。またユーザは、これらのコンテンツをGoogleのように一度に検索でき、Amazonのようにビジュアル化された画面や内容/レビューの表示、さらにリコメンド機能などが提供されることを期待するようになっている(1)。これを実現するものがディスカバリ・インターフェース(次世代OPAC)(2)であり、これまで海外で導入が進んできたが(3)、最近国内でも導入が始まっている(4) (5) (6) (7)。
ディスカバリ・インターフェースの特徴やソフトウェアの紹介については、久保山(8)、宇陀(9)、渡邊(10)、らの論文、および拙稿(11)に詳しい。そこで本稿では、筆者の九州大学での経験を踏まえ、ディスカバリ・インターフェースに共通する実装のポイントや、海外製品を導入する際の日本語環境への対応について紹介する。さらに、オープンソースをめぐる状況の変化や、ディスカバリ・インターフェースの最新動向にも触れる。
2. 実装のポイント
2.1. メタデータの収集
ディスカバリ・インターフェースでの検索に必要な情報は、全て図書館システムを始めとするデータソースからのハーベストによって収集される。ハーベスト方式はOAI-PMHの利用が広がっており、MARCXML、Dublin Core(DCMI Metadata Terms)などXML形式のメタデータフォーマットによって受け渡される。データの同期を取るため、追加、更新、削除の3種類のデータが転送できるように準備しておく必要がある。
なお、海外製品を導入する場合、国内の書誌フォーマットに準拠して作成された図書館システムの書誌・所蔵レコードを、MARC21/XML形式へ変換して取り出すことが考えられる。しかしながら、オリジナルフィールドにはローマ字による記入の原則があるほか、書誌構造の違いから識別子による書誌間リンクが困難なこと、またフィールド値の機械的な置き換えができない場合があるなど、マッピングに工夫が必要である。これを根本的に解決するためには、AACR2の後継として策定されたRDA(Resource Description and Access)の採用やRDF(Resource Description Framework)によるメタデータ交換など、目録データの作成/交換形式そのものを見直さなければならない(12)。
2.2. メタデータ・エンリッチメント
ディスカバリ・インターフェースでは、従来から図書館が目録情報の情報源としてきた表紙、標題紙、背、奥付などに加え、検索のアクセスポイントを増やし、ユーザが検索結果から適切なコンテンツを探しやすくするために、様々な情報を追加している。
まず、洋書の表紙画像、目次、概要などの情報については、Syndetic Solutions(13)やBaker&Taylor(14)が提供する、図書館OPAC向けのサービスが利用できる。検索結果への表示のみを提供するサービスと、検索インデックスに追加できるサービスがある。また和書については、トーハン、日本出版販売、紀伊國屋書店、日外アソシエーツが共同で、目次、概要、著者名典拠情報などを販売している(15)ほか、図書館流通センター(TRC)が主に公共図書館向けにデータ販売を行っている(16)。和書の表紙画像は、日外アソシエーツが主に書店向けに用意したデータを図書館でも購入できるが、非営利目的の場合は出版社ごとの許諾が必要となる。こうした商用データのほか、Amazon.co.jp(17)、Googleブックス(18)などが提供するAPIを利用する方法もあるが、それぞれ当該サイトへのリンクを置くことが条件となっている。
また、ソーシャル機能の一つとして、ユーザからレビューを集めて表示することも行われている。例えば商用のAquaBrowserのオプションであるMyDiscoveries(19)では、同製品を導入した機関で入力されたレビューを横断的に表示できるほか、本を利用したソーシャルネットワーキングサービス(SNS)であるLibraryThing(20)が集めたタグやレビューを利用する機能も用意されている。そのほか無料サービスでは、上述のAmazon Webサービス API(17)やGoogle Book Search API(18)が利用できる。レビューに関する機能以外では、Ex LibrisのbX(21)のような、リンクリゾルバの利用ログ分析をベースとしたリコメンデーションサービスも登場している。
電子ジャーナルや電子書籍を、商用のナレッジベース(A-Zリスト)を用いて管理している場合には、A-Zリストに表示されているような簡単な書誌情報を、ダウンロードして利用することが可能である。また、冊子体と同様の品質のメタデータが必要であれば、Serials Solutionsの360 MARC Updates(22)やEx LibrisのMARC It! (23)のようなMARCディストリビューションを利用できる。ただし、これらは、CONSER(24)などから収集したMARCデータをもとに、各社がデータ拡張したもので、製品によって品質にばらつきがある。また電子書籍については、提供する出版社からMARCレコードを入手することも可能であるが、各社MARCフォーマットの品質が一定していないため、これを調整する作業が必要となる。さらに、国内の電子コンテンツのメタデータに関しては、ISSN日本センター(25)や、個人の取り組みである日本語学術雑誌情報源ナビ(JJRnavi)(26)が提供しているが、前者は網羅性において、後者は正確性と安定的運用の点で十分ではない。堀内ら(27)の指摘や、総務省、文部科学省及び経済産業省からの報告(28)にあるように、国レベルでの書誌情報インフラの整備が必要である。
2.3. メタデータ・マネジメント
いくら多様なリソースから情報を集め、メタデータのエンリッチメントを行っても、検索を信頼性のあるものにし、適切なアイテムを選びやすくするためには、メタデータのマネジメントが欠かせない。具体的には、MARC21/XML、Dublin Core、MODS、独自スキーマなど、様々な形式で収集したデータについて、フィールドのマッピング(タイトル、著者、フォーマット、出版年、言語、ロケーションなど)、重複除去、FRBR化などを行うことになる。
また、ファセットと呼ばれる検索結果からの絞り込みも、ファセット構成要素(フォーマット、主題、本文言語、出版年、著者、ロケーションなど)のマネジメントが、その有効性を大きく左右する。なかでも主題ファセットについては、NACSIS-CATに準拠した国内の目録データの場合、とくに古い資料では基本件名標目表(BSH)や国立国会図書館件名標目表(NDLSH)などの件名がセットされていないレコードが多く、網羅性が確保できていない状況にある。これを解決するためには、件名データの遡及入力、分類からの機械的な件名生成、外部データの取り込みなど、何らかの作業が必要と考えられる。
2.4. 全文検索エンジン
全文検索エンジンは、集約したメタデータやフルテキストのインデクシングだけでなく、検索結果の重みづけ、ファセットナビゲーションやリコメンド機能のデータ生成などを担っている。この分野は、もともと国内ショッピングサイトで圧倒的なシェアを誇るFAST ESPや、XMLデータベースで出版社の採用が多いMarkLogic Server、安価に導入できるGoogle検索アプライアンスなど多くの製品がしのぎを削っており、導入機関のニーズに応じたカスタマイズや高い拡張性を備えている(29) (30)。ディスカバリ・インターフェースにおいては、2006年に米国ノースカロライナ州立大学が多くのショッピングサイトや検索サービスを手掛けるEndeca(ProFind、現在のInformation Access Platform)を採用し、図書館界を驚かせたが(E566参照)、最近ではオープンソースのApache Luceneと、それをWebアプリケーション化したSolrの利用が広がっている(31)。
また、日本語特有の状況に対応するためには、インデクシングの調整が必要である。例えば、精度の高い形態素解析(予め登録された予約語を切り出す)を再現率の高いN-gram(指定文字数ごとに文字列を切り出す)で補完するチューニングを行うほか、異体字の変換、表記のゆれへの対応、ヨミの追加(または追加しない)なども考慮しなければならない(32)。
2.5. インターフェースのデザイン
ユーザインターフェースは、メタデータ・マネジメントや検索エンジンとは別のレイヤーで設定を行う。画面全体のデザインのほか、検索エンジンが返した結果の表示、ファセット表示、Amazonなど外部サイトとのAPI連携、アイテム間や外部サービスへのリンク、リコメンデーション、電子リソースや視聴覚資料のブラウズページなど、設定は多岐に渡る。これらの設定を行う上で、ユーザの検索行動への理解が欠かせない。AppleのiPodが小さいディスプレイで多機能を実現し、便利さを実感させる作りになっているように、ユーザは何をしにサイトへやってくるのか、次に何をしたくなるのかといった行動パターンを把握し、過不足ないデザインを心掛けるべきである。
また、貸出状況の表示や貸出予約などのパーソナルサービスでは、図書館システムとリアルタイムに連携を行う必要があり、ANSI/NISOが定めるNCIP(NISO Circulation Interchange Protocol;Z39.83)(33)やWebアプリケーションで一般的なSimple REST方式が用いられている。また、貸出状況については、1時間に数回から1日数回の頻度でデータをハーベストするシステムもある。
そのほか、国内ではインターフェースの多言語化も必要となるが、最近では、gettext(34)に代表されるように、翻訳ファイルによるインターフェースの翻訳が一般的になってきている。これにより、インターフェースの二重化(日本語版と英語版)など複雑な対応を行うことなく、比較的容易に多言語化を行うことができる。
3. オープンソースの潮流
ディスカバリ・インターフェースでは、オープンソースのプロジェクトが、かつてない盛り上がりを見せている。全文検索エンジンでは、前述のとおりオープンソースのApache Lucene/Solrが、Blacklight、eXtensible Catalog、VuFindなどの主要オープンソースのほか、Serials SolutionsのSummon(35)といった商用サービスで採用されている。またユーザインターフェースでは、BlacklightがRuby on Railsを、eXtensible CatalogがDrupalを利用するなど、オープンソースのWebアプリケーションフレームワークの活用が進んでいる。このように共通化されたパーツを組み合わせて利用することで、開発スピードは飛躍的に向上し、より多くの人がWebアプリケーション構築に参加するようになっている。そして国内でも、Next-L Enju(36)が、オープンソースのプロジェクトとして進行しており、国立国会図書館サーチ(開発版)(E1087参照)などで採用(37)されている。
共通化されたパーツの採用は、課題解決の共有にもつながっている。例えば米国イェール大学は、VuFindをカスタマイズしたディスカバリ・インターフェースYufindを公開しているが、Apache Lucene/Solrによる多言語検索の改善を検討している。その第一歩として、Arcadia Trustからの助成を利用して、広く状況とニーズを調査し、中間報告をまとめているが(38)、ここで得られた成果は、検索エンジンを共有する他のプロジェクトでも活用できるため、汎用性が高い。
このように、オープンソースを活用すれば、システム構築を完全にベンダーに依存するのではなく、自ら必要な機能をデザインすることが可能となる。しかし一方で、導入する機関側にテクニカルな人員が必要となるため、導入を躊躇する機関も多いだろう。一つの解決策としては、Web制作会社などと協力して導入やその後の維持管理/アップデートを行う方法がある。
また、もう一つ注目すべきことは、オープンソースはその発展をコミュニティが担っていることである。必要となる機能の提案や課題解決の共有、独自に修正したソースや見つけたバグのフィードバックなどに参加することで、ソフトウェア全体が発展するばかりでなく、自らも新しい知見を得ることにつながる。
4. 最近の動き
4.1. Webスケールのディスカバリ・サービス
ディスカバリ・インターフェースは、機関が提供するリソースに対するアクセスを統合するツールである。一方で、ライセンス契約の電子コンテンツのディープインデクシングを行い、論文レベルのデータや電子書籍の本文までを含めた、世界中の学術情報を網羅的に探すことが出来る、Webスケールでのディスカバリ・サービスが注目を集めている。Serials SolutionsのSummonは、この分野をリードする製品で、6,800以上の出版社からの協力を得て、94,000以上の雑誌タイトルから、5億以上のコンテンツをインデクシングし、各導入機関に検索サービスを提供している。またOPACのデータなど図書館独自のコンテンツのハーベストにも対応している。そのほか、Ex LibrisのPrimo Central、EBSCO Discovery Serviceも同種のサービスである。また、OCLCが機関向けに提供するディスカバリ・インターフェースであるWorldCat Local(CA1721参照)は、EBSCOやebraryとの提携により、電子ジャーナル、電子書籍のインデクシングを追加し、電子コンテンツへのアクセスを強化している(39) (40)。こうしたWebスケールディスカバリ・サービスが十分に成熟し、ディスカバリ・インターフェースとの連携が図られれば、図書館が提供する冊子体資料、電子コンテンツ、機関リポジトリ中の研究成果、論文情報、新聞、事典などあらゆる学術情報の検索は、これ一つに集約されることになるだろう。
4.2. 次世代図書館システム
メタデータ・マネジメントの面で注目すべき動きとして、これまでの図書館業務システムが扱ってきた冊子体資料の目録情報と、ディスカバリ・インターフェースに統合している電子コンテンツの両方を扱うことができる次世代図書館システムの開発が、運用フェーズに入ってきていることが挙げられる。オープンソースのOpen Libraryプロジェクトを受け継いだKuali OLEプロジェクト(E1003参照)、Ex LibrisのUnified Resource Management、OCLCの図書館マネジメントサービス(CA1721参照)などが動き出している。このような次世代図書館システムによって、現在ディスカバリ・インターフェースが担っているメタデータ・マネジメントを、図書館システム側で柔軟に行えるようになれば、ディスカバリ・インターフェースが果たす役割も変わってくるだろう。
4.3. ソーシャル機能の可能性
そのほか、ディスカバリ・インターフェースをプラットフォームとして、ソーシャル機能を充実させる動きも始まっている。例えば、愛知県立大学を含む5大学が進めるTosho Ring(41) (42)では、教員や学生の参加によって共同蔵書を構築し、ディスカバリ・インターフェース上に投稿された書評を通じて、ユーザどうしがつながるシステムを実験的に提供している。Web上に自分用の図書リストを作成し、それに書評を付けたり、他のユーザの書評を参照するサービスとしては、ブクログ(43)やLibraryThing(20)などがあるが、Tosho Ringでは情報の共有を連携大学内に限定している。大学のような比較的小さい母集団では十分な数の書評が集まりにくいが、共同蔵書の選書ツアーのほか、授業との連携によって、書評を意味あるものにしている。教員が投稿した書評は学生が図書を選ぶ際の参考になっており、また授業で触れた図書について学生たちが書評を書くことによって、他者に伝わりやすい文章を書く訓練にもなり、さらに担当教員が学生の関心や理解度を知ることにもつながっている。
4.4. モバイルデバイスと外部システム連携
携帯電話やiPodなどモバイルデバイスの普及、またiPadの登場により、情報の利用はPCからだけでなく、幅広いデバイスから利用されるようになっている。ディスカバリ・インターフェースにおいても、PCからの利用だけを想定するのではなく、さまざまなインターフェースを追加可能な、柔軟性のあるシステム設計が必要である。また、学習管理システム(LMS)を始めとする、外部システムとの連携も求められている。こうした拡張性を確保する意味からも、汎用的な全文検索エンジンの採用とWebアプリケーションフレームワークを利用したインターフェース構築が有効である。
5. おわりに
ディスカバリ・インターフェースの構築は、図書館がこれまで長く労力をかけてきた蔵書検索サービスの提供(=図書館は書誌情報からのキーワード検索を用意するだけで、適切なものを引き出せるかどうかはユーザの腕にかかっている)からいったん離れて、今のユーザに必要なサービスを用意しなおす(=サジェストし、ユーザどうしをつなぐ)作業である。この仕事をやり遂げることによって、図書館員が忘れかけていた、知識と人をつなぐという図書館本来の役割を再び自覚し、図書館は人類の蓄えた膨大な情報の中から、「確かな」知恵を引き出すことのできる場所として、生まれ変わることを願っている。
九州大学情報システム部:片岡 真(かたおか しん)
(1) Calhoun, Karen et al. “Online Catalogs: What Users and Librarians Want”. OCLC.
http://www.oclc.org/reports/onlinecatalogs/fullreport.pdf, (accessed 2010-08-13).
(2) これまで“next-generation library catalogs”の訳語として「次世代OPAC」がよく使われてきたが、この新しい製品がカバーするリソースや提供する機能は、もはや「OPAC」の枠にとどまらない。そのため海外では“discovery layer”などの表現がよく用いられているが、ここではブリーディング(Marshall Breeding)の“Next-Gen Library Catalogs”の記述に従い、「ディスカバリ・インターフェース(discovery interfaces)」を用いる。
Breeding, Marshall. “Introduction: Next-Gen Library Catalog Basics”. Next-Gen Library Catalogs. New York, Neal-Schuman Publishers, 2010, p. 2-3.
(3) Breeding, Marshall. Automation Marketplace 2010: New Models, Core Systems. Library Journal. 2010, 135(6), p. 22-36.
http://www.libraryjournal.com/article/CA6723662.html, (accessed 2010-07-21).
(4) “KOSMOS”. 慶應義塾大学メディアセンター.
http://kosmos.lib.keio.ac.jp/primo_library/libweb/action/search.do?vid=KEIO&vid=KEIO&mode=Basic, (参照 2010-08-13).
(5) “Tulips”. 筑波大学附属図書館.
http://www.tulips.tsukuba.ac.jp/mytulips/, (参照 2010-07-05).
(6) “Cute.Catalog (alpha)”. 九州大学附属図書館.
http://search.lib.kyushu-u.ac.jp/, (参照 2010-07-05).
(7) “Take Control; eXtensible Catalog”. eXtensible Catalog Organization.
http://www.extensiblecatalog.org, (accessed 2010-07-05).
(8) 久保山健. 特集, ファインダビリティ向上: 次世代OPACを巡る動向 : その機能と日本での展開. 情報の科学と技術. 2008, 58(12), p. 602-609.
(9) 宇陀則彦. 特集, ウェブ検索時代の目録: 利用者中心の設計―次世代OPACの登場―. 図書館雑誌. 2009, 103(6), p. 390-392.
(10) 渡邊隆弘. 「次世代OPAC」への移行とこれからの目録情報. 図書館界. 2009, 61(2), p. 146-159.
(11) 工藤絵理子ほか. 次世代OPACの可能性 : その特徴と導入への課題. 情報管理. 2008, 51(7), p. 480-498.
(12) Bowen, Jennifer. “Defining Linked Data for the eXtensible Catalog (XC): Metadata on the Bleeding Edge”. ALA Annual Conference 2009. Chicago, IL, 2009-07-13.
http://www.extensiblecatalog.org/sites/default/files/slides/BowenLinkedDataALA2009.ppt, (accessed 2010-08-13).
(13) “Syndetic Solutions”. Bowker.
http://www.bowker.com/syndetics/, (accessed 2010-07-16).
(14) “Content Café 2”. Baker & Taylor.
http://www.btol.com/pdfs/content_cafe.pdf, (accessed 2010-07-16).
(15) “「BOOK」データベース”. 日外アソシエーツ.
http://www.nichigai.co.jp/dcs/index3.html, (参照 2010-07-05).
(16) “TRC MARC”. 株式会社図書館流通センター.
http://www.trc.co.jp/library/tool/marc_1.html, (参照 2010-07-16).
(17) “Amazon Web サービス”. Amazon.
http://www.amazon.co.jp/gp/feature.html?ie=UTF8&docId=451209, (参照 2010-07-05).
(18) “Google Book Search API – Google Code”. Google Code.
http://code.google.com/intl/ja/apis/books/, (参照 2010-07-16).
(19) “Serials Solutions® Now Represents AquaBrowser Library® with MyDiscoveries™ Unified Discovery Interface and Social Library Experience”. Serials Solutions. 2008-05-17.
http://www.serialssolutions.com/news-detail/serials-solutions-now-represents-aquabrowser-library-with-mydiscoveries-uni/, (accessed 2010-08-13).
(20) LibraryThing.
http://jp.librarything.com/, (参照 2010-08-13).
(21) “bX Recommender Service: Overview”. ExLibris.
http://www.exlibrisgroup.com/category/bXOverview, (accessed 2010-08-13).
(22) “360 MARC Updates”. Serials Solutions.
http://www.serialssolutions.com/360-marc-updates/, (accessed 2010-07-05).
(23) “MARCit!”. ExLibris.
http://www.exlibrisgroup.com/category/SFXMARCit!, (accessed 2010-07-16).
(24) 米国議会図書館(LC)が行っている逐次刊行物の共同目録プログラム。
“CONSER Program”. Library of Congress.
http://www.loc.gov/acq/conser/, (accessed 2010-08-13).
(25) “ISSN日本センター”. 国立国会図書館.
http://www.ndl.go.jp/jp/aboutus/issn_02.html, (参照 2010-07-16).
(26) 日本語学術雑誌情報源ナビ:目次サイト、記事索引・抄録、全文情報データベース.
http://jcross.jissen.ac.jp/atoz/index.html, (参照 2010-07-16).
(27) 堀内美穂ほか. JST国内収集誌の電子化状況調査報告. 情報管理. 2009, 52(2), p. 95-101.
(28) “デジタル・ネットワーク社会における出版物の利活用の推進に関する懇談会報告”. 総務省. 2010-06-28.
http://www.soumu.go.jp/main_content/000075191.pdf, (参照 2010-08-13).
p.35に、「紙の出版物と電子出版の両方を統一的に扱える書誌情報(MARC等)フォーマットの策定・標準化と官民の書誌情報提供サービスへの普及等について具体的な検討・実証を進め、こうした取組について国が側面支援を行うことが適当」との記述がある。
(29) 木下和彦. 特集, エンタープライズサーチ: エンタープライズサーチにおける「検索」とは何か. 情報の科学と技術. 2009, 59(9), p. 426-430.
(30) 三原茂ほか. 特集, エンタープライズサーチ: 拡張し続けるエンタープライズサーチ,その現在(いま). 情報の科学と技術. 2009, 59(9), p. 431-437.
(31) Breeding, Marshall. “Profiles of Major Discovery Products”. Next-Gen Library Catalogs. New York, Neal-Schuman Publishers, 2010, p. 31-51.
(32) ダグラス, ベンジャミン. 特集, エンタープライズサーチ: 自然言語処理とエンタープライズ・サーチ. 情報の科学と技術. 2009, 59(9), p. 445-449.
(33) NISO Circulation Interchange Protocol (NCIP – Z39.83) Implementation Group Website.
http://www.ncip.info/, (accessed 2010-07-16).
(34) “gettext”. GNU Project.
http://www.gnu.org/software/gettext/gettext.html, (accessed 2010-08-13).
(35) “Summon”. Serials Solutions.
http://www.serialssolutions.com/summon/, (accessed 2010-08-13).
(36) “Next-L Enju”. GitHub.
http://github.com/nabeta/next-l/, (accessed 2010-07-05).
(37) “国立国会図書館サーチ(開発版)のシステムについて”. 国立国会図書館.
http://iss.ndl.go.jp/information/system/, (参照 2010-08-23).
(38) Barnett, Jeffrey et al. “Investigating Multilingual, Multi-script Support in Lucene/Solr Library Applications”. Yale University Library. 2010-06-03.
https://collaborate.library.yale.edu/yufind/Shared%20Documents/Arcadia_External/Final_forOutsideDistribution.pdf, (accessed 2010-07-21).
(39) “EBSCO Publishing to acquire NetLibrary Division from OCLC”. OCLC. 2010-03-17.
http://www.oclc.org/news/releases/2010/201015.htm, (accessed 2010-08-13).
(40) “OCLC and ebrary sign agreement to add ebook records, links to WorldCat”. OCLC. 2010-06-24.
http://www.oclc.org/news/releases/2010/201037.htm, (accessed 2010-08-13).
(41) Tosho Ring.
https://tosho-ring.aichi-pu.ac.jp/opac/, (参照 2010-08-23).
(42) 春日井隆司. 特集, 大学図書館2009: 利用者の視点に立った図書検索システムの開発 : 新たなネットワークシステム(Tosho Ring)の構築を目指して. 図書館雑誌. 2009, 103(11), p. 759-761.
(43) ブクログ web本棚サービス.
http://booklog.jp/, (参照 2010-08-23).
片岡真. ディスカバリ・インターフェース(次世代OPAC)の実装と今後の展望. カレントアウェアネス. 2010, (305), CA1727, p. 11-15.
http://current.ndl.go.jp/ca1727