国立国会図書館さま

～Hadoopを活用し、大規模検索システムを構築～

国立国会図書館サーチは、国立国会図書館のポータルサイトとして運用しているシステムである。
全文検索（横断検索）、連想検索などさまざまな検索機能に加え、同一の本や関連する本の集約（書誌同定・グループ化、いわゆる名寄せ処理）やオンラインブックストア等へのリンクなど数多くの試みがなされている。
国会図書館サーチでは、書誌同定・グループ化処理（名寄せ処理）と全文検索インデックス作成処理でHadoopを利用。
大量の書誌データに対して、従来の処理方式で名寄せ処理を行うのは非常に時間が掛かる。
そこで、Hadoopを用いて名寄せ処理を高速化し、処理時間を短縮。
Hadoopを用いることで、大量データを扱う検索システムの構築が可能となった。

Hadoopクラスタ台数	データ量
30台＋ α	約5TB、書誌データ数千万件

国立国会図書館サーチでのHadoop活用について

技術評論社 gihyo.jp連載「エンタープライズビジネスを加速させるHadoop」第2回国内におけるHadoop活用事例（国立国会図書館サーチ） NTTデータ基盤システム事業本部猿田浩輔

国立国会図書館サーチはこちら：
https://iss.ndl.go.jp/

OSSソリューションについてはこちら：
https://www.nttdata.com/jp/ja/lineup/oss-solutions/

記事の内容に関するご依頼やご相談は、こちらからお問い合わせください。

お問い合わせ

記事の内容に関するご依頼やご相談は、
こちらからお問い合わせください。

お問い合わせ

About DATA INSIGHT

DATA INSIGHT は、NTT DATAの「知見」と「先見」を社会へ届けるメディアです。

Mail Magazine

注目の記事や新着情報などのお役立ち情報をお届けするメールマガジンを配信しています。
NTT DATAの最新動向や技術トレンド、イベント・セミナー情報などと併せて定期的にお届けします。

国立国会図書館さま

国立国会図書館サーチでのHadoop活用について

お問い合わせ

About DATA INSIGHT

「知見」と「先見」を届ける

関連ページ

コンサルティング

Mail Magazine

About Career