nlog(n): 国立国会図書館の巡回ロボット

Thu December 23, 2004

国立国会図書館の巡回ロボット

ndl-japan-research-robot-1.0 というエージェント名を持つロボットが巡回に来はじめた。国立国会図書館の調査だという。

■ ■ ■

ログには、次のように記録されている。

202.217.35.20 - - [23/Dec/2004:18:54:48 +0900] "GET /archives/000324.html HTTP/1.1" 200 13171 "http://nlogn.ath.cx/archives/cat_misc.html" "ndl-japan-research-robot-1.0 (http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html)(http://e-public.nttdata.co.jp/bulkresearch2004/index.html)"

アクセス元が IP アドレス表示になっている。公式な調査であるなら、FQDN (ホスト名) も割り当てた方がいいのではないだろうか? アクセスは 30 秒に1回なので、サーバに大きな負荷がかかることはない。

国立国会図書館: 「デジタルアーカイブのための日本のウェブサイトの実態調査」のお知らせ

[目的]
　インターネット上に存在する電子情報は、近年、急速に増大しており、また、後世に残すべき「文化財」としての重要性も高まっています。しかし、ウェブ情報は、日々更新されており、歴史的観点から見て貴重な情報が記録されることなく消滅する危険性に直面しています。そこで、国立国会図書館では、将来、これら消え行くウェブ情報を収集・保存し後世に残すことを計画しております。今回は、その実施可能性や方法の検討を行うため、実態調査を実施いたします。

同ページには、このロボットが正しい動作をするということを謳っている。実際の調査は、NTT データが担当しているとある。エージェント名の後ろの方にある、NTT データのサイトにも同じ記述がある。

NTT データ: デジタルアーカイブのための日本のWebサイトの実態調査のお知らせ

2004年12月25日追記:
このクローラ(巡回ロボット)のアクセスは丸1日以上も続いていて、少し邪魔。