ログを見てみると,検索エンジンのロボットは Googlebot だけではなく,inktomisearch.com, alexa.com, larbin, Naver, msn など数多い.大手検索エンジンの行儀のよいロボットは,最初に robots.txt を読む.robots.txt がないとApache がエラーをログに出力するので,あまり嬉しいことではない.エラーログ対策を兼ねてロボット制御を行う.
robots.txt の内容は,基本的にはアクセスされたくないディレクトリを記述する.エージェントを明記することで,どの検索エンジンのロボットを対象とするかを指定することもできる.全てのロボットであれば,エージェントは「*」とする.
現在の設定は,インデックスは「/index.html」,アーカイブは「/archives/」以下に保存されるようにしているので,上記の設定により
となる.robots.txt により,ディレクトリ構成がバレるという話もあるが,もともとリンクされていないディレクトリをロボットは発見できないので,書いておく必要はない.ただし,どこか別のページからダイレクトにリンクされた場合は,隠しディレクトリ内の関連ページがすべて持っていかれる危険性は残る.
Google にはかなりのページ数がキャッシュされてしまっているが,これを削除したい.直接 Google で削除することもできるのだが,ここではロボットの力を借りて「ロボットが能動的にキャッシュを消す」という試みをしてみたい.それには,キャッシュから削除したいページのヘッダに
と書いておく必要がある.そのページのキャッシュを削除するのであれば,NOARCHIVE だけでもよいのだが,そのページ「だけ」しか削除されない.他のページもできるだけ削除して欲しいので,「FOLLOW」をつけてリンクをたどらせるようにする.robots.txt で /archives/ へのアクセスを禁止していない理由はこれである.アクセスしてくれなければ削除もしてくれないからである.
msn はインデックスページのプレビューをキャッシュする.これについては:::blog@pigeonblood.net:::: MSN検索のウザさが詳しい.
Posted by n at 2004-02-25 01:42 | Edit | Comments (0) | Trackback(0)
Master Archive Index
Total Entry Count: 1957