nlog(n): robots.txt 設置

Wed February 25, 2004

robots.txt 設置

ログを見てみると，検索エンジンのロボットは Googlebot だけではなく，inktomisearch.com, alexa.com, larbin, Naver, msn など数多い．大手検索エンジンの行儀のよいロボットは，最初に robots.txt を読む．robots.txt がないとApache がエラーをログに出力するので，あまり嬉しいことではない．エラーログ対策を兼ねてロボット制御を行う．

■ ■ ■

robots.txt の内容は，基本的にはアクセスされたくないディレクトリを記述する．エージェントを明記することで，どの検索エンジンのロボットを対象とするかを指定することもできる．全てのロボットであれば，エージェントは「*」とする．

User-agent: *
Disallow: /blogtimes/

User-agent: Googlebot
Disallow: *.JPG$

User-agent: searchpreview
Disallow: /

現在の設定は，インデックスは「/index.html」，アーカイブは「/archives/」以下に保存されるようにしているので，上記の設定により

全てのロボットは /blogtimes/ ディレクトリを読むな
Google のロボットは拡張子が .JPG のファイルを読むな
msn のロボットは全てのファイルを読むな
msn 以外のロボットは「/」と「/archives/」を読んでよい

となる．robots.txt により，ディレクトリ構成がバレるという話もあるが，もともとリンクされていないディレクトリをロボットは発見できないので，書いておく必要はない．ただし，どこか別のページからダイレクトにリンクされた場合は，隠しディレクトリ内の関連ページがすべて持っていかれる危険性は残る．

Google にはかなりのページ数がキャッシュされてしまっているが，これを削除したい．直接 Google で削除することもできるのだが，ここではロボットの力を借りて「ロボットが能動的にキャッシュを消す」という試みをしてみたい．それには，キャッシュから削除したいページのヘッダに

と書いておく必要がある．そのページのキャッシュを削除するのであれば，NOARCHIVE だけでもよいのだが，そのページ「だけ」しか削除されない．他のページもできるだけ削除して欲しいので，「FOLLOW」をつけてリンクをたどらせるようにする．robots.txt で /archives/ へのアクセスを禁止していない理由はこれである．アクセスしてくれなければ削除もしてくれないからである．

msn はインデックスページのプレビューをキャッシュする．これについては:::blog@pigeonblood.net:::: MSN検索のウザさが詳しい．

Posted by n at 2004-02-25 01:42 | Edit | Comments (0) | Trackback(0)

Trackbacks

「手違いで複数トラックバックを送ってしまった!」という場合でも気にしないでください (重複分はこちらで勝手に削除させていただきます)
タイムアウトエラーは，こちらのサーバの処理能力不足が原因です (詳細はトラックバック送信時のエラーをご覧ください)
トラックバックする記事には，この記事へのリンクを含めてください(詳細は迷惑トラックバック対策をご覧ください)

Comments