印刷用表示へ切り替え 通常表示へ切り替え 更新履歴を表示 更新履歴を隠す
misc robots.txt 設置

ログを見てみると,検索エンジンのロボットは Googlebot だけではなく,inktomisearch.com, alexa.com, larbin, Naver, msn など数多い.大手検索エンジンの行儀のよいロボットは,最初に robots.txt を読む.robots.txt がないとApache がエラーをログに出力するので,あまり嬉しいことではない.エラーログ対策を兼ねてロボット制御を行う.

■ ■ ■

robots.txt の内容は,基本的にはアクセスされたくないディレクトリを記述する.エージェントを明記することで,どの検索エンジンのロボットを対象とするかを指定することもできる.全てのロボットであれば,エージェントは「*」とする.

User-agent: *
Disallow: /blogtimes/

User-agent: Googlebot
Disallow: *.JPG$

User-agent: searchpreview
Disallow: /

現在の設定は,インデックスは「/index.html」,アーカイブは「/archives/」以下に保存されるようにしているので,上記の設定により

  • 全てのロボットは /blogtimes/ ディレクトリを読むな
  • Google のロボットは拡張子が .JPG のファイルを読むな
  • msn のロボットは全てのファイルを読むな
  • msn 以外のロボットは「/」と「/archives/」を読んでよい

となる.robots.txt により,ディレクトリ構成がバレるという話もあるが,もともとリンクされていないディレクトリをロボットは発見できないので,書いておく必要はない.ただし,どこか別のページからダイレクトにリンクされた場合は,隠しディレクトリ内の関連ページがすべて持っていかれる危険性は残る.

Google にはかなりのページ数がキャッシュされてしまっているが,これを削除したい.直接 Google で削除することもできるのだが,ここではロボットの力を借りて「ロボットが能動的にキャッシュを消す」という試みをしてみたい.それには,キャッシュから削除したいページのヘッダに

<meta name="robots" content="FOLLOW,NOARCHIVE" />

と書いておく必要がある.そのページのキャッシュを削除するのであれば,NOARCHIVE だけでもよいのだが,そのページ「だけ」しか削除されない.他のページもできるだけ削除して欲しいので,「FOLLOW」をつけてリンクをたどらせるようにする.robots.txt で /archives/ へのアクセスを禁止していない理由はこれである.アクセスしてくれなければ削除もしてくれないからである.

msn はインデックスページのプレビューをキャッシュする.これについては:::blog@pigeonblood.net:::: MSN検索のウザさが詳しい.

Posted by n at 2004-02-25 01:42 | Edit | Comments (0) | Trackback(0)
Trackbacks

  • 「手違いで複数トラックバックを送ってしまった!」という場合でも気にしないでください (重複分はこちらで勝手に削除させていただきます)
  • タイムアウトエラーは,こちらのサーバの処理能力不足が原因です (詳細は トラックバック送信時のエラー をご覧ください)
  • トラックバックする記事には,この記事へのリンクを含めてください(詳細は 迷惑トラックバック対策 をご覧ください)
Comments
Post a comment
  • 電子メールアドレスは必須ですが,表示されません (気になる場合は「メールアドレスのような」文字列でもOKです)
  • URL を入力した場合はリンクが張られます
  • コメント欄内ではタグは使えません
  • コメント欄内に URL を記入した場合は自動的にリンクに変換されます
  • コメント欄内の改行はそのまま改行となります
  • 「Confirmation Code」に表示されている数字を入力してください (迷惑コメント対策です)


(必須, 表示されます)


(必須, 表示されません)


(任意, リンクされます)


Confirmation Code (必須)


Remember info (R)?