robots.txt から世界が見える?
2004年3月15日(月曜日)
robots.txt から世界が見える?
米NetContinum・Romer氏「システムはWebサービス技術で複雑化した」 (enterprise.watch.impress.co.jp)。
またロボット型検索エンジンに対する命令を記述するため、ホスト直下に置かれている「robot.txt」には、サイト内のディレクトリが記されている場合があり、。本来は不可視の部分が見えることで、アクセス制御されていなければ情報の取得が可能になってしまうことも示された。
「あり、。」という謎の句読点の連続はまあ愛嬌として、「robot.txt」は「robots.txt」が正解ですね。たまに間違って解説されていることがありますので要注意。s が無いだけで読んでもらえませんので……。
それはさておいて、robots.txt の情報からディレクトリが分かってしまう、というのは面白いと思いました。robots.txt でアクセス拒否しているディレクトリというのは、「見える」かつ「見せたくない」ディレクトリである場合が多いでしょう。そんな場合、普通はアクセス制限しますけれど……今までの経験からすると、この「普通は」というのはなかなかの曲者です。
※「普通はこんなことしないよね」「普通は気づくよね」という会話が何度繰り返されたことか。
あんまり関係ない話ですが、私の手元では「どのリソースも 401 なんだけど、ロボットに無駄な努力をさせないために robots.txt を置いている」というケースがあります。これ、単純に全リソースに Basic 認証をかけると robots.txt も 401 になってしまって、肝心のロボットが /robots/txt を読めないという間抜けなことになってしまいます。そこでわざわざ /robots.txt だけが Authorization なしで読めるように設定したという……。
- 「robots.txt から世界が見える?」へのコメント (5件)
関連する話題: セキュリティ
- 前(古い): また急須が
- 次(新しい): レッサーデーモン撃破