アカウント名:
パスワード:
User-agent: *Crawl-delay: 10# Directories# 2015.08.17 ADD startDisallow: /
https://ebina.city-library.jp/library/robots.txt [city-library.jp]
お断りします
なんか、嫌な雰囲気な robots.txt ですね。
Disallow: /cron.phpDisallow: /INSTALL.mysql.txtDisallow: /INSTALL.pgsql.txtDisallow: /INSTALL.sqlite.txtDisallow: /install.phpDisallow: /INSTALL.txtDisallow: /MAINTAINERS.txtDisallow: /update.phpDisallow: /UPGRADE.txtDisallow: /xmlrpc.phpDisallow: /admin/Disallow: /?q=admin/
あたりは、管理用のプログラム等だと思われますが、robots.txt でクロールを拒否する以前に、そもそもWeb公開用のディレクトリ(public_html)以下に置くべきものではありません。アクセス時に適切に認証を要求していたとしても cron.php は余計だし、ルートに install.php なんてのを設置しているのはセンスを疑います。
User-agent: *Crawl-delay: 10
については、動的ページの過剰クロールでダウンしないようにするためだと思われますが、検索エンジン事によって単位が分だったり秒だったりする [xrea.com]ので、アスタリスクで全ロボットに対して一律に記述するのは不適切です。
設置場所がroot [city-library.jp]ではなくサブディレクトリ [city-library.jp]なのも駄目ですね。
>なんか、嫌な雰囲気な robots.txt ですね。
おそらく、それはDrupal付属の robots.txt です。https://api.drupal.org/api/drupal/robots.txt/7 [drupal.org]
#「This file is to prevent the crawling and indexing of certain parts」で検索したら引っ掛かった。
>設置場所がrootではなくサブディレクトリなのも駄目ですね。
サブディレクトリにある理由は、単にDrupalの配置先にDrupal付属の robots.txt があるってだけで、サイト製作者が作って置いたものではない様子。
なので、私は件のサイトには検索避けの robots.txt は置かれていないと判断します。
おそらく、それはDrupal付属の robots.txt です。 サブディレクトリにある理由は、単にDrupalの配置先にDrupal付属の robots.txt があるってだけで、サイト製作者が作って置いたものではない様子。
なるほど。
サイト管理者が意図して設置したわけではなく、CMSのパッケージに含まれていた robots.txt をそのままアップロードしただけでしたか。
ところで Drupal って設定ファイルの場所を変更できないの?コンテンツフォルダ配下に置くってデンジャラス過ぎるでしょう。
Apacheのアップデートしたときに、PHP がそのまま表示されちゃうとかいう落ちは勘弁。
これって「国立国会図書館法によるインターネット資料の収集」はできるのかな?
robots.txtって置いてあるだけだもん
サブディレクトリに置かれたrobots.txtがサブディレクトリに置くなって警告してくれてる
# This file will be ignored unless it is at the root of your host:# Used: http://example.com/robots.txt# Ignored: http://example.com/site/robots.txt
この三行のほうが面白い。
まぁ既にコメントついてる通り、サンプル的なファイルだから制限の意図も意味もなさ気ですが。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー
検索サイト (スコア:0)
Re: (スコア:0)
https://ebina.city-library.jp/library/robots.txt [city-library.jp]
お断りします
嫌な雰囲気な robots.txt ですね (スコア:3)
なんか、嫌な雰囲気な robots.txt ですね。
あたりは、管理用のプログラム等だと思われますが、robots.txt でクロールを拒否する以前に、そもそもWeb公開用のディレクトリ(public_html)以下に置くべきものではありません。アクセス時に適切に認証を要求していたとしても cron.php は余計だし、ルートに install.php なんてのを設置しているのはセンスを疑います。
については、動的ページの過剰クロールでダウンしないようにするためだと思われますが、検索エンジン事によって単位が分だったり秒だったりする [xrea.com]ので、アスタリスクで全ロボットに対して一律に記述するのは不適切です。
設置場所がroot [city-library.jp]ではなくサブディレクトリ [city-library.jp]なのも駄目ですね。
Re:嫌な雰囲気な robots.txt ですね (スコア:4, 参考になる)
>なんか、嫌な雰囲気な robots.txt ですね。
おそらく、それはDrupal付属の robots.txt です。
https://api.drupal.org/api/drupal/robots.txt/7 [drupal.org]
#「This file is to prevent the crawling and indexing of certain parts」で検索したら引っ掛かった。
>設置場所がrootではなくサブディレクトリなのも駄目ですね。
サブディレクトリにある理由は、単にDrupalの配置先にDrupal付属の robots.txt があるってだけで、サイト製作者が作って置いたものではない様子。
なので、私は件のサイトには検索避けの robots.txt は置かれていないと判断します。
Re:嫌な雰囲気な robots.txt ですね (スコア:2)
なるほど。
サイト管理者が意図して設置したわけではなく、CMSのパッケージに含まれていた robots.txt をそのままアップロードしただけでしたか。
Re: (スコア:0)
ところで Drupal って設定ファイルの場所を変更できないの?
コンテンツフォルダ配下に置くってデンジャラス過ぎるでしょう。
Apacheのアップデートしたときに、
PHP がそのまま表示されちゃうとかいう落ちは勘弁。
Re: (スコア:0)
これって「国立国会図書館法によるインターネット資料の収集」は
できるのかな?
Re: (スコア:0)
robots.txtって置いてあるだけだもん
Re: (スコア:0)
サブディレクトリに置かれたrobots.txtがサブディレクトリに置くなって警告してくれてる
この三行のほうが面白い。
まぁ既にコメントついてる通り、サンプル的なファイルだから制限の意図も意味もなさ気ですが。