SEO対策最初の設定 - robots.txt
SEO対策最初の設定 - robots.txt
robots.txt とは
クローラーと呼ばれる、サイトの巡回してインデックス登録してくれる機能に対して、クロールされるサイトの巡回して良い場所、ダメな場所等を通知してあげる為の設定みたいなもの。
要約すると:検索エンジンに載せて良いサイト、載せてはいけないサイトを定義する事。
※クローラーによっては、これを無視してクロール、インデックス登録してくるものもあるので注意が必要
一番最初にする設定
User-agent: *
Disallow:
Disallow:
User-agentは対象とするクローラの事。
例えば日本だと、Google、Bingが有名。
Disallowは、サイトのディレクトリ(URL)を指定します。
例
User-agent: *
Disallow:/example/
こうすると、http://anysite というサイトがあったとして・・・
User-agent:* 全てのクローラーは
Disallow:/example/ http://anysite/example へのアクセスは許可しない
というような解釈となる。
(逆に言うと、http://anysite/exmaple 以外は全てインデックスして良い となる)
が、行儀の良いクローラーには有効だけれども、行儀の悪いクローラーはそもそもrobots.txtの定義など関係なくスクレイピングして、インデックス登録するものもあるので、SEO対策的な意味で使うのが良い。
少し、スクレイピングについて書いたけれど、そもそも昨今、違法コピーが横行して、サイトにサイトにバンバン上がっているコンテンツは、この悪意を持ったスクレいピンによるものが多い。
実際、無法にスクレイピングするサイトには意味が無いのだけれども、意思表示的な設定はあるので、機会があれば、そっちも取り上げたいと思う。