投稿

ラベル(robots.txt)が付いた投稿を表示しています

Translate

SEO対策最初の設定 - robots.txt

SEO対策最初の設定 - robots.txt robots.txt とは  クローラーと呼ばれる、サイトの巡回してインデックス登録してくれる機能に対して、クロールされるサイトの巡回して良い場所、ダメな場所等を通知してあげる為の設定みたいなもの。  要約すると:検索エンジンに載せて良いサイト、載せてはいけないサイトを定義する事。  ※クローラーによっては、これを無視してクロール、インデックス登録してくるものもあるので注意が必要 一番最初にする設定 User-agent: * Disallow: User-agent は対象とするクローラの事。 例えば日本だと、Google、Bingが有名。 Disallow は、サイトのディレクトリ(URL)を指定します。 例 User-agent: * Disallow:/example/ こうすると、http://anysite というサイトがあったとして・・・ User-agent:*      全てのクローラーは Disallow:/example/    http://anysite/example へのアクセスは許可しない というような解釈となる。 (逆に言うと、http://anysite/exmaple 以外は全てインデックスして良い となる) が、行儀の良いクローラーには有効だけれども、行儀の悪いクローラーはそもそもrobots.txtの定義など関係なくスクレイピングして、インデックス登録するものもあるので、SEO対策的な意味で使うのが良い。 少し、スクレイピングについて書いたけれど、そもそも昨今、違法コピーが横行して、サイトにサイトにバンバン上がっているコンテンツは、この悪意を持ったスクレいピンによるものが多い。 実際、無法にスクレイピングするサイトには意味が無いのだけれども、意思表示的な設定はあるので、機会があれば、そっちも取り上げたいと思う。