久しぶりの、ブログ設定のメモのエントリー。MT5にした時のカスタマイズというか設定の内容です。
サーバの引越し前、MT4の時には、mt-search.cgiがエラーで、ブログ内検索も、同じタグをつけた記事の一覧ページも表示されないような状態になってしまってました。
ブラウザではサーバでのCGIのエラーが表示されてしまい、検索結果画面が表示されないのですが、mtのログにはsearchされたログが残っています。
このログの量が、スゴイ!1日で数千件!
MTのシステムログにはIPアドレスも表示されているので、それで調べてみるとgoogleとかyahooからクローラがガンガンアクセスしているようです。
以前使っていたサーバはxrea。異常に集中的にCGIが動作すると、そのプログラムは動き始めたらkillされるような記述を見かけたことがあるので(2.6のころに、トラックバックやコメントのスパムがひどかったころだと思うんですが、情報のソースは見つからないので、ほんとじゃないかも)、タグのページへのクローラのアクセスが多いmt-search.cgiが集中的にアクセスが多すぎるCGIとして、途中で止められているんじゃないかと疑ってました。
サーバの引越し後、まずGoogleのウェブマスターツールで巡回速度を遅くしてみました。すると、このスピードのせいで全部巡回できなかったみたいなメッセージがバンバン表示されてしまいます。ヤフーやその他の検索エンジン向けにもrobot.txtで巡回間隔を指定してみたけれど、MTのログの状況は好転しません。
ここは思い切って、タグの記事一覧ページはrobot.txtでクローラの巡回対象から外すようにしました。ブログ内検索、タグが使えることを優先し、その分のアクセスが減少したとしても構わないと割り切っての実行です。
検索エンジンの検索結果画面からは、タグの記事一覧ページへのアクセスも結構ありました。しかし、そのページへのアクセスにつながったキーワードはほとんどが、同じキーワードを含む個別記事ページが存在するものでした。そこで、タグの記事一覧ページが無くなったとしても、代わりに同じ文面の個別記事ページが出てくるだろうと判断。
サイトのボリュームがどうこう、インデックスされたURLの数がどうこういう方もおられますが、どうせ水増しされた
ページ、他のページのテキストの切り貼りなのは検索エンジン側も分かると思うので、こんな増やし方あまり効果もないだろう→減ったって影響はないだろうという気持ちもあります。
また、個別記事ページにないようなキーワードの組み合わせの場合、タグ一覧のページでたまたま組み合わさって出てきたとしても、役に立たない情報です。アクセス数の減にはなるけれど、アクセスしてきてこのブログにがっかりする人も減るということなので、それもよかろうと。
User-agent: *
Disallow: /mt/
Allow: /
mt-search.cgiだけ拒否すればいいんだけれど、もうmtディレクトリまるっと拒否にしておきました。
この結果、MTのログは1時間に1件ぐらいしか増えないような穏やかなものになり、意外にもというか半ば予想していたようにブログへのアクセス数には違いが感じられず、ということになりました。
また安心して、タグの絞り込みとかもう少し便利になるように調整できるなあ。そもそも、これをやってしまったのが、タグのキーワードの組み合わせたURLで凶悪なクロールになる原因だったと思うので。手をつけられなかったんですよね ><。