robots.txt (ロボッツ・テキスト)の問題点

時々Webサーバー上に格納された個人情報の流出が問題になったり致しますが、今回のコラムではrobots.txt (ロボッツ・テキスト)の問題点について書きます。

robots.txtとは簡単に書きますとサイトに巡回してきた検索エンジンのクローラーと呼ばれるロボットにこちらの意志を伝えるためのテキストファイルです。

例えば特定のデイレクトリを検索エンジンに情報収集して欲しくない時は、書き方は以下のような内容をメモ帳に書いてFTPでサーバーのルートに転送します。
Disallow:/hogehoge/
と書いておきますと/hogehoge/以下のコンテンツに関しては巡回致しません。

特定のファイル(ページ)を指定する場合は
Disallow:/hogehoge/xxxx.htm
特定の拡張子のみを巡回情報収集を拒否する場合は
Disallow:*.xxx   xxxは拡張子を指定

とまぁ見られたくないページですとか検索結果に出てきて欲しくないコンテンツをここで指定しておけば基本的には希望通りになるのですが、robots.txtファイルってのは Webサーバーのルート上に置いて有りまして、誰てもブラウザのアドレス欄にhttp://www.hogehoge.xx/robots.txt と入力致しましたら誰にでも見れてしまうわけです。

ですから例えば顧客の住所録を作って外出先でも営業マンが閲覧出来れば便利だし、携帯電話があれば外国にいても名刺入れも住所録も持ち歩く必要がないと考えて、Web上にアップしてrobots.txtで制限をかけたので一安心なんて・・事はなくて全然逆なのです。

何と言いますか鍵の掛からないポストの中に大事な書類の保管場所を書いて置いておくようなもので、どうぞお持ち帰り下さいといっているようなものではないでしょうか?

つまりrobots.txtってのはあくまで検索エンジンのクローラーに対して指示を与えるお願い事項をかいた紙を玄関に貼っておくような物ですから、完全に外部からのアクセスを遮断するのでしたら .htaccess(ドットエイチティーアクセス)なりを使ってベーシック認証でパスワードによる制限でもかけておかないと非常に危険なのです。

ただまぁそれでもWeb上に流出しては困るようなデーターは絶対に置いておかないのが一番の安全策なので有りまして、後になって流出に気がついても後の祭りで取り返しがつかないのです。