Robots

ロボット機能

WWWではサーチインデックスを作成するために、定期的にインターネット内の WWWサーバのファイル検索を行うロボットと呼ばれる一種のワームプログラムがあります。主に、YAHOOや INFOSEEK等のようなWWWディレクトリサービスを提供しているサイトが、このプログラムを実行します。

ロボットは検索可能な範囲で WWW のドキュメントルート以下を探し回るので、 WWWサーバーに負荷がかかります。探し回る範囲を限定したい場合、 robots.txt というファイルを作成し、WWWのドキュメントルートに置きます。

User-agent: *
Disallow: /private/

User-agentはロボットの名前を指定し、指定されたロボット以外は受け付けないようにできます(* は全てのロボットを受け付けます)。 Disallowは検索されたくないディレクトリを指定します。全てのファイルを検索されたくない場合、Disallow: /とします。

ロボットについてのより詳しい情報を得たい人は、以下のURLを参照して下さい。

http://web.nexor.co.uk/mak/doc/robots/robots.html

ロボットの類は他にも様々に開発されています。

現在、インターネット内で動作しているロボットを知りたい方は次のURLを参照して下さい。

http://info.webcrawler.com/mak/projects/robots/active.html