Robots.txt O ficheiro robots.txt destina-se a controlar o que determinado motor de busca pode ou não indexar, para criar um ficheiro robots.txt use um qualquer editor "notepad" "bloco de notas" ou outro qualquer, crie um ficheiro com o nome robots.txt. O conteúdo do ficheiro vai definir a limitação que os crawlers podem ter ao percorrer determinada URL. O ficheiro deve ser colocado na raiz.
Para excluir informação de todos os robots de todo a URL User-agent: * Disallow: /
Para permitir que todos os robots coloquem no índice toda a informação User-agent: * Disallow:
ou um ficheiro vazio "/robots.txt".
Para excluir os robots de uma parte do server. User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/
Para impedir que determinado spider percorra a página.
User-agent: BadBot Disallow: /
Para permitir apenas um determinado spider
User-agent: Googlebot Disallow:
User-agent: * Disallow: /
Para excluir ficheiros
De uma DIR
User-agent: * Disallow: /~bitpt/docs/
Ficheiros únicos que não queremos nos índices.
User-agent: * Disallow: /bitpt/privado.html Disallow: /bitpt/classifica.html Disallow: /~bitpt/bar.html
Ficheiros a começar com
User-agent: * Disallow: /bitpt/admin*
É particularmente importante salvaguardar que a informação sensível se encontre nos resultados dos motores de busca.
|