Diversas técnicas são aplicadas para fazer com que o site de seus clientes seja melhor rastreado pelo Google, e com isto ter a indexação total de suas páginas e conteúdo, através de ações onpage e off-page como a melhoria de conteúdo, geração de links, tags, otimização de imagens, Robots.txt, etc.
Hoje vamos falar um pouco mais sobre o arquivo chamado Robots.txt, que tem uma boa relevância para SEO e se configurado de forma errada, pode acabar te prejudicando junto aos buscadores.
O que é o Robots.txt?
Robots.txt é um arquivo de texto que é usado para instruir os robôs/spiders utilizados pelos mecanismos de buscas (como Google e Bing) a como rastrear e indexar as páginas de seu site. O arquivo robots.txt é colocado no diretório principal de seu site para que estes robôs possam acessar estas informações de forma imediata.
Para evitar que cada mecanismo de pesquisa defina regras específicas para seus crowlers, eles obedecem um padrão chamado REP – Robots Exclusion Protocol (Protocolo de Exclusão de Robots), criado em 1994 e sua última modificação foi em 2005.
Como os arquivos robots.txt fornecem aos bots de pesquisa instruções sobre como rastrear ou como não rastrear certas partes do site, saber como usar e configurar esses arquivos torna-se vital para qualquer profissional de SEO. Se um arquivo robots.txt estiver configurado incorretamente, ele pode causar vários erros de indexação. Então, toda vez que você iniciar uma nova campanha de SEO, verifique seu arquivo robots.txt com a ferramenta de teste de robots do Google.
Os arquivos Robots.txt podem ser usados para excluir determinados diretórios da SERP de todos os mecanismos de pesquisa. Para isto, se usa a propriedade “disallow”.
Por que o robots.txt é importante?
O robots.txt desempenha um papel fundamental no SEO e na otimização de um site. Ele permite que os webmasters indiquem quais partes do site devem ser acessíveis aos robôs de busca e quais devem ser protegidas. Isso ajuda a controlar como as páginas são rastreadas e indexadas pelos mecanismos de busca, evitando a indexação de conteúdo duplicado, páginas sensíveis ou áreas restritas do site.
Usando Robots para “Esconder” seu Conteúdo
Os arquivos Robots.txt podem ser usados para excluir determinados diretórios da SERP de todos os mecanismos de pesquisa. Para isto, se usa a propriedade “disallow”.
Aqui estão algumas páginas que você deve ocultar usando um arquivo robots.txt:
- Páginas com conteúdo duplicado
- Páginas de paginação
- Páginas de agradecimento
- Páginas de Carrinho de Compras
- Páginas de Administração
- Chats
- Páginas com informações de conta
- Páginas dinâmicas de produtos e serviços (que variam muito)
No entanto, não esqueça que qualquer arquivo robots.txt está disponível publicamente na internet. Para acessar um arquivo robots.txt, basta digitar:
www.meu-site.com.br/robots.txt
Sintaxe do arquivo robots.txt
O arquivo robots.txt segue uma sintaxe específica para definir as regras de rastreamento. Cada diretiva é composta por uma linha que contém o nome da diretiva seguido por um ou mais valores. As diretivas podem ser combinadas para formar regras mais complexas. A seguir, estão alguns elementos importantes da sintaxe do arquivo robots.txt:
- User-agent: Especifica para qual robô de busca a regra se aplica.
- Disallow: Indica quais URLs devem ser evitadas pelos robôs de busca.
- Allow: Indica quais URLs podem ser acessadas pelos robôs de busca.
- Sitemap: Especifica a localização do sitemap XML do site.
Como criar um arquivo robots.txt
Para criar um arquivo robots.txt, você pode utilizar um editor de texto simples, como o Bloco de Notas. Siga as etapas abaixo para criar o arquivo corretamente:
- Abra um editor de texto em branco.
- Insira as diretivas necessárias para controlar o rastreamento dos robôs de busca.
- Salve o arquivo com o nome “robots.txt”.
- Faça o upload do arquivo para a raiz do seu domínio.
Principais diretivas do robots.txt
Existem várias diretivas que podem ser usadas no arquivo robots.txt para controlar o comportamento dos robôs de busca. As principais diretivas incluem:
- User-agent: Especifica para qual robô de busca a regra se aplica.
- Disallow: Indica quais URLs devem ser evitadas pelos robôs de busca.
- Allow: Indica quais URLs podem ser acessadas pelos robôs de busca.
- Sitemap: Especifica a localização do sitemap XML do site.
- Crawl-delay: Define um intervalo de tempo mínimo entre as solicitações do robô de busca.
- User-agent: * (curinga): Aplica a diretiva a todos os robôs de busca.
Como usar o Robots.txt
Os arquivos Robots.txt permitem uma vasta opção de configurações. Seu principal benefício, no entanto, é que eles permitem que os especialistas em SEO “permitam” (allow) ou “desaprovem” (disallow) várias páginas de uma vez sem ter que acessar o código de cada página, um por um.
Por exemplo, você pode bloquear todos os rastreadores de pesquisa com este comando:
User-agent: *
Disallow: /
Ou esconder a estrutura de seu site e categorias específicas:
User-agent: *
Disallow: /no-index/
Também podemos excluir diversas páginas da pesquisa. Basta esconder estas páginas dos crowlers com o comando “disallow”:
Algo útil de se trabalhar com robots.txt é que ele permite priorizar certas páginas, categorias e até mesmo pedaços de código CSS e JS. Dê uma olhada no exemplo abaixo:
No exemplo, não permitimos páginas WordPress e categorias específicas, mas arquivos de conteúdo wp, plugins JS, estilos CSS e blog estão permitidos. Esta abordagem garante que os robôs rastreiem e indexem códigos e categorias úteis.
Principais comandos para o Robots.txt
Antes de terminar esta postagem, listarei os principais comandos e funções para que você possa configurar seu robots.txt em qualquer editor de texto:
Para indexar todo o conteúdo:
User-agent: *
Disallow:
ou
User-agent: *
Allow: /
Para não indexar todo o conteúdo
User-agent: *
Disallow: /
Para não indexar uma pasta específica
User-agent: *
Disallow: /pasta/
Para o Googlebot não indexar uma pasta, mas permitir a indexação de um arquivo desta pasta
User-agent: Googlebot
Disallow: /pasta1/
Allow: /pasta1/minha-pagina.html
Bloquear o acesso a diretórios específicos:
User-agent: *
Disallow: /admin/
Disallow: /private/
Permitir o acesso a diretórios específicos:
User-agent: *
Disallow:
Disallow: /admin/
Disallow: /private/
Diretivas avançadas do robots.txt
Além das diretivas básicas, o arquivo robots.txt também suporta diretivas avançadas que podem fornecer controle mais detalhado sobre o rastreamento dos robôs de busca. Algumas diretivas avançadas incluem:
- Noindex: Instrui os robôs de busca a não indexarem a página.
- Nofollow: Instrui os robôs de busca a não seguirem os links da página.
- Noarchive: Impede que o robô de busca armazene em cache uma versão em cache da página.
- Nosnippet: Impede que o robô de busca exiba snippets da página nos resultados de pesquisa.
- Host: Especifica o host preferido para o domínio.
Erros comuns no uso do robots.txt
Ao utilizar o arquivo robots.txt, é importante evitar alguns erros comuns que podem afetar a indexação do seu site pelos robôs de busca. Alguns erros comuns incluem:
- Bloquear acidentalmente o acesso de robôs de busca a todo o site.
- Esquecer de adicionar uma barra “/” no final de um diretório.
- Usar diretivas conflitantes que confundem os robôs de busca.
- Especificar caminhos errados para o sitemap XML.
- Não verificar regularmente o arquivo robots.txt para garantir sua integridade e precisão.
Testando o arquivo robots.txt
Após criar o arquivo robots.txt, é importante testá-lo para garantir que esteja funcionando corretamente. Existem várias ferramentas disponíveis que podem ajudar nesse processo. Algumas opções populares incluem:
- Ferramenta de teste de robots.txt do Google Search Console.
- Ferramenta de testes de robots.txt do Bing Webmaster Tools.
- Ferramenta de análise de robots.txt do Screaming Frog.
Robots.txt para SEO: Melhores práticas
Para otimizar o uso do robots.txt para SEO, é recomendável seguir algumas melhores práticas:
- Seja específico e preciso ao definir as regras de rastreamento.
- Evite bloquear o acesso a conteúdo relevante para os mecanismos de busca.
- Use o sitemap XML para ajudar os robôs de busca a descobrirem e indexarem seu conteúdo.
- Verifique regularmente o arquivo robots.txt em busca de erros e problemas.
- Acompanhe e analise o comportamento dos robôs de busca usando ferramentas apropriadas.
Robots.txt e indexação de conteúdo
O arquivo robots.txt desempenha um papel crucial na indexação de conteúdo pelos robôs de busca. Ao usar diretivas adequadas, você pode controlar quais páginas e seções do seu site devem ser indexadas. Isso é especialmente útil quando há conteúdo duplicado, páginas sensíveis ou áreas restritas que devem ser excluídas dos resultados de pesquisa.
Rastreamento de links
Os robôs de busca usam o arquivo robots.txt para determinar quais links devem ser seguidos e quais devem ser ignorados durante o processo de rastreamento. Ao definir corretamente as regras no arquivo robots.txt, você pode controlar como os robôs de busca exploram e rastreiam os links em seu site. Isso ajuda a direcionar o rastreamento para áreas específicas do site, evitando o desperdício de recursos de rastreamento em links irrelevantes ou desnecessários.
Rastreamento de imagens
As imagens são um elemento importante em muitos sites, e o arquivo robots.txt pode ser usado para controlar o rastreamento de imagens pelos robôs de busca. Ao especificar as regras corretas no arquivo robots.txt, você pode permitir ou bloquear o acesso dos robôs de busca a diretórios ou imagens específicas. Isso ajuda a garantir que apenas as imagens relevantes sejam indexadas e exibidas nos resultados de pesquisa.
Rastreamento de vídeos
Da mesma forma que o rastreamento de imagens, o arquivo robots.txt também pode ser usado para controlar o rastreamento de vídeos pelos robôs de busca. Ao definir as regras corretas no arquivo robots.txt, você pode permitir ou bloquear o acesso dos robôs de busca a diretórios ou vídeos específicos. Isso é útil para direcionar o rastreamento para vídeos relevantes e controlar o conteúdo que é exibido nos resultados de pesquisa.
Rastreamento de CSS e JS
Os arquivos CSS e JavaScript desempenham um papel importante no design e funcionalidade de um site. No entanto, em alguns casos, pode ser desejável bloquear o rastreamento desses arquivos pelos robôs de busca para evitar problemas de segurança ou melhorar o desempenho. O arquivo robots.txt pode ser usado para controlar o rastreamento de CSS e JS, permitindo ou bloqueando o acesso a esses arquivos conforme necessário.
Robots.txt e sitemap.xml
O arquivo robots.txt e o sitemap XML são duas ferramentas diferentes, mas complementares, para otimizar a indexação do seu site pelos robôs de busca. Enquanto o arquivo robots.txt controla o rastreamento e a acessibilidade de páginas e diretórios, o sitemap XML fornece uma lista estruturada de URLs que devem ser rastreadas e indexadas. É recomendável incluir um link para o sitemap XML no arquivo robots.txt para ajudar os robôs de busca a descobrirem e indexarem seu conteúdo de forma eficiente.
Páginas não indexáveis
Existem algumas situações em que você pode não querer que certas páginas sejam indexadas pelos robôs de busca. Isso pode incluir páginas de teste, páginas de login, páginas de agradecimento de formulário, entre outras. O arquivo robots.txt pode ser usado para instruir os robôs de busca a não indexarem essas páginas, evitando que elas apareçam nos resultados de pesquisa.
Páginas bloqueadas
Em algumas situações, pode ser necessário bloquear completamente o acesso de robôs de busca a determinadas páginas ou diretórios. Isso pode ser feito usando a diretiva “Disallow” no arquivo robots.txt. Ao bloquear o acesso, você pode garantir que o conteúdo sensível, privado ou restrito não seja rastreado e indexado pelos mecanismos de busca.
Robots.txt e penalidades do Google
O Google leva em consideração o arquivo robots.txt ao rastrear e indexar um site. Se o arquivo robots.txt contiver erros ou instruções incorretas, isso pode levar a penalidades e afetar negativamente a visibilidade do seu site nos resultados de pesquisa. É importante verificar regularmente o arquivo robots.txt para garantir que esteja configurado corretamente e em conformidade com as diretrizes do Google.
Outros mecanismos de busca
Embora o Google seja o mecanismo de busca mais popular, existem outros mecanismos de busca, como o Bing e o Yahoo, que também levam em consideração o arquivo robots.txt ao rastrear e indexar um site. É importante garantir que o arquivo robots.txt esteja configurado corretamente para atender aos requisitos de rastreamento de todos os principais mecanismos de busca.
Robots.txt e crawl budget
O crawl budget refere-se à quantidade de recursos de rastreamento que um mecanismo de busca está disposto a gastar em um determinado site. O arquivo robots.txt pode influenciar o crawl budget direcionando o rastreamento para áreas específicas do site e evitando o rastreamento de conteúdo irrelevante. Ao otimizar o arquivo robots.txt, você pode ajudar a garantir que os recursos de rastreamento sejam alocados de forma eficiente e direcionados para as páginas mais importantes do seu site.
Ferramentas úteis para análise do robots.txt
Existem várias ferramentas disponíveis que podem ajudar na análise e verificação do arquivo robots.txt. Essas ferramentas fornecem insights valiosos sobre como os robôs de busca interpretam as regras definidas no arquivo e se há erros ou problemas que precisam ser corrigidos. Algumas ferramentas úteis incluem:
- Google Search Console
- Bing Webmaster Tools
- Screaming Frog SEO Spider
Concluindo
O arquivo robots.txt é uma ferramenta poderosa para controlar o rastreamento e a indexação de um site pelos robôs de busca. Ao usar corretamente o arquivo robots.txt, você pode direcionar o rastreamento para as partes mais importantes do seu site, evitar a indexação de conteúdo irrelevante e proteger áreas sensíveis. Lembre-se de seguir as melhores práticas de SEO ao criar e atualizar o arquivo robots.txt, e verifique regularmente se ele está configurado corretamente. Com uma configuração adequada do arquivo robots.txt, você pode melhorar a visibilidade e o desempenho do seu site nos mecanismos de busca.
O domínio dos robots.txt pode ser um fator muito importante para o sucesso ou fracasso de sua estratégia de SEO. Mas além dos arquivos textos, podemos trabalhar com os autorização dos robôs diretamente em nossas páginas com as meta tags robots.
Precisando do serviço de um especialista em SEO? Entre em contato.