Saiba por que o robots.txt deve ser usado no seu site e como configurá-lo da forma correta!

Avatar Autor
Publicado por Marcelo Fortes em 8 de setembro de 2021
Atualizado em 10 de setembro de 2021

Analista de SEO na INGAGE, Marcelo é responsável pela área de SEO, atuando na parte técnica, estratégica e auxiliando o time de Conteúdo com planejamento de ações.

Atrair tráfego orgânico para suas páginas é um dos principais objetivos do plano de marketing das empresas. Os mais distintos ramos se beneficiam desse investimento, que reduz os custos de divulgação, contribui para a segmentação de leads e dá maior visibilidade à marca.

Entre os recursos que favorecem esse cenário está o SEO, também conhecida como otimização de páginas.

Mas sabemos bem da existência de páginas que não precisam de rastreamento dentro do site. É o caso das páginas de login, por exemplo. A solução para isso é o uso do robots.txt, que evita a sobrecarga de requisições dos motores de busca.

A seguir, você acompanha insights sobre o robots.txt para as estratégias das suas páginas web.

O que é um robots.txt?

O robots.txt é um arquivo que se localiza na pasta raiz de qualquer site, com comandos direcionados aos crawlers dos motores de busca. Ele indica quais páginas devem ser rastreadas ou ocultadas, sem prejuízos ao seu ranqueamento.

Para sites com objetivos comerciais, não é interessante indexar todas as páginas em detalhes. Isso não garante que elas jamais serão encontradas pelos usuários mais curiosos. O intuito, de fato, é facilitar o trabalho desses bots de busca.

Ainda que as páginas fiquem ocultas, é possível acessar os robots.txt de forma simples, inserindo /robots.txt ao fim da URL de um site. Por exemplo: https://www.google.com/robots.txt

Essa consulta pode servir de benchmarking para a organização do sitemap do seu negócio. Dessa forma, você confere quais são as pastas criadas pelos seus concorrentes e avalia como construir o seu robots.txt.

Por outro lado, vale lembrar que, assim como você pode acessar esses arquivos de terceiros, outras pessoas também conseguem visualizar suas pastas robots.txt. Portanto, documentos confidenciais ou pessoais não devem ser incluídos sem métodos de proteção – como é o caso da Meta Tag Robots.

Como funciona o robots.txt?

Tendo em vista que os arquivos estão em formato .txt, é possível construí-los em um simples bloco de notas. Isso significa que a sua produção não requer ferramentas ou outros tipos de plataformas.

Há que se prestar atenção também na sintaxe desses arquivos, a fim de criar uma política de acesso mais eficiente. Basicamente, funciona da seguinte forma:

  • user-agent: indicam quais mecanismos de buscas seguirão as políticas do seu arquivo. Por exemplo, ao usar “user-agent: Googlebot”, você está segmentando os comandos aos robôs do Google;
  • disallow: indica as páginas ou diretórios que não aparecerão no índice, de acordo com suas características. Por exemplo “Disallow: /prod”;
  • allow: já aqui são as páginas ou diretórios a serem indexados.

Vimos que as páginas de login são um exemplo que não requer a indexação. Afinal, somente os colaboradores do seu negócio devem ter acesso a elas. O mesmo acontece com conteúdos duplicados necessários, como as versões para impressão. A definição depende da organização característica de cada site.

Ainda é possível utilizar os diretivos noindex e nofollow. Eles servem para que os bots não visitem e indexem determinada página escolhida e não rastreiem os links, respectivamente.

Há também os Regex (Regular Expressions ou expressões regulares), que são representações de um padrão de caracteres. Os mais comuns são “*” e “*termo*”. O primeiro indica que tudo deve ser lido, enquanto o segundo limita a leitura aos trechos que contenham o termo em questão.

Por que criar um robots.txt?

Imagem de um alvo com dardo no centro e a palavra "SEO" para representar robots.txt

Entre os principais motivos para a criação de robots.txt, temos a indexação. Quando você indica aos crawlers o que deseja que seja rastreado, facilita o processo e reduz o trabalho com páginas desnecessárias. Novamente, evita que percam tempo no que não aparecerá em buscas orgânicas.

Um rastreamento ágil e rápido contribui para que os crawlers não atinjam o tempo limite de trabalho. Você dá o direcionamento certeiro, eles entram no site e só vasculham o que deve ser indexado mais facilmente.

Outro uso tem relação com os arquivos de imagem de seu site. Alguns deles são ativos valiosos das suas campanhas, como o caso de infográficos e artes com informações técnicas de produtos. Se um usuário os acessa pelos buscadores, pode não ser direcionado ao site, o que não é interessante para seu negócio.

Também há que se considerar o uso de servidores em seu site. Quando há buscas simultâneas em páginas desnecessárias, esses recursos ficam sobrecarregados e, consequentemente, causam prejuízos ao orçamento do negócio. Bons exemplos são famílias de fontes e estilos, classes menos usadas e assim por diante.

Quais são os cuidados necessários na criação de robots.txt?

Vale considerar a parceria de uma empresa especializada na criação dos robots.txt do seu site, sobretudo pela eficiência do SEO. Afinal, certas informações quando ocultas podem provocar impactos ao carregamento das páginas, tornando-as mais lentas do que o esperado.

Lembrando que a lentidão no carregamento do site é um dos fatores prejudiciais ao ranqueamento nos motores de busca. Os crawlers podem entender que suas páginas não são tão relevantes para aparecer nas primeiras posições da SERP. Em efeito cascata, seus esforços em otimização são minimizados.

Para saber se há eficiência no seu investimento, é preciso analisar o Crawl Budget do site. Quando o índice é baixo, quer dizer que os bots levam pouco tempo para renderizarem e indexarem as suas páginas. Do contrário, há a necessidade de rever a criação do robots.txt.

Antes de dar o assunto como encerrado, ainda é válido fazer testes de qualidade nos seus arquivos. Para isso, vale consultar o Google Search Console ou ferramentas específicas a essa finalidade.

Por fim, tenha em mente que o robots.txt deve ser atualizado com boa frequência para o melhor funcionamento de seu site. Isso acontece porque determinadas páginas podem ser criadas ou excluídas, por exemplo. Além disso, suas estratégias também mudam, o que significa alterar as políticas de criação desses arquivos.

O robots.txt, então, é um arquivo que permite ocultar algumas páginas do seu site nas quais você não deseja o rastreamento dos mecanismos de busca. Como a criação é simples e sem complicações, suas estratégias de SEO terão muito a se beneficiar com essa prática.

Otimizar as suas páginas pode ser mais simples do que se imagina. Convidamos você a seguir para o próximo conteúdo, em que falamos sobre sitemap!

Mini Logo Ingage

Agência referência
de marketing digital

Somos especialistas em trabalhar com empresas de vendas complexas B2B.

Conheça a Ingage
Mini Logo Ingage

Receba uma
proposta comercial

Soluções personalizadas com foco no relacionamento e retorno financeiro para nossos clientes.

Fale com um consultor
Personagem Newsletter

Gostou do texto?

Não perca o nosso próximo artigo! Inscreva-se em nossa newsletter.

Obrigado por se inscrever!