Como crear el Robots.txt perfecto para WordPress

Te traigo el robots.txt perfecto para WordPress. Ya sabes que soy fan de WordPress y de vez en cuando te pongo truquillos para optimizarlo. En este caso el truco no es mío y para mas Inri es algo antiguo, pero sin embargo sigue estando de plena actualidad, ya que yo al menos no he encontrado nada mejor a día de hoy.

¿Qué es el archivo Robots.txt?

Este es un archivo que ofrece información para los robots (crawlers, spiders, etc) de los buscadores, sobre las páginas que se quieren indexar o rastrear en los motores de búsqueda. Puedes encontrar esta página accediendo a la siguiente dirección: http://www.tudominio.com/robots.txt

Definicion de Robot WWW

Un robot WWW es un programa que recorre periódicamente la estructura de Internet en busca de nuevos contenidos. La forma de operar de estos programas, por lo general, es recuperando un documento raíz y de manera recurrente recorrer todos los documentos a los que éste hace referencia. El orden en que estos programas hacen el recorrido por lo general es determinado después de hacer un análisis en base a varios parámetros, es decir, después de haber aplicado técnicas de heurística.

La siguiente imagen muestra cómo es que funciona este archivo:

En el blog de Armonth, SigT.net nos ayudan a mejorar nuestro espacio de comunicación. Han elaborado un fichero robots.txt con el que mejorar la visibilidad del blog y, de paso, evitar contenido duplicado en los buscadores. Yo lo he aplicado tal cual, pues es un robots.txt listo para copiar y pegar, tiene los comentarios de Armonth por si quieres adaptarlo.

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html
#

# Primero el contenido adjunto.

User-Agent: *
Allow: /contenido/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/

# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php

Disallow: /wp-

#
# Sitemap permitido, búsquedas no.
#

Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

#
# A partir de aquí es opcional pero recomendado.
#

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

Haz un archivo llamado robots.txt y ponlo en el root publico de tu sitio con este contenido. Acuérdate de editar la url de tu sitemap.

10 comentarios

  1. ¿Se mantienen las modificaciones hechas por el plugin WP SEO de Yoast al subir un archivo robots.txt de forma manual con los cambios que indicas?

    1. Hola

      Por supuesto, excepto si hace cambios en el robots.txt, cosa que no estoy seguro pues no utilizo ese plugin. Si quieres copiame el contenido de este archivo ahora (es decir tal cual lo tienes antes de aplicar estos cambios, que si el plugin de SEO Yoast ha hecho algo este ahi) y me lo pones en un nuevo post en los foros y te lo fusiono con este para que mantengas todos los cambios y mejoras.

      Salu2

      1. Hola! En primer lugar gracias por contestar. Los cambios del plugin WordPress Seo no se reflejan en robots.txt, así supongo que se mantienen.

        Un saludo.

  2. Hola buenos días y felicidades por tener una página web tan útil. Me gustaría saber si tengo una página web estática con un blog WordPress en el directorio /blog de la web como debería modificar el robots.txt que tan amablemente nos has facilitado. ¿Debería copiar robots.txt dentro del directorio /blog o debería copiarlo en la raíz de la web modificándolo de esta manera?:

    Allow: /blog/contenido/
    Disallow: /blog//wp-content/plugins/
    Disallow: /blog//wp-content/themes/
    Disallow: /blog//wp-includes/
    Disallow: /blog//wp-admin/

    Muchas gracias!!

    1. Hola

      Gracias a ti por leernos y participar.

      El robots.txt siempre debe estar en la raiz, por lo que debes modificarlo como comentas:

      Disallow: blog/wp-admin
      Disallow: blog/wp-includes
      Disallow: blog/wp-content/plugins
      Disallow: blog/wp-content/cache
      Disallow: blog/wp-content/themes
      Disallow: blog/trackback
      Disallow: blog/feed
      Disallow: blog/comments
      Disallow: blog/category/*/*
      Disallow: blog/*/trackback
      Disallow: blog/*/feed
      Disallow: blog/*/comments
      Disallow: blog//*?*
      Disallow: blog//*?

      Disallow:
      Allow: blog/*
      Allow: blog/wp-content/uploads

      etc. Cualquier problema nos comentas y también puedes usar los foros.

      https://www.cursemon.com/foros/

      Salu2

Los comentarios están cerrados.