Como crear el Robots.txt perfecto para WordPress

Te traigo el robots.txt perfecto para WordPress. Ya sabes que soy fan de WordPress y de vez en cuando te pongo truquillos para optimizarlo. En este caso el truco no es mío y para mas Inri es algo antiguo, pero sin embargo sigue estando de plena actualidad, ya que yo al menos no he encontrado nada mejor a día de hoy.

¿Qué es el archivo Robots.txt?

Este es un archivo que ofrece información para los robots (crawlers, spiders, etc) de los buscadores, sobre las páginas que se quieren indexar o rastrear en los motores de búsqueda. Puedes encontrar esta página accediendo a la siguiente dirección: http://www.tudominio.com/robots.txt

Definicion de Robot WWW

Un robot WWW es un programa que recorre periódicamente la estructura de Internet en busca de nuevos contenidos. La forma de operar de estos programas, por lo general, es recuperando un documento raíz y de manera recurrente recorrer todos los documentos a los que éste hace referencia. El orden en que estos programas hacen el recorrido por lo general es determinado después de hacer un análisis en base a varios parámetros, es decir, después de haber aplicado técnicas de heurística.

La siguiente imagen muestra cómo es que funciona este archivo:

En el blog de Armonth, SigT.net nos ayudan a mejorar nuestro espacio de comunicación. Han elaborado un fichero robots.txt con el que mejorar la visibilidad del blog y, de paso, evitar contenido duplicado en los buscadores. Yo lo he aplicado tal cual, pues es un robots.txt listo para copiar y pegar, tiene los comentarios de Armonth por si quieres adaptarlo.

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html
#

# Primero el contenido adjunto.

User-Agent: *
Allow: /contenido/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/

# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php

Disallow: /wp-

#
# Sitemap permitido, búsquedas no.
#

Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search

#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#

Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

#
# A partir de aquí es opcional pero recomendado.
#

# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

Haz un archivo llamado robots.txt y ponlo en el root publico de tu sitio con este contenido. Acuérdate de editar la url de tu sitemap.

¿Olvidaste tu contraseña?