La mayoría de los blogueros experimentados saben qué es robots.txt y por qué necesita este archivo. Pero pocos autores se apresuran inmediatamente a crear un archivo robots.txt después de instalar un blog en WordPress.
Robots.txt es un archivo de texto que se carga en el directorio raíz de su sitio y contiene instrucciones para los rastreadores. El propósito principal de su uso es prohibir la indexación de páginas y secciones individuales en el sitio. Sin embargo, utilizando robots.txt, también puede especificar el espejo de dominio correcto, prescribir la ruta al mapa del sitio y similares.
La mayoría de los motores de búsqueda modernos han aprendido a navegar bien por el popular CMS y, por lo general, no intentan indexar contenido que no esté destinado a esto. Por ejemplo, Google no indexará el área de administración de su blog de WordPress incluso si no lo especifica directamente en robots.txt. Sin embargo, en algunos casos, el uso de prohibiciones directas puede resultar útil. Y estamos hablando principalmente de la prohibición de contenido duplicado.
Algunos webmasters llegan a prohibir la indexación de páginas de categorías y etiquetas, ya que su contenido duplica parcialmente el contenido de la página principal. Pero la mayoría se limita a prohibir el trackback y las páginas de alimentación, que duplican por completo el contenido del artículo y no están destinadas en absoluto a los motores de búsqueda. Esta precaución no solo hará que los resultados del sitio sean "más limpios", sino que también lo salvará de posibles filtros de búsqueda, especialmente después de la introducción del nuevo algoritmo Google Panda.
Estas son las directivas recomendadas para un archivo robots.txt (funcionará para casi cualquier blog de WordPress):
Usuario-Agente: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Tenga en cuenta que en robots.txt las carpetas administrativas wp-admin y wp-includes están completamente cerradas para la indexación. La carpeta wp-content solo está parcialmente cerrada, ya que contiene el directorio de cargas, que contiene todas las imágenes de tu blog que deben indexarse.
Todo lo que necesita hacer es copiar las directivas del código anterior (tenga en cuenta que cada directiva debe escribirse en una nueva línea), guardarlas en un archivo de texto llamado robots.txt y subirlas al directorio raíz de su sitio.
Siempre puede comprobar si el archivo robots.txt funciona correctamente a través de las herramientas para webmasters de Google y las interfaces de webmasters de Yandex.