Una de las herramientas para gestionar la indexación de sitios por los motores de búsqueda es el archivo robots.txt. Se utiliza principalmente para evitar que todos o solo algunos robots descarguen el contenido de determinados grupos de páginas. Esto le permite deshacerse de la "basura" en los resultados del motor de búsqueda y, en algunos casos, mejorar significativamente la clasificación del recurso. Es importante tener el archivo robots.txt correcto para una aplicación exitosa.
Necesario
editor de texto
Instrucciones
Paso 1
Haga una lista de robots para los que se establecerán reglas de exclusión especiales o directivas del estándar robots.txt extendido, así como directivas no estándar y específicas (extensiones de un motor de búsqueda específico) que se utilizarán. Ingrese en esta lista los valores de los campos User-Agent de los encabezados de solicitud HTTP enviados por los robots seleccionados al servidor del sitio. Los nombres de los robots también se pueden encontrar en las secciones de referencia de los sitios de los motores de búsqueda.
Paso 2
Seleccione los grupos de URL de los recursos del sitio a los que se debe denegar el acceso a cada uno de los robots en la lista compilada en el primer paso. Realice la misma operación para todos los demás robots (un conjunto indefinido de robots de indexación). En otras palabras, el resultado debe ser varias listas que contengan enlaces a secciones del sitio, grupos de páginas o fuentes de contenido multimedia cuya indexación esté prohibida. Cada lista debe corresponder a un robot diferente. También debe haber una lista de URL prohibidas para todos los demás bots. Haga listas basadas en la comparación de la estructura lógica del sitio con la ubicación física de los datos en el servidor, así como agrupando las URL de las páginas según sus características funcionales. Por ejemplo, puede incluir en las listas de denegación el contenido de cualquier catálogo de servicios (agrupado por ubicación) o todas las páginas de perfil de usuario (agrupadas por propósito).
Paso 3
Seleccione los signos de URL para cada uno de los recursos contenidos en las listas compiladas en el segundo paso. Cuando procese listas de exclusión para robots usando solo directivas de robots.txt estándar y robots indefinidos, resalte las porciones de URL únicas de la longitud máxima. Para los conjuntos de direcciones restantes, puede crear plantillas de acuerdo con las especificaciones de motores de búsqueda específicos.
Paso 4
Crea un archivo robots.txt. Agregue grupos de directivas, cada una de las cuales corresponde a un conjunto de reglas de prohibición para un robot específico, cuya lista se compiló en el primer paso. Este último debe ir seguido de un grupo de directivas para todos los demás robots. Separe los grupos de reglas con una sola línea en blanco. Cada conjunto de reglas debe comenzar con una directiva de agente de usuario que identifique al robot, seguida de una directiva Disallow, que prohíbe la indexación de grupos de URL. Realice las líneas obtenidas en el tercer paso con los valores de las directivas Disallow. Separe las directivas y sus significados con dos puntos. Considere el siguiente ejemplo: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Este conjunto de directivas instruye al robot principal del El motor de búsqueda Yandex no indexa la URL que contiene la subcadena / temp / data / images /. También evita que todos los demás robots indexen URL que contengan / temp / data /.
Paso 5
Complemente el archivo robots.txt con directivas estándar ampliadas o directivas de motor de búsqueda específicas. Ejemplos de dichas directivas son: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.