El archivo robots.txt proporciona información a los bots de los buscadores sobre la información que pueden solicitar de tu sitio web. En general se usa para evitar que tu sitio web se sobrecargue de solicitudes.

Este archivo no funciona para evitar que una página aparezca en Google. Si deseas que tu sitio web no sea indexado por Google, puedes hacerlo con directivas noindex o simplemente protégela poniendole una contraseña.

¿Para qué sirve?

Su principal uso es para gestionar el tráfico de los rastreadores a tu sitio web y para indicarles, al mismo tiempo, que contenidos de tu sitio no debe rastrear. Por ejemplo:

LOS SITIOS WEB.

Para los sitios web el archivo robots.txt puede ser utilizado para evitar que se rastree páginas sin importancia en tu sitio o similares. Además te permite gestionar el tráfico de los rastreadores, si crees que tu sitio pueda sobrecargarse.

Por otro lado, si quisieras que tu página web esté oculta completamente de los resultados de búsqueda te sugerimos usar los siguientes métodos

1. Noindex, con esta metaetiqueta puedes indicarle a los rastreadores de Google que no incluyan la página en los resultados de búsqueda.

 

ejemplo de metaetiqueta noindex

 

En este ejemplo, vemos que el atributo “name” (robots) especifica que se aplica a todos los rastreadores, si quieres ser especifico con el rastreador, puedes cambiar “robots” por el nombre del rastreador al que desees hacer referencia (en el caso de Google “googlebot”). Por otro lado, el atributo “noindex” le especifica al rastreador que no deseas que la página sea indexada.

2. Proteger tu contenido con contraseña, puedes editar el archivo .htaccess de tu servidor web (apache) para crear carpetas con acceso a usuarios autorizados, por contraseña.

Quizas te interese: 7 Buenas prácticas para mejorar tu SEO

ARCHIVO MULTIMEDIA

Con el archivo robots.txt puedes gestionar el tráfico de los rastreadores, para evitar que tus imagenes, videos o audios aparezcan en los resultados de búsqueda de Google. Sin embargo, la esto no impedirá que otros usuarios enlacen a tu contenido desde sus propios sitios.

ARCHIVO DE RECURSOS

Aquí puedes bloquear los archivos de recursos de tu sitio web, siempre que creas que hacerlo no afectará significativamente la carga de las páginas sin dichos recursos.

Algunas otras consideraciones del archivo robots.txt

Las directivas del archivo robots.txt no son compatibles con todos los buscadores. Aunque las directivas de este archivo son cumplidas por buscadores serios como Yahoo o Google, hay muchos otros buscadores en Internet que no necesariamente sigan las directivas.

Por lo tanto, si deseas proteger tu contenido de manera más segura, puedes probar con las alternativas que revisamos lineas arriba.

Por otro lado, ten en cuenta que las páginas bloqueadas mediante el archivo robots.txt pueden seguir siendo indexadas si en ellas hay un enlace en otro sitios web.

Si te interesa saber más sobre la configuración del archivo robots.txt, revisa la información oficial de Google aquí.

Si quieres validar si algún contenido de tu sitio está bloqueado por el archivo robots.txt, te dejamos el probador de archivos robots.txt de Google aquí.