¿Qué es robots.txt?

Definición
robots.txt es un archivo de texto ubicado en el directorio raíz de un sitio web que indica a los rastreadores de motores de búsqueda (bots) qué páginas pueden rastrear y cuáles no. Este archivo sigue un estándar llamado Protocolo de Exclusión de Robots o Estándar de Exclusión de Robots.
El archivo robots.txt actúa como un controlador de tráfico para su sitio web. Es el primer archivo que los bots de motores de búsqueda verifican cuando visitan un sitio web, y a través de él, entienden la política de rastreo del propietario del sitio. Por ejemplo, puede especificar áreas que no desea que aparezcan en los resultados de búsqueda, como páginas de administración, contenido duplicado o páginas de prueba.
Un punto importante es que robots.txt es una "solicitud", no un "comando". Aunque la mayoría de los bots legítimos de motores de búsqueda (Google, Naver, Bing, etc.) respetan las reglas en este archivo, los bots maliciosos o scrapers pueden ignorarlas. Por lo tanto, robots.txt por sí solo no es suficiente para proteger información sensible, y son necesarias medidas de control de acceso o cifrado adecuadas.
Características
- Optimización del presupuesto de rastreo: Al bloquear el rastreo de páginas sin importancia, puede alentar a los motores de búsqueda a asignar más recursos a las páginas que realmente importan.
- Prevención de contenido duplicado: Puede prevenir problemas de SEO bloqueando páginas con contenido similar o URLs duplicadas generadas por varios parámetros.
- Especificación de la ubicación del sitemap: Puede especificar la ubicación del sitemap dentro del archivo robots.txt para que los motores de búsqueda puedan encontrarlo fácilmente.
- Formato simple y estandarizado: Se puede escribir y modificar fácilmente con un editor de texto sin conocimientos técnicos especiales.
- Aplicación inmediata: Una vez que se carga el archivo, surte efecto de inmediato, y las nuevas reglas se aplican desde la próxima vez que los bots de motores de búsqueda visiten.
Cómo usar
Así es como escribir y administrar efectivamente un archivo robots.txt.
Paso 1: Comprender la estructura básica El archivo robots.txt se basa en las directivas "User-agent" y "Disallow/Allow". User-agent especifica a qué bot se aplica la regla, Disallow especifica rutas para prohibir el rastreo, y Allow especifica rutas para permitir el rastreo.
Paso 2: Identificar áreas a bloquear Identifique áreas en su sitio web que no deben exponerse a los motores de búsqueda. Generalmente, esto incluye páginas de administración (/admin), páginas de información personal, contenido duplicado, páginas de prueba, páginas de resultados de búsqueda, carritos de compras o páginas de pago.
Paso 3: Escribir el archivo robots.txt Escriba el archivo robots.txt con un editor de texto. Las reglas para todos los bots comienzan con "User-agent: *", y también puede especificar reglas separadas para bots específicos.
Paso 4: Cargar al directorio raíz Cargue el archivo robots.txt escrito al directorio raíz de su sitio web. El archivo debe ser accesible en la forma https://yoursite.com/robots.txt.
Paso 5: Probar Use la herramienta de prueba de robots.txt de Google Search Console para verificar que el archivo esté escrito correctamente y que las URLs deseadas estén bloqueadas o permitidas adecuadamente.
Paso 6: Revisión regular Cada vez que cambie la estructura del sitio web, el archivo robots.txt también debe actualizarse. Es importante revisar regularmente para asegurarse de que no se hayan bloqueado accidentalmente páginas importantes.
Ejemplos
Ejemplo 1: Estructura básica de robots.txt
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Allow: /
Sitemap: https://zero-coke.com/sitemap.xml
Este es el archivo robots.txt más básico. Instruye a todos los bots de motores de búsqueda a no rastrear los directorios admin, private y temp, y permite todo lo demás. La ubicación del sitemap se especifica al final.
Ejemplo 2: Reglas para bots específicos
# Reglas de Google bot
User-agent: Googlebot
Disallow: /search/
Disallow: /cart/
Allow: /
# Reglas de Bing bot
User-agent: Bingbot
Disallow: /admin/
Allow: /
# Bot de búsqueda de imágenes
User-agent: Googlebot-Image
Disallow: /private-images/
Allow: /
# Bloquear bots malos
User-agent: BadBot
Disallow: /
# Todos los demás bots
User-agent: *
Crawl-delay: 10
Disallow: /admin/
Sitemap: https://zero-coke.com/sitemap.xml
Sitemap: https://zero-coke.com/sitemap-images.xml
Este ejemplo muestra cómo aplicar diferentes reglas para diferentes bots. Se utilizan comentarios (#) para mejorar la legibilidad.
Ejemplo 3: Uso de comodines
User-agent: *
# Bloquear todos los archivos PDF
Disallow: /*.pdf$
# Bloquear URLs con parámetros específicos
Disallow: /*?sort=
Disallow: /*?filter=
# Bloquear archivos con extensiones específicas
Disallow: /*.php$
Disallow: /*.inc$
# Pero permitir directorios específicos
Allow: /public/*.pdf$
Sitemap: https://zero-coke.com/sitemap.xml
Puede crear reglas más sofisticadas usando comodines (*) y especificadores de fin de ruta ($).
Ejemplo 4: robots.txt de sitio de comercio electrónico
User-agent: *
# Bloquear páginas relacionadas con cuentas de usuario
Disallow: /account/
Disallow: /login/
Disallow: /register/
Disallow: /checkout/
Disallow: /cart/
# Prevenir contenido duplicado - parámetros de ordenación y filtro
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /*?filter=
# Páginas de resultados de búsqueda
Disallow: /search?
# Área de administración
Disallow: /admin/
# Permitir páginas de productos (¡importante!)
Allow: /products/
# Establecer retraso de rastreo (gestión de carga del servidor)
Crawl-delay: 5
Sitemap: https://zero-coke.com/sitemap.xml
Sitemap: https://zero-coke.com/sitemap-products.xml
Sitemap: https://zero-coke.com/sitemap-categories.xml
Este es un ejemplo completo de robots.txt que se puede usar para sitios de comercio electrónico reales.
Ventajas y desventajas
Ventajas
-
Eficiencia de rastreo mejorada: Ayuda a los motores de búsqueda a no perder tiempo y recursos rastreando páginas innecesarias, permitiéndoles centrarse más en contenido importante. Esto es esencial para gestionar presupuestos de rastreo de manera eficiente, especialmente para sitios web de gran escala.
-
Carga de servidor reducida: Puede reducir la carga del servidor por rastreo excesivo. Usando la directiva Crawl-delay, puede controlar el intervalo entre solicitudes de bots para proteger los recursos del servidor.
-
Implementación simple: Se puede implementar fácilmente con solo un archivo de texto sin conocimientos de programación complejos, y las modificaciones se pueden hacer de inmediato. No se requieren cambios separados de base de datos o configuración del servidor.
Desventajas
-
No es una medida de seguridad: robots.txt es meramente una recomendación y no tiene poder de aplicación. Los bots maliciosos o hackers pueden ignorar este archivo, por lo que no es adecuado para proteger información sensible. De hecho, especificar rutas bloqueadas en robots.txt puede resultar en indicar a los atacantes la ubicación de páginas ocultas.
-
Impacto grave por errores: Si el archivo robots.txt está escrito incorrectamente, podría bloquear accidentalmente todo el sitio web o excluir páginas importantes de los resultados de búsqueda. Solo una entrada incorrecta como "Disallow: /" puede hacer que todo su sitio desaparezca de los motores de búsqueda.
-
No efectivo inmediatamente: Incluso si actualiza el archivo robots.txt, los motores de búsqueda pueden no reflejarlo inmediatamente. Para eliminar páginas ya indexadas, robots.txt por sí solo no es suficiente, y necesita solicitar por separado la eliminación de URL en Google Search Console.
Preguntas frecuentes
P: ¿Puedo eliminar páginas ya indexadas con robots.txt? R: No, robots.txt solo bloquea el nuevo rastreo y no elimina páginas ya indexadas. De hecho, bloquear con robots.txt impide que los motores de búsqueda vuelvan a rastrear la página, por lo que no pueden verificar información actualizada (por ejemplo, etiqueta noindex). Para eliminar páginas ya indexadas, primero debe agregar una etiqueta meta noindex a la página, dejar que los motores de búsqueda la verifiquen y luego bloquearla en robots.txt. Alternativamente, puede usar la herramienta de eliminación de URL de Google Search Console.
P: ¿Qué sucede si no hay archivo robots.txt? R: Incluso sin un archivo robots.txt, el sitio web funciona normalmente, y los motores de búsqueda asumen que todas las páginas pueden ser rastreadas. En otras palabras, todo está permitido. Para sitios web pequeños o sitios que desean que todas las páginas aparezcan en los resultados de búsqueda, esto no es un problema, pero si hay áreas que necesitan ser bloqueadas, debe crear un archivo robots.txt.
P: ¿Cuál es la diferencia entre Disallow y noindex? R: Disallow (robots.txt) bloquea a los motores de búsqueda para que no rastreen una página, pero si la página está vinculada desde otro lugar, aún puede aparecer en los resultados de búsqueda (solo con título y URL, sin contenido). Por otro lado, noindex (etiqueta meta) permite el rastreo pero indica que la página nunca debe mostrarse en los resultados de búsqueda. Para eliminar completamente una página de los resultados de búsqueda, debe usar la etiqueta meta noindex, no el bloqueo de robots.txt.
P: ¿Cómo funcionan los comodines (*)? R: Los comodines () significan cero o más de cualquier carácter. Por ejemplo, "Disallow: /admin" bloquea todas las rutas que comienzan con admin, como /admin, /admin/, /admin/users, /administrator. "$" indica el final de una URL, por lo que "Disallow: /*.pdf$" bloquea todas las URLs que terminan en .pdf. Sin embargo, no todos los motores de búsqueda admiten comodines, por lo que funcionan en motores de búsqueda principales (Google, Bing, etc.) pero pueden ser ignorados por algunos bots más antiguos.