El Rastreo: Googlebot y Tu Sitio Web

En una publicación anterior, hablamos de lo que son los rastreadores web y de lo que hacen por tu sitio web. En este artículo, vamos a echar un vistazo al rastreador de Google, Googlebot. Continúa leyendo para descubrir más sobre el software encargado de descubrir páginas en la web.

Tiempo Aproximado de Lectura: 10 Minutos

En nuestra publicación anterior sobre Los Fundamentos del Rastreo, la Indexación y el Posicionamiento, presentamos el concepto de rastreadores web y el trabajo que realizan estos bots en la recopilación de información de los sitios web como parte del proceso por el que se indexan los datos para la Página de Resultados del Motor de Búsqueda (SERP, por sus siglas en inglés).

Hoy en día, Google es el motor de búsqueda más dominante del mundo y el rastreador web más famoso es Googlebot. Para que tu sitio web aparezca en los resultados de búsqueda de Google, primero debe ser descubierto. Googlebot es el encargado de esta tarea. Por lo tanto, es útil tener al menos una comprensión básica de cómo funciona Googlebot.

Googlebot: ¿Cómo funciona?

Existen múltiples formas a través de las cuales Googlebot descubre sitios web, entre ellas:

Localizar enlaces en millones de páginas web en Internet y seguir esos enlaces para encontrar nuevos contenidos en Internet; y
Mapas del sitio remitidos a través de Google Search Console.

En general, Googlebot se comporta como un navegador web. Visita tu sitio web para encontrar enlaces internos y externos, y obtiene el contenido para construir un índice de todo tu sitio web.

Googlebot utiliza dos tipos de rastreadores: un rastreador para computadoras de escritorio y un rastreador para dispositivos móviles (utilizando una ventana gráfica para móviles). Cada uno de estos rastreadores simula un usuario en el respectivo dispositivo. Cabe mencionar que ambos utilizan el mismo Token de Agente de Usuario (Googlebot), pero puedes diferenciar entre cual Googlebot visitó tu sitio revisando la entire user agent string (en inglés).

Googlebot hace algo más que buscar e indexar contenidos. También registra metadatos que posteriormente sirven como uno de los muchos factores de posicionamiento. Algunos ejemplos de los metadatos recopilados por Googlebot son:

El código de estado de respuesta HTTP (en inglés) de la página,
el valor meta de los robots,
el tamaño de la ventana gráfica, y
el tiempo de respuesta.

El Viaje del Googlebot

Veamos qué ocurre cuando alguien remite un mapa del sitio a través de Google Search Console para informarle a Google de los enlaces en el sitio.

Googlebot obtiene una URL de la cola de rastreo. En este ejemplo, es el mapa del sitio.
Verifica si la URL permite el rastreo mediante la lectura del archivo robots.txt (más información al respecto a continuación). En función de las instrucciones contenidas en el archivo robots.txt, Googlebot evalúa si debe continuar el proceso de rastreo o saltarse la URL.
Si no se rechaza, es decir, las instrucciones le indican a Googlebot que continúe el rastreo, busca todos los enlaces href disponibles en el HTML y añade nuevas URLs a la cola de rastreo.
A continuación, Googlebot procede a analizar el HTML. El uso de Datos Estructurados es de gran ayuda en esta etapa del proceso, ya que simplifica la tarea de entender el contenido de tu página web. Googlebot puede ejecutar Javascript. Sin embargo, Google recomienda contenido del lado del servidor o pre-renderizado, porque hace que tu sitio web sea más rápido y ayuda a los rastreadores en el proceso de rastreo.
A continuación, Googlebot repite este mismo proceso utilizando una URL diferente de la cola.

Notablemente, algunas de estas tareas se realizan en paralelo, en lugar de ser pasos independientes en el proceso de rastreo e indexación.

Googlebot y el Archivo Robots.txt

El archivo robots.txt es un archivo de texto sin formato que sigue el Protocolo de Exclusión de Robots (REP, por sus siglas en inglés) y ofrece instrucciones para los rastreadores web como Googlebot. El propósito del archivo y del REP es comunicarse con los rastreadores web: exclusiones (parciales o completas), enlaces a mapas de sitio, índices de rastreo, y otras instrucciones personalizadas que algunos rastreadores pueden utilizar.

“El robot de Google, al igual que el resto de los robots de buscadores respetados, obedece las directivas del archivo robots.txt”. Google: SEO Avanzado

En un esfuerzo por convertir el REP en un estándar de Internet, Google publicó el código fuente (en inglés) utilizado por su equipo para analizar los archivos robots.txt.

Notas Importantes Sobre Robots.txt:

El límite de tamaño del archivo robots.txt es de 500 KiB.
Se ignoran las reglas no admitidas y no publicadas (como noindex).
Si el archivo robots.txt resulta inaccesible debido a un error del servidor, se interpretará como totalmente rechazado. Si el error persiste después de 30 días, Google intenta utilizar la última copia en caché del archivo robots.txt. Si esta copia en caché no está disponible, Googlebot asumirá que no hay restricciones de rastreo.
No se puede enfocar selectivamente a Googlebot Smartphone o a Googlebot Desktop mediante robots.txt, ya que ambos rastreadores obedecen al mismo token de producto (Googlebot) en robots.txt
La falta de un archivo robots.txt no es algo malo. Sólo significa que cualquier rastreador tendrá acceso completo a tu sitio, también conocido como rastreo sin restricciones.
Google guardará en caché el contenido de tu archivo robots.txt durante un máximo de 24 horas. La duración del caché puede aumentarse o reducirse en función de los encabezados HTTP max-age Cache-Control (en inglés).
Si necesitas suspender el rastreo temporalmente por alguna razón, Google recomienda asignar un código de estado HTTP 503 para cada URL del sitio. Sin embargo, ten cuidado con este proceso. Si se asignan códigos de error de estado HTTP durante un período prolongado (más de dos días), las URL pueden desaparecer del índice de Google.
Las reglas de robots.txt sólo se aplican al protocolo, al host, y al número de puerto donde se aloja el archivo robots.txt. Por ejemplo, las reglas en https://avanza.justia.com/robots.txt sólo se aplicarán a todas las URLs con la siguiente estructura:
- protocolo: HTTPS,
- host: avanza.justia.com, y
- número de puerto: 443.

Ten esto en cuenta si tu sitio web no redirige HTTP a HTTPS.

Artículo Relacionado: Internet Archive Ignorará los Archivos Robots.txt Para Mantener un Registro Histórico Preciso

Cómo Bloquear la Visita de Googlebot a Tu Sitio Web

Existen varias razones válidas para que alguien bloquee a Googlebot para que no visite un sitio web o una página web específica. Si estás interesado en saber más sobre cómo bloquear el contenido de Googlebot y las razones por las que alguien puede querer bloquear una página web de los rastreadores, consulta nuestra publicación anterior: Cómo Ocultar Contenido de los Motores de Búsqueda y Por Qué Querrás Hacerlo (en inglés).

Tasa de Rastreo

La tasa de rastreo se refiere al número de solicitudes por segundo que Googlebot realizará en un determinado sitio web. Es necesario moderar la demanda para no hacer caer tu sitio web ni consumir tu ancho de banda mensual.

Presupuesto de Rastreo

El presupuesto de rastreo es un término utilizado en el campo del SEO para describir el número de páginas web que Google podría rastrear durante un período de tiempo específico. Google determina el presupuesto de rastreo tomando en cuenta la tasa de rastreo y la demanda de rastreo.

No todos los sitios web son iguales, por lo que este número es diferente para cada sitio web y se ve afectado por varios factores. El objetivo principal es evitar problemas durante el rastreo.

Aunque la mayoría de los sitios web no deben preocuparse por el presupuesto de rastreo, seguir algunas buenas prácticas puede ayudarte a evitar que se desperdicien los intentos de rastreo en tu presupuesto de rastreo. Algunas cosas que puedes hacer son:

Evitar el contenido duplicado en tu sitio web.
Corregir los enlaces rotos.
Crear páginas web de alto valor. En otras palabras, evitar la creación de páginas web de bajo valor.

El objetivo es asegurar que todos los enlaces rastreados e indexados por Google contengan contenido relevante y único que funcione con tu estrategia de SEO y que esté dirigido a tu público objetivo.

Límite de Tasa de Rastreo

Googlebot y otros rastreadores web de los motores de búsqueda siguen ciertas mejores prácticas para evitar un impacto negativo en el sitio web que están rastreando. El límite de la tasa de rastreo es la tasa máxima de obtención de un sitio determinado, y este cálculo se basa en dos factores:

La salud del rastreo. Que es la medida de la rapidez con que tu servidor responde a cada petición. Si la respuesta es constante, el límite sube. De lo contrario, baja y Googlebot rastreará tu sitio con menos frecuencia.
El límite de velocidad de rastreo para tu propiedad se establece en Google Search Console. Esta configuración se restablece de forma automática después de 90 días.

Demanda de Rastreo

La demanda de rastreo está determinada por la popularidad de tu sitio web y el “estancamiento” de tu contenido.

Notas Importantes:

Si bien no puedes elegir la frecuencia con la que Google rastreará tu sitio web, puedes solicitar un nuevo rastreo. Si solicitas un nuevo rastreo, este puede tardar desde unos días hasta unas semanas. Hacer clic repetidamente en el botón de rastreo no acelerará el proceso. En su lugar, puedes monitorear el progreso mediante el Informe de Cobertura de Indexación o la Herramienta de Inspección de URLs.
Google no recomienda limitar la velocidad de rastreo, pero esta opción está disponible si tienes problemas con el servidor causados por Googlebot.
Solicitar un nuevo rastreo no significa necesariamente que Google vaya a incluir el contenido en los resultados de búsqueda. Si el contenido carece de valor o es de baja calidad, puede ser excluido.

Mejores Prácticas

Comprueba que Googlebot puede acceder y mostrar el contenido de tu sitio web. Puedes hacerlo revisando las reglas de tu robots.txt (directorio de nivel superior de un sitio), el metavalor de robots en el código fuente de tus páginas web, o en Google Search Console, que ofrece una herramienta de prueba de robots para verificar que Googlebot puede rastrear tu sitio web.
El contenido, los metadatos, los encabezados, y los datos estructurados deben ser equivalentes en las versiones de escritorio y en las de móvil. Ten en cuenta que el contenido indexado provendrá principalmente de la versión móvil.
Evita el “lazy loading” (carga perezosa) del contenido principal en la interacción con el usuario. Googlebot no provocará ninguna interacción del usuario, por lo que el contenido no se cargará y, en consecuencia, Googlebot no indexará ni rastreará el contenido principal. Para más información, consulta este recurso.
Intenta no bloquear los directorios de recursos a Googlebot mediante la directiva de rechazo. Algunos de estos recursos pueden ser necesarios para cargar correctamente tu sitio web. Si estos recursos importantes se bloquean para Googlebot, éste tendrá problemas para mostrar tu contenido.
Supervisa los códigos de respuesta del servidor de tu archivo robots.txt y de tu sitio web. Proporcionar los códigos de estado adecuados ayudará a Googlebot a rastrear tu sitio sin problemas.

Preguntas Adicionales Sobre Googlebot

Q. URLs absolutas o relativas, ¿cuál es mejor?
A. La respuesta corta: no importa. Ambos tipos de enlaces son tratados de la misma manera por Googlebot, siempre y cuando las URLs estén correctamente configuradas y sean válidas.

Q. ¿Puedo evitar el descubrimiento de enlaces en mis páginas web?
A. Sí, basta con utilizar el mecanismo nofollow y Googlebot respetará la instrucción.

Q. ¿Cuánto tiempo tarda Google en mostrar mi sitio web en los resultados de búsqueda?
A. La respuesta depende, como es habitual en el ámbito legal. Google puede tardar desde unos días hasta unas semanas en mostrar el contenido en sus SERPs. Recuerda que Google no garantiza que todas las páginas de tu sitio serán indexadas o incluso rastreadas. La inclusión de tu sitio depende de la calidad y la relevancia del contenido, entre otros factores.

Q. ¿Tiene Google un límite de indexación?
A. La respuesta corta es no. Sin embargo, aunque no hay un límite, Google intenta enfocar sus recursos en las páginas que tienen sentido para ser indexadas.

Q. ¿Las URLs distinguen entre mayúsculas y minúsculas?
A. Sí, las mayúsculas o minúsculas son importantes para las URLs. Es una buena práctica ser coherente y evitar el contenido duplicado al proporcionar el mismo contenido en varias URL.

Recursos

Formalizando la Especificación del Protocolo de Exclusión de Robots (en inglés)
Googlebot
Lista de Rastreadores: Googlebot (en inglés)
Cómo Interpreta Google la Especificación Robots.txt
Crear un Archivo Robots.txt
Spidering Hacks: 100 Industrial-Strength Tips & Tools (en inglés)

Reflexiones Finales: ¿Por Qué Debería Importarte?

Considera a Googlebot como tu aliado en la ejecución de tu estrategia de SEO. Si quieres que tu contenido sea rastreado y aparezca en Google, deberás asegurarte de no restringir el acceso a tu sitio y revisar regularmente tu Google Search Console para obtener información sobre el estado de indexación de tu sitio web. En Google Search Console, también puedes comprobar los problemas que puedan estar afectando a la indexabilidad de tu sitio.

Ve este clip para obtener más información sobre el uso de Google Search Console para comprobar si existen problemas de indexabilidad en tu sitio.

Read this post in English at Justia Onward.

Justia ofrece sitios web premium, blogs y servicios de online marketing para firmas de abogados. Contamos con años de experiencia inigualable ayudando a firmas de abogados a crecer. Sin importar si apenas empiezan sus esfuerzos de marketing digital o ya cuentan con un sitios web y blog, tenemos soluciones que le ayudarán a potencializar su firma al siguiente nivel. Además de nuestros servicios web y servicios de blog, también ayudamos a nuestros clientes con contenido, directorio de abogados, redes sociales, SEO local y Manejo de PPC. Contáctenos para obtener mayor información, o llámenos al (888) 587-8421.