Crawlers: qué son, cómo funcionan y afectan a tu servidor

Publicado enGeneral

Nacido con un claro propósito militar que permitiera asegurar las comunicaciones entre instituciones ubicadas en diferentes puntos geográficos, la rápida y continua evolución de internet a lo largo de su (corta) historia ha hecho que internet se convierta en lo que actualmente conocemos. Para ello, fue de vital importancia la integración del contenido presente en internet a través de enlaces o hipervínculos. Aunque pueda parecer lejano, no fue hasta 1998 cuando una nueva empresa decidió analizar y organizar los enlaces para hacer accesible al usuario el contenido que se encontraba en internet. Aquella nueva empresa que tuvo la idea de crear un ejército de crawlers fue Google.

¿Qué son los crawlers?

Un crawler, rastreador, indexador, araña… es un pequeño programa informático que analiza las páginas web de forma automática. Su principal objetivo es seguir cada uno de los enlaces que se encuentra en cada sitio web; posteriormente, almacenará en sus bases de datos una copia de todo lo que encuentra. De esta forma, se crea una red de interconexiones que une los millones de páginas web que se encuentran en internet y todo el contenido de cada una de ellas.

Además de la creación de índices de búsqueda a partir de toda la información contenida en sus bases de datos, los crawlers también permiten encontrar enlaces rotos o crear catálogos. Así, toda la información recopilada en cada una de las visitas de los crawlers sirve, entre otras cosas, para crear los resultados de búsqueda que los navegadores muestran basándose en el contenido indexado. En este caso, lo que Google muestra al realizar una determinada búsqueda utilizando su navegador.

¿Cómo funcionan estas arañas?

Un crawler visita una lista que contiene una serie de URLs, las analiza y descarga su HTML. Los bots o crawlers únicamente leen código, de ahí que se queden con una copia del HTML de cada uno de los sitios web. Estas copias serán almacenadas en sus servidores, en este caso los de Google. También es necesario tener en cuenta que, si el código de la página web no cumple con ciertos estándares, el posicionamiento SEO se verá afectado.
A continuación, los crawlers identifican cada uno de los enlaces que contienen las URLs que ha visitado y los añaden a sus listas. La próxima que vayan a visitar una de las URLs de la lista, seguirán también cada uno de los enlaces que estas contienen.
Como de cada una de las páginas web salen infinidad de enlaces, tanto internos como externos, llegado un punto los crawlers deciden abandonar la misión; es decir, dejar de rastrear los enlaces de los enlaces a los que ha llegado a partir del análisis de un sitio web. Esto generalmente ocurre en el nivel 3 y se denomina frontera de rastreo.
Cuando finaliza la tarea de rastreo y almacenamiento, el algoritmo analizará todo el contenido para extraer entre tanta información solo aquello que le interesa. Es decir, qué es lo que quiere indexar o posicionar en sus resultados de búsqueda.
Con toda la información recopilada se crea un índice. Estos índices de búsqueda serán los resultados que muestre el navegador al realizar una determinada búsqueda.
A fin de actualizar la información de sus bases de datos, los crawlers vuelven a las mismas URLs con cierta frecuencia. Así, verifican que todo está tal y como se encontraba en su última visita; o, si por el contrario, si se ha añadido o eliminado contenido o corregido errores.

Las políticas de crawlers

El funcionamiento de los crawlers se corresponde con unas determinadas políticas de comportamiento. Unas normas que, por regla general, siguen todos los rastreadores de este tipo:

Selección. Puesto que es imposible rastrear todo el contenido que se encuentra en internet, los crawlers tienen que decidir qué páginas se descargan. Por lo tanto, también estarán decidiendo cuáles optan por ignorar.
Re-visita. Una vez se han descargado el código HTML de una web, tienen que decidir cuándo volverán a visitarla. Esta nueva visita servirá para actualizar el contenido que almacenan en sus bases de datos. Estas re-visitas de los crawlers pueden forzarse si queremos que se indexen los cambios que se han introducido en la web.
Cortesía. Para evitar sobrecargar el servidor con sus peticiones, los crawlers cuentan con una política de cortesía. Esto permite al servidor seguir operando con normalidad mientras las arañas hacen su trabajo.
Paralelización. Los crawlers se coordinan entre sí para no pasar todos por las mismas URLs. De esta forma pueden realizar su trabajo de una forma más eficiente.

¿Los crawlers afectan al servidor?

Al publicar una nueva web, es necesario hacerle saber a Google que hay una nueva página y que no está indexada; si la web contiene muchas páginas, es recomendable enviar el sitemaps. Google, al recibir, la noticia envía a uno de sus crawlers a visitar esta nueva página web.

Pero Google no es el único crawler que existe; también podemos cruzarnos con los bots de SEMrush, Ahrefs, Majestic SEO, Screaming Frog, Sistrix… La principal diferencia es que los rastreadores de Google suelen acudir solos a visitar las webs; mientas que el resto acostumbran a ir de la mano de otros crawlers. Es decir, si el bot de SEMrush entra a rastrear tu web, lo hará junto a todos los demás.

Aunque estas herramientas puedan ser de gran ayuda para mejorar el SEO de una web, también pueden dejar inoperativo el servidor. Al entrar varios crawlers a la vez en una misma URL el servidor se satura, haciendo que se quede sin recursos o que funcione más lento de lo habitual. Con tantos crawlers se produce un número de peticiones que el servidor no puede responder, algo similar a lo que ocurre durante un ataque DDoS. Para evitar que los crawlers puedan afectar al funcionamiento de tu servidor, es recomendable bloquear algunos. En ningún caso bloquees el rastreador de Google, ya que podrías acabar desindexando toda tu web.

En el caso de que por cualquier motivo no sea posible bloquear ninguno de esos crawlers, tendrás que aumentar los recursos del servidor. De esta forma se evitará que el servidor acabe perjudicado por las peticiones de tantos rastreadores a la vez.

La creación de los crawlers mejoró el funcionamiento y la accesibilidad en internet que no en el ciberespacio, pero como en todo, los excesos no son nada buenos.

Blog de Linube

¿Qué son los crawlers y cómo influyen en los sitios web?

¿Qué son los crawlers?

¿Cómo funcionan estas arañas?

Las políticas de crawlers

¿Los crawlers afectan al servidor?