Martes, 24 de diciembre del 2024
Las redes de distribución de contenido (CDNs) son especialmente adecuadas para reducir la latencia de tu sitio web y, en general, para evitar problemas relacionados con el tráfico web. Al fin y al cabo, ese es su objetivo principal: ofrecer una distribución rápida del contenido aunque el sitio reciba mucho tráfico. La ""D"" de CDN se refiere a la entrega o distribución del contenido en todo el mundo, por lo que los tiempos de transferencia a tus usuarios también son inferiores a los del alojamiento en un centro de datos. En este artículo, vamos a ver cómo usar las CDNs para mejorar el rastreo y la experiencia de los usuarios en tu sitio. También analizaremos algunos matices del rastreo de sitios que usan CDNs.
Resumen: ¿Qué es una CDN?
Las CDNs son básicamente un intermediario entre el servidor de origen (donde se encuentra tu sitio web) y el usuario final, y sirven (algunos) archivos para ellos. Tradicionalmente, el objetivo principal de las CDNs es el almacenamiento en caché, lo que significa que, cuando un usuario solicita una URL de tu sitio, las CDNs almacenan el contenido de esa URL en sus memorias caché durante un tiempo para que tu servidor no tenga que volver a servir ese archivo durante un tiempo.
Las CDNs pueden acelerar considerablemente tu sitio, ya que sirven contenido a los usuarios desde una ubicación cercana a ellos. Por ejemplo, si un usuario de Australia accede a un sitio alojado en Alemania, una CDN servirá ese sitio a ese usuario desde sus sistemas de almacenamiento en caché de Australia, lo que reducirá el tiempo de ida y vuelta por todo el mundo. Ya sea a la velocidad de la luz o no, la distancia sigue siendo bastante grande.
Por último, las CDNs son una herramienta fantástica para proteger tu sitio frente a sobrecargas y algunas amenazas de seguridad. Con la cantidad de tráfico global que gestionan las CDNs, pueden crear modelos de tráfico fiables para detectar anomalías en el tráfico y bloquear los accesos que parezcan excesivos o maliciosos. Por ejemplo, el 21 de octubre del 2024, los sistemas de Cloudflare detectaron y mitigaron de forma autónoma un ataque DDoS de 4,2 Tbps (eso es mucho) que duró aproximadamente un minuto.
Cómo pueden ayudar las CDNs a tu sitio
Puede que tengas los servidores más rápidos y la mejor conexión de subida que el dinero pueda comprar, y puede que no creas que necesites acelerar nada, pero las CDNs pueden ahorrarte dinero a largo plazo, sobre todo si tu sitio es grande:
- Almacenamiento en caché en la CDN: si los recursos como los medios, JavaScript y CSS, o incluso tu HTML, se sirven desde el caché de una CDN, tus servidores no tienen que gastar recursos de computación y ancho de banda para servirlos, lo que reduce la carga del servidor. Por lo general, esto también significa que las páginas se cargan más rápido en los navegadores de los usuarios, lo que se traduce en mejores conversiones.
-
Protección contra la inundación de tráfico: las CDNs son especialmente eficaces para identificar y bloquear el tráfico excesivo o malicioso, lo que permite a los usuarios visitar tu sitio incluso cuando los bots maliciosos o los usuarios malintencionados sobrecargan tus servidores.
Además de la protección contra ataques de denegación de servicio, los mismos controles que se utilizan para bloquear el tráfico no deseado también se pueden usar para bloquear el tráfico que no quieres, ya sean determinados rastreadores, clientes que se ajusten a un determinado patrón o simplemente trolls que siguen usando la misma dirección IP. Aunque también puedes hacerlo en tu servidor o cortafuegos, suele ser mucho más fácil usar la interfaz de usuario de una CDN. - Fiabilidad: algunas CDNs pueden servir tu sitio a los usuarios aunque se haya caído. Por supuesto, esto solo puede funcionar con contenido estático, pero puede ser suficiente para evitar que los usuarios se vayan a otro sitio.
En resumen, las CDNs son tus amigas. Si tu sitio es grande o esperas (o incluso ya recibes) grandes cantidades de tráfico, te recomendamos que busques una que se ajuste a tus necesidades en función de factores como el precio, el rendimiento, la fiabilidad, la seguridad, el servicio de asistencia, la escalabilidad o la posibilidad de ampliarla en el futuro. Ponte en contacto con tu proveedor de alojamiento o de CMS para conocer tus opciones (y si ya usas una).
Cómo afecta el rastreo a los sitios con CDNs
En cuanto al rastreo, las CDNs también pueden ser útiles, pero pueden causar algunos problemas de rastreo (aunque sean poco frecuentes). No te vayas.
Efecto de las CDNs en la frecuencia de rastreo
Nuestra infraestructura de rastreo está diseñada para permitir frecuencias de rastreo más altas en los sitios que están respaldados por una CDN, lo cual se deduce de la dirección IP del servicio que sirve las URLs a las que acceden nuestros rastreadores. Esta opción funciona bien, al menos la mayoría de las veces.
Imagina que hoy mismo creas un sitio web de fotos de stock y tienes 1.000.007 imágenes en stock. Lanzas tu sitio web con una página de destino, páginas de categoría y páginas de detalles de todos tus productos, por lo que acabas teniendo muchas páginas. En nuestra documentación sobre el límite de capacidad de rastreo, explicamos que, aunque a la Búsqueda de Google le gustaría rastrear todas estas páginas lo más rápido posible, el rastreo no debe sobrecargar tus servidores. Si tu servidor empieza a responder lentamente al recibir un número mayor de solicitudes de rastreo, Google aplicará un límite para evitar que se sobrecargue. El umbral de esta limitación es mucho más alto cuando nuestra infraestructura de rastreo detecta que tu sitio está respaldado por una CDN y asume que no hay problema en enviar más solicitudes simultáneas porque tu servidor probablemente pueda gestionarlas, lo que permite rastrear tu tienda online más rápido.
Sin embargo, en el primer acceso a una URL, la caché de la CDN está "fría", lo que significa que, como nadie ha solicitado esa URL todavía, el contenido no se ha almacenado en caché en la CDN, por lo que el servidor de origen aún tendrá que servir esa URL al menos una vez para "calentar" la caché de la CDN. Este proceso es muy similar a cómo funciona el almacenamiento en caché de HTTP.
En resumen, aunque tu tienda online esté respaldada por una CDN, tu servidor tendrá que servir esas 1.000.007 URLs al menos una vez. Solo después de ese envío inicial, tu CDN puede ayudarte con sus cachés. Esto supone una carga significativa para tu "presupuesto de rastreo" y la tasa de rastreo probablemente sea alta durante unos días. Tenlo en cuenta si tienes previsto lanzar muchas URLs a la vez.
Efecto de las CDNs en el renderizado
Como explicamos en nuestra primera entrada de blog de diciembre sobre el rastreo de recursos, es posible que dividir los recursos en su propio nombre de host o en un nombre de host de CDN (cdn.example.com
) permita que nuestro servicio de renderizado web (WRS) renderice tus páginas de forma más eficiente. Sin embargo, hay una salvedad: esta práctica puede afectar negativamente al rendimiento de la página debido a la sobrecarga de la conexión a un nombre de host diferente, por lo que debes sopesar cuidadosamente la experiencia en la página con el rendimiento del renderizado.
Si respaldas tu host principal con una CDN, evitarás este problema: un nombre de host que consultar y los recursos de renderizado críticos probablemente se sirvan desde la caché de la CDN para que tu servidor no tendrá que servirlos (y no afectará a la experiencia en la página).
Al final, elige la solución que mejor se adapte a tu empresa: usa un nombre de host independiente (cdn.example.com
) para los recursos estáticos, respalda tu nombre de host principal con una CDN o haz ambas cosas. La infraestructura de rastreo de Google admite ambas opciones sin problemas.
Cuando las CDNs son demasiado protectoras
Debido a la protección contra el exceso de tráfico de las CDNs y a la forma en que rastrean los rastreadores, puede que, de vez en cuando, los bots que quieres que estén en tu sitio terminen en la lista de bloqueados de tu CDN, normalmente en su cortafuegos de aplicación web (WAF). De este modo, se impide que los rastreadores accedan a tu sitio, lo que puede impedir que tu sitio aparezca en los resultados de búsqueda. El bloqueo puede producirse de varias formas, algunas más perjudiciales para la presencia de un sitio en los resultados de búsqueda de Google que otras, y puede ser complicado (o imposible) para ti controlarlas, ya que ocurren en la CDN. En esta entrada del blog, los hemos dividido en dos grupos: bloqueos sólidos y bloqueos ligeros.
Bloqueos sólidos
Los bloqueos sólidos se producen cuando la CDN envía una respuesta a una solicitud de rastreo que es un error de algún tipo. Pueden ser:
-
Códigos de estado HTTP
503
/429
: enviar estos códigos de estado es la forma preferida de indicar un bloqueo temporal. Así tendrás tiempo para reaccionar ante los bloqueos no deseados de la CDN. - Tiempos de espera de la red: los tiempos de espera de la red del CDN harán que las URLs afectadas se eliminen del índice de búsqueda de Google, ya que estos errores de red se consideran errores terminales. Además, pueden afectar considerablemente a la frecuencia de rastreo de tu sitio, ya que indican a nuestra infraestructura de rastreo que el sitio está sobrecargado.
-
Mensaje de error aleatorio con un código de estado HTTP
200
: también conocidos como errores soft, son especialmente graves. Si el mensaje de error se equipara a un error "sólido" (por ejemplo, un HTTP500
), Google eliminará la URL de la Búsqueda. Si Google no ha podido detectar los mensajes de error como errores "sólidos", es posible que se eliminen todas las páginas con el mismo mensaje de error como duplicadas del índice de búsqueda de Google. Como la indexación de Google tiene pocos incentivos para solicitar que se vuelvan a rastrear URLs duplicadas, la recuperación de esta situación puede llevar más tiempo.
Bloqueos ligeros
Puede surgir un problema similar cuando tu CDN muestra intersticiales de tipo "¿Estás seguro de que eres humano?".

De hecho, nuestros rastreadores están convencidos de que no son humanos y no pretenden serlo. Solo quieren rastrear. Sin embargo, cuando aparece el intersticial, los usuarios solo ven eso, no tu fantástico sitio. En el caso de los intersticiales de verificación de bots, te recomendamos que envíes una señal clara en forma de código de estado HTTP 503 a los clientes automatizados, como los rastreadores, para indicar que el contenido no está disponible temporalmente. De esta forma, te asegurarás de que el contenido no se retire automáticamente del índice de Google.
Depurar bloqueos
En el caso de los bloqueos sólidos y ligeros, la forma más sencilla de comprobar si todo funciona correctamente es usar la herramienta de inspección de URLs de Search Console y observar la imagen renderizada: si se muestra tu página, está todo correcto. Si se muestra una página vacía, un error o una página con un desafío de bot, te recomendamos que hables con tu CDN al respecto.
Además, para ayudar a resolver estos bloqueos no intencionados, Google, otros buscadores y otros operadores de rastreadores publican nuestras direcciones IP para ayudarte a identificar nuestros rastreadores y, si lo consideras oportuno, a eliminar las IPs bloqueadas de las reglas del WAF o incluso a incluirlas en la lista de permitidos. El lugar donde puedes hacerlo depende de la CDN que estés usando. Afortunadamente, la mayoría de las CDNs y de los WAFs independientes tienen una documentación fantástica. Estas son algunas de las que hemos encontrado con una breve búsqueda (en el momento de la publicación de este artículo):
- Cloudflare: https://developers.cloudflare.com/bots/get-started/free/#visibility
- Akamai: https://www.akamai.com/products/bot-manager
- Fastly: https://www.fastly.com/products/bot-management
- F5: https://clouddocs.f5.com/bigip-next/20-2-0/waf_management/waf_bot_protection.html
- Google Cloud: https://cloud.google.com/armor/docs/bot-management
Si necesitas que tu sitio aparezca en los buscadores, te recomendamos encarecidamente que compruebes si los rastreadores que te interesan pueden acceder a tu sitio. Recuerda que las direcciones IP pueden acabar en una lista de bloqueo automáticamente sin que tú lo sepas, por lo que es buena idea consultar las listas de bloqueo de vez en cuando para que tu sitio tenga éxito en la Búsqueda y más allá. Si la lista de bloqueos es muy larga (como en esta entrada de blog), intenta buscar solo los primeros segmentos de los intervalos de IP. Por ejemplo, en lugar de buscar 192.168.0.101
, puedes buscar 192.168
.
Esta es la última entrada de nuestra serie de entradas de blog sobre rastreo de diciembre. Esperamos que te haya gustado tanto como a nosotros escribirlas. Si tienes... bla, bla, bla... ya sabes cómo va esto.
¿Quieres saber más sobre el rastreo? Echa un vistazo a toda la serie "Diciembre de rastreo":
Prepararse para Search Central Live Asia-Pacífico 2025
Lunes, 17 de marzo del 2025 ¡Hola, 2025! (Sí, ya sabemos que el tiempo vuela). Este año tenemos algunos planes interesantes para Search Central Live (SCL) en Asia-Pacífico. Nos hace mucha ilusión contarte en qué estamos trabajando. Hemos estado
Resumen de Search Central Live Kuala Lumpur y Taipéi 2024
Viernes, 13 de diciembre del 2024 Los eventos de Search Central Live en Kuala Lumpur y Taipéi han sido increíbles, en gran parte gracias a las más de 600 personas que han asistido a los eventos. Nos ha encantado ver el nivel de entusiasmo y
Search Central Live Yakarta y Bangkok 2024: esto es todo
Martes, 15 de octubre del 2024 Han finalizado nuestros dos primeros eventos de Search Central Live en Asia este año, y terminamos analizando lo que hemos aprendido y lo que podemos mejorar. El 25 de julio del 2024, tuvimos el placer de recibir a 335
Search Central Live 2024 volverá a la región APAC
Miércoles, 29 de mayo del 2024 Search Central Live vuelve a la región de Asia-Pacífico para ofrecerte información valiosa de la Búsqueda de Google, interesantes oportunidades para hacer contactos y más. Este año pretendemos visitar Indonesia,
Search Central Live Singapur 2023
Miércoles, 18 de octubre del 2023 Nos hace mucha ilusión anunciar que Search Central Live Singapur vuelve este año el 22 de noviembre. Como es habitual, el evento lo organiza el equipo de la Búsqueda de Google, y esperamos poder reunir a la comunidad
Search Central Live llegará a la India
Jueves, 17 de agosto del 2023 Este año hemos celebrado tres eventos de Search Central Live y ha llegado el momento de anunciar el evento por el que más nos preguntan: ¡Search Central India! Estaremos en dos lugares: ¿Te interesa? Regístrate en Search
Search Central Live de Tokio y Yakarta: esto es todo
Jueves, 27 de julio del 2023 Hace casi un mes que finalizó el Search Central Live en Tokio y aproximadamente dos semanas desde que concluyó el de Yakarta. Recordar los eventos nos hace felices. Es estupendo volver y conocer a los usuarios en persona.
Resumen del evento: Search Central Virtual Unconference en español 2023
Lunes, 3 de abril de 2023 Cuando lanzamos la serie de eventos Search Central Virtual Unconference recibimos muchas sugerencias de la comunidad para celebrar próximos encuentros en otros idiomas que no fueran inglés. Finalmente, y tras la insistencia
Momentos destacados de Search Central Live 2022
Viernes, 16 de diciembre del 2022 Las últimas semanas hemos estado ocupados (y encantados) organizando eventos Search Central Live en Singapur y Tel Aviv. Te echábamos de menos desde nuestra última Webmaster Conference a principios del 2020, y es un
Vuelta a la actividad habitual: eventos de Search Central Live
Jueves, 13 de octubre del 2022 En el 2019, organizamos una serie de eventos, conocidos como "Webmaster Conference", para propietarios de sitios web y especialistas en SEO en más de 15 países, concretamente en regiones en las que no se suelen celebrar
¡La desconferencia virtual mundial del Centro de la Búsqueda del 2022 ha terminado!
Lunes, 23 de mayo del 2022 La desconferencia virtual del Centro de la Búsqueda del 2022 se celebró el 27 de abril de este año. Este es el tercer evento de este tipo. Con más de 450 personas registradas, hay un claro interés en que los eventos
En el 2020 hemos trabajado juntos para que la Búsqueda fuera segura y no tuviera spam
Miércoles, 26 de mayo del 2021 Para nosotros, es fundamental que puedas usar la Búsqueda de Google sin preocuparte por tu seguridad y sin encontrarte con spam. En el 2020, invertimos en muchas innovaciones para que en los resultados de la Búsqueda de
Cómo luchamos contra el spam en la Búsqueda de Google: informe sobre spam web en el 2019
Martes, 9 de junio del 2020 Para nosotros, todas las búsquedas son importantes. Por eso, tenemos el compromiso de mostrar los mejores resultados posibles a todos los usuarios que acuden a la Búsqueda de Google para encontrar información útil y
Webmaster Conference y la situación del coronavirus (COVID‑19)
Jueves, 12 de marzo del 2020 El año pasado organizamos eventos de Webmaster Conference en más de 15 países. Este número refleja muy bien el espíritu de la iniciativa Webmaster Conference, ya que nuestro objetivo es llegar a regiones en las que no se
Serie de vídeos para nuevos webmasters: la Búsqueda para principiantes
Martes, 29 de octubre del 2019 Nos alegra presentar nuestra nueva serie de vídeos: " La Búsqueda para principiantes ". Esta serie se ha creado principalmente para ayudar a los nuevos webmasters. Además, también puede ser útil para cualquier usuario
Cómo pasar de las URLs para móviles a un sitio web adaptable
Jueves, 14 de septiembre del 2017 Como resultado de la creciente conversión de muchos sitios al diseño web adaptable, a muchos webmasters les surgen dudas sobre cómo pasar de las URLs para móviles independientes al uso de un diseño web adaptable. A
Search Central Live 2024 is coming to Kuala Lumpur and Taipei
Tuesday, Aug 27, 2024 As previously announced, Search Central Live is coming to Kuala Lumpur and to Taipei in the last quarter of 2024. And yes, we're very excited! What can you expect? A whole day of learning about Search while having some fun along
Search Central Live Bangkok 2024
Thursday, June 20, 2024 We're coming back to Thailand with Search Central Live! As mentioned in our blog post about our APAC plans for SCL, we now have a date and a site where you can sign up for a chance to secure your spot at Search Central Live
Traditional Chinese Blog: Search Central Live Taipei 2023
Thursday, November 2, 2023 We are ecstatic to announce that for the first time ever, Search Central Live is coming to Taipei! Part of the Search Central Live events series, this is the first in-person event we are organizing in Taiwan, and we're
Indonesian Blog: Search Central Live Jakarta 2023
Wednesday, June 7, 2023 A few weeks back, we announced that Search Central Live is coming to a few locations in Asia Pacific throughout 2023. If you speak Indonesian fluently and are interested, Search Central Live Jakarta 2023 is happening on July
Search Central Live: Tokyo and future plans for APAC
Tuesday, May 16, 2023 Search Central Live is back in Asia Pacific throughout 2023 and we can’t wait to meet you in person! In November 2022 we resumed our search event series with SCL Singapore. Encouraged by the success of the event, we're now ready
Event recap: Search Central Virtual Unconference Japan 2022
Tuesday, May 10, 2022 We organized the first Search Central Virtual Unconference Japan on April 5, 2022 to facilitate a discussion and networking platform for the SEO, Search and publisher community, in Japanese. This is part of the global Search
Japanese Blog: Register for the first Search Central Virtual Unconference Japan 2022!
Thursday, March 24, 2022 The Search Central Virtual Unconference Japan 2022 is now open for registration. The sessions will be conducted in Japanese. If you are interested, be sure to register by March 30! Come meet the community, exchange ideas, and
Google Search for Beginners YouTube Series now available in Japanese
Tuesday, March 15, 2022 The Search For Beginners series on our Search Central YouTube channel is now available in Japanese. The content is fully localized from the English version with Japanese voiceover and screen edits. Check out the English Google