¿Qué es una caché?

Una caché es un tipo de memoria intermedia digital que almacena los datos una vez recuperados para accesos posteriores. Cuando se vuelven a solicitar los datos, la consulta se puede responder directamente desde la caché, sin tener que contactar con la aplicación en sí. Un caso típico de uso son los navegadores web, que tienen su propia caché para almacenar temporalmente algunos contenidos de sitios web. Si visitas las páginas de nuevo más adelante, se cargarán más rápidamente, ya que los datos se recuperarán directamente de la caché y no del servidor.

Definición

Caché: la caché es una memoria intermedia que contiene datos a los que se va a acceder varias veces y que permite recuperarlos más rápido. Las cachés son una capa transparente entre el usuario y la fuente real de los datos. El proceso de almacenamiento de datos en la caché se llama caching.

Para explicar cómo funciona una caché, tomemos una analogía de la medicina: imagina que, durante un tratamiento dental o una intervención quirúrgica, el dentista pide a su ayudante un recurso, como un bisturí, un desinfectante o un vendaje. Si el recurso está preparado, el auxiliar podrá responder a la solicitud inmediatamente. Si no lo tiene, el ayudante deberá buscar en el botiquín para entregarle el recurso al médico. Después de que el médico lo use, el auxiliar dejará el recurso preparado para poder acceder a él más rápido después.

Los recursos no se usan de forma completamente independiente: si el médico pide un desinfectante, sin duda necesitará una gasa; para usar una aguja, se necesita un hilo. El asistente tendrá listos los recursos necesarios para minimizar el tiempo de acceso durante el uso.

Como has visto, mantener a mano los recursos que se necesitan a menudo o agrupar los que se usan a la vez es un procedimiento muy útil y extremadamente común. En el mundo digital, todos estos procesos relacionados se resumen bajo el término caching.

¿Cuál es el propósito de una caché?

El propósito principal de la caché es reducir el tiempo de acceso a datos importantes. Entre los datos considerados importantes están los siguientes:

  1. Datos que se utilizan con frecuencia: en el caso de estos, sería una pérdida de tiempo tener que cargarlos siempre de la memoria más lenta. En lugar de eso, se entregan desde la caché, lo que va más rápido.
  2. Datos complejos de generar: algunos datos son el resultado de un procesamiento computacional intensivo o se deben combinar a partir de distintas fuentes. En estos casos, es conveniente almacenar los datos listos en la caché para su futuro uso.
  3. Datos que se deben utilizar juntos: en este caso, no sería eficiente cargar los datos solo cuando se soliciten. En cambio, tiene sentido mantener los datos juntos en la caché.

¿Cómo funciona una caché?

Aquí explicamos en detalle cómo funciona una caché. Entre otras cosas, describimos el funcionamiento básico de la memoria intermedia y dónde se encuentra.

Esquema básico de una caché

  1. Se solicita un recurso al sistema o programa que cuenta con una memoria caché.
  2. Si el recurso ya se encuentra en ella, se entrega desde aquí. Esto se conoce como cache hit, o sea, acierto de caché.
  3. Si el recurso no está en ella, primero se carga desde el sistema subyacente y luego se entrega. Este caso se conoce como cache miss, o fallo de caché.
  4. Si en el futuro se vuelve a solicitar el mismo recurso, se entrega desde la caché como cache hit.

La imagen ilustra el esquema básico: un cliente solicita un recurso al servidor (1). En caso de cache hit, el recurso ya está en la caché y se entrega inmediatamente al cliente (2). En el caso de cache miss, el recurso solicitado no está y, por lo tanto, se solicita al sistema subyacente al servidor (en este caso, una base de datos) (2). En cuanto el recurso está disponible (3), se entrega al cliente (4) y se almacena en la caché para su uso posterior.

¿Dónde se encuentra la caché?

Una propiedad básica de las cachés es que funcionan de forma oculta. Este hecho ya se refleja en el origen de la palabra: la palabra cache viene del francés y significa “escondido”.

Al contrario que el almacenamiento real de datos, la memoria caché es invisible para el usuario. Esto significa que tú, el usuario, no debes saber nada sobre las propiedades internas de una caché. Cuando haces solicitudes a la memoria de datos, no te das cuenta de que realmente provienen de la caché.

¿Cuántas cachés suele haber?

Normalmente, en un sistema digital, siempre hay varias cachés activas.

Imagina que accedes a un sitio web: el navegador se comunica con un servidor y accede a una serie de recursos. Antes de que se te muestre el contenido de la página en tu navegador, probablemente partes de este pasen por las siguientes cachés: la del procesador, la del sistema, la del navegador en tu dispositivo y en la CDN (Content Delivery Network) y la caché web en el lado del servidor.

Ventajas e inconvenientes de las cachés

El hecho de que una aplicación esté equipada con una caché queda, en principio, en manos del desarrollador. Aquí resumimos las ventajas e inconvenientes de una solución de caché.

Ventaja: enorme aumento de la velocidad

Usar una caché tiene la ventaja potencial de que la velocidad aumenta mucho. No es desacostumbrado lograr una aceleración por un factor de cien. Sin embargo, esta aceleración solo tiene lugar cuando se accede a los datos de forma repetida, y la aceleración real variará enormemente dependiendo del caso.

Ventaja: reducción de la carga para el sistema detrás de la caché

Como la caché entrega los datos muy rápido, la carga en el sistema subyacente se reduce mucho.

Como ejemplo, imagina una página HTML dinámica generada a partir de una plantilla PHP: para visualizar la página, se accede a una base de datos. Este acceso requiere un esfuerzo relativamente grande. Además, escalar los servidores de las bases de datos no es trivial, por lo que se pueden ocasionar cuellos de botella en el acceso a las bases de datos, lo que puede limitar el rendimiento global del sistema. En este caso, es apropiado guardar la página HTML generada en una caché web para utilizar la capacidad del servidor de la base de datos para otras tareas.

Inconvenientes: la caché es difícil de invalidar

Cita

“There are only two hard things in Computer Science: cache invalidation and naming things”.
(“En informática solo hay dos problemas difíciles: invalidar la caché y poner nombres a las cosas”).

Phil Karlton, https://www.martinfowler.com/bliki/TwoHardThings.html

El término invalidación de la caché se refiere al momento en el que se decide que los datos de la caché ya no están actualizados y deben renovarse. Recuerda la analogía anterior: el auxiliar ayuda al médico poniendo a su disposición los recursos ya utilizados para su uso posterior. Sin embargo, como el espacio disponible es limitado, el ayudante va despejándolo constantemente durante la operación. Los recursos que ya se han utilizado se deben apartar, y se deben añadir otros nuevos. En algunos casos, es posible que el auxiliar retire un recurso que el médico necesite aún. En este caso, se utiliza el concepto cache miss: el asistente debe volver a dedicar tiempo y esfuerzo en localizar el recurso necesario.

Como los cache miss son costosos, la mejor estrategia de caching es evitarlos siempre que sea posible. Sin embargo, esto puede llevar a que la caché entregue datos desactualizados. Este problema se agrava si hay varias cachés activas y jerárquicamente adyacentes. Puede ser difícil determinar cuándo los datos de la memoria caché deben marcarse como actualizados.

Si una caché entrega datos que ya no están actualizados, el usuario a menudo experimenta problemas: el sitio web visitado tiene errores de visualización o aparecen fragmentos antiguos al recuperar los datos. A veces, encontrar el origen exacto del problema no es fácil, por lo que en ese caso se recomienda vaciar la caché.

¿Qué tipos de cachés existen?

Las cachés consisten en componentes de hardware o software. Una caché de hardware es una memoria intermedia rápida que reduce los tiempos de acceso a la memoria de datos subyacente. En principio, las cachés de hardware son siempre muy pequeñas en comparación con el tamaño total de la memoria acelerada.

En cambio, las cachés implementadas en el software pueden ser incluso mayores que el recurso subyacente. Este es particularmente el caso si en una caché se encuentran varias versiones de un recurso.

A continuación, se muestra un resumen de los recursos comunes de almacenamiento en caché, que incluye el tamaño de la caché, el tiempo de acceso a la misma y una indicación de cuánto más se tardaría en acceder a los recursos sin memoria intermedia.

Recurso Caché Tamaño de la caché Tiempo de acceso con caché × tiempo más lento sin caché
Memoria principal Caché de nivel 1 (hardware) Decenas de kilobytes (KB) Menos de un nanosegundo (ns) 200 ×
Disco duro Caché de placa base (hardware) Decenas de megabytes (MB) Cientos de nanosegundos (ns) 100 ×
Navegador Caché del navegador (software) Varios gigabytes (GB) Decenas de milisegundos (ms) 10-100 ×
Sitios web CDN, Google Page Cache, Wayback Machine (software) Miles de terabytes (petabyte, PB) Menos segundos (s) 2-5 ×

Cachés de hardware

Caché del procesador

Un procesador moderno funciona increíblemente rápido. Los procesos en el chip solo requieren fracciones de nanosegundos, es decir, ¡milmillonésimas de segundo! Por el contrario, el acceso a la memoria principal es comparativamente lento: dura unos cientos de nanosegundos. Por esto, los procesadores modernos tienen una jerarquía de cachés de procesador.

Un cache hit de la caché del procesador más rápida, conocida como caché de nivel 1 o caché L1 (del inglés level 1 cache), es unas 200 veces más rápido que el acceso a la memoria principal.

Caché del disco duro

Un disco duro gira a varios miles de revoluciones por minuto. El cabezal de lectoescritura recorre los discos y lee los datos en secuencia. Al tratarse de un proceso físico, el acceso a un disco duro es comparativamente lento.

Por esta razón, cada disco duro tiene su propia pequeña caché. De este modo, al menos los datos más utilizados, como las partes del sistema operativo, no se tienen que leer cada vez del disco duro, con el esfuerzo correspondiente.

La caché del disco duro permite cargar los datos esenciales unas 100 veces más rápido. Esto hace que estén disponibles “inmediatamente” para el usuario.

Cachés de software

Caché del navegador

Al visitar un sitio web, muchos de los datos de la página se almacenan temporalmente en el dispositivo del visitante. Además del contenido real, esto incluye recursos como imágenes, hojas de estilo y archivos JavaScript. En general, muchos de estos recursos se requieren en varias páginas. Para que las páginas se carguen más rápido, es ventajoso almacenar estos en la caché del navegador del dispositivo local.

A pesar de que las cachés de navegador son muy prácticas para navegar por internet, pueden también causar problemas. Por ejemplo, a veces ocurre que los desarrolladores hacen cambios en un recurso del sitio web, pero la caché del navegador sigue conteniendo la versión antigua del recurso. En este caso, pueden producirse errores de visualización. Para solucionarlo, puedes vaciar la caché del navegador.

Caché de Google Page

La función “En caché” de Google almacena las páginas de muchos sitios web. Esto significa que se puede acceder a las páginas, aunque el sitio web original esté desconectado. El estado de las páginas corresponde a la fecha de la última indexación de Googlebot.

Caché de DNS

El sistema de nombres de dominio, conocido como DNS, es un sistema utilizado en todo el mundo para la traducción de dominios de internet en direcciones IP (o al revés). El DNS devuelve una dirección IP para un nombre de dominio. Por ejemplo, para el dominio ionos.es, devuelve la dirección IP 217.160.86.33.

Las consultas ya respondidas al DNS se almacenan localmente en la caché de DNS del propio dispositivo, lo que implica que cada resolución sea siempre igual de rápida.

Sin embargo, el uso de la caché de DNS también puede ocasionar problemas, por ejemplo, si la dirección IP perteneciente a un dominio ha cambiado debido a un traslado de servidor, pero la dirección antigua sigue almacenada en la caché de DNS local. En este caso, la conexión al servidor falla. Esto se soluciona borrando la caché de DNS.

Content Delivery Network (CDN)

Las Content Delivery Networks (redes de distribución de contenido), implementadas en todo el mundo, mantienen gran parte de los datos de los sitios web más populares en los llamados edge nodes o nodos periféricos. Estos nodos periféricos reflejan los datos en la “periferia” de internet. Los nodos están situados localmente cerca del usuario y diseñados para entregar los datos lo más rápidamente posible. Una CDN actúa como caché para los datos de los sitios web que contiene, lo que minimiza los tiempos de acceso, especialmente a los proveedores de streaming y a los sitios web.

Caché web

Una caché web contiene documentos web como páginas HTML, imágenes, hojas de estilo o archivos JavaScript para su uso repetido. Las cachés web modernas, como Varnish y Redis, almacenan los datos de uso frecuente en la memoria RAM y con ello obtienen tiempos de respuesta muy reducidos.

Cuando se vuelven a consultar los datos, la respuesta solo requiere un acceso muy rápido a la memoria. Esto reduce enormemente los tiempos de respuesta y la carga de los sistemas subyacentes a la caché, como el servidor web y la base de datos. Otras cachés web muy conocidas son OPcache y la alternativa PHP Cache (APC).

¿Le ha resultado útil este artículo?
Page top