Latencia caché CPU: L1, L2, L3 y su impacto real

Informatec Digital » Recursos » Latencia de la caché de la CPU: cómo afecta al rendimiento

La memoria caché de la CPU (L1, L2, L3 e incluso L4) reduce drásticamente la latencia frente a la RAM y es clave en el rendimiento real.
La jerarquía de caché equilibra capacidad y velocidad: L1 y L2 por núcleo, L3 compartida y, en algunos casos, L4 como apoyo a la GPU.
Latencia, ancho de banda y tasa de aciertos de caché determinan el comportamiento en juegos y cargas intensivas, junto con la velocidad de la RAM.
Tecnologías como 3D V-Cache de AMD amplían la L3 mediante apilado en 3D, mejorando notablemente el rendimiento gaming.

latencia y memoria caché de la CPU

Cuando se habla de procesadores casi siempre salen a relucir los núcleos, la frecuencia o el proceso de fabricación, pero la memoria caché y su latencia siguen siendo grandes olvidadas pese a ser claves en el rendimiento real del equipo. Entender qué ocurre entre la CPU, la caché y la RAM permite ver por qué dos procesadores con la misma frecuencia pueden rendir de forma muy distinta.

En los últimos años, además, conceptos como latencia de caché, ancho de banda L1/L2/L3 o tecnologías como 3D V-Cache de AMD han pasado a ser protagonistas en benchmarks, juegos y pruebas de rendimiento en C++, donde medir unos pocos nanosegundos de diferencia puede cambiar por completo el resultado. Vamos a desgranar todo lo que hay detrás de la latencia de la caché de la CPU, por qué es tan importante y cómo se mide en la práctica.

De la brecha CPU-RAM al nacimiento de la memoria caché

En la década de los 80, la velocidad de los procesadores creció mucho más rápido que la de la memoria. Las CPUs empezaron a ejecutar instrucciones a un ritmo brutal, mientras que los tiempos de acceso a la RAM permanecían relativamente altos. El resultado era un cuello de botella constante: el procesador pasaba buena parte del tiempo esperando a que llegaran los datos.

Para tapar ese agujero de rendimiento, los ingenieros introdujeron la memoria caché como capa intermedia entre la CPU y la RAM. La idea es sencilla pero muy potente: almacenar, muy cerca del procesador y en una memoria extremadamente rápida, los datos e instrucciones que es más probable que la CPU necesite a corto plazo. Así se reduce la latencia efectiva y se «camufla» la lentitud relativa de la RAM.

En un PC actual podemos distinguir claramente tres niveles de almacenamiento: el almacenamiento masivo (HDD, SSD), enorme pero lento; la memoria RAM, mucho más rápida pero todavía con una latencia significativa; y la memoria caché integrada en la CPU, diminuta en capacidad, pero la más veloz con mucha diferencia.

La caché no es exclusiva del procesador: discos duros, SSD, GPUs, impresoras y otros dispositivos también disponen de sus propias cachés internas para acelerar el acceso a datos. Sin embargo, la caché de la CPU es la que más impacto directo tiene en la experiencia de uso diaria.

Qué es la memoria caché de la CPU y cómo funciona

La memoria caché de la CPU es una memoria SRAM integrada en el chip del procesador, capaz de trabajar a velocidades gigantescas y con latencias de fracciones de nanosegundo. A diferencia de la RAM (DRAM), no necesita refresco constante, es más cara de fabricar y su capacidad es mucho menor, por eso se reserva solo para los datos «críticos» a muy corto plazo.

Su misión principal es servir de buffer ultra rápido entre los núcleos y la memoria RAM. Cuando se lanza un programa, su código y datos se cargan primero desde el almacenamiento al espacio de direcciones de la RAM. Desde ahí, el controlador de memoria integrado en la CPU trae a la caché los bloques más probables de ser utilizados siguiendo patrones de acceso y algoritmos de predicción.

El proceso típico es el siguiente: la CPU solicita una dirección de memoria, se mira primero en la caché L1, después en L2 y luego en L3. Si se encuentra el dato en alguno de esos niveles se produce un «acierto» de caché, se atiende la petición rápidamente y se ahorran muchos ciclos de reloj. Si no aparece en ninguno, se da un «fallo» de caché y se debe ir a buscarlo a la memoria RAM, que tiene mayor latencia y menor ancho de banda efectivo para operaciones pequeñas.

El diseño de esta jerarquía de memoria persigue un equilibrio: cachés pequeñas y rapidísimas cerca del núcleo, y niveles cada vez más grandes pero más lentos conforme se alejan físicamente de las unidades de ejecución. Toda la magia de rendimiento de una CPU moderna pasa por maximizar el número de aciertos y minimizar el coste de los fallos.

Niveles de caché: L1, L2, L3 e incluso L4

En los procesadores actuales encontramos normalmente tres niveles de caché en el propio encapsulado: L1, L2 y L3. En algunos modelos específicos existe también un nivel L4, normalmente implementado como un chip separado a modo de eDRAM para tareas muy concretas, como dar aire extra a la GPU integrada.

Cada nivel de caché se caracteriza por un triángulo de factores: distancia física al núcleo, latencia y capacidad. Cuanto más cerca está de las unidades de ejecución, menor es la latencia pero también menor su tamaño, porque el coste en transistores aumenta enormemente.

Caché L1: la primera línea de fuego

La caché L1 es la que está más pegada al núcleo y es la más rápida de todas. Se suele dividir en dos bloques diferenciados: caché L1 de datos (L1D) y caché L1 de instrucciones (L1I). Las primeras guardan los operandos que se van a procesar, mientras que las segundas almacenan las instrucciones decodificadas que el núcleo va a ejecutar.

Cada núcleo tiene su propia caché L1, sin compartirla con los demás, lo que significa que no hay coherencia directa entre L1 de distintos núcleos. Típicamente hablamos de 32 KB de L1D y 32 KB de L1I por núcleo en muchas arquitecturas modernas, aunque algunos diseños suben estos valores. En algunos procesadores de gama alta o servidores podemos encontrar cantidades ligeramente mayores.

Actuadores en edificios inteligentes: clave de la domótica y la inmótica

En términos de rendimiento, la L1 ofrece latencias por debajo del nanosegundo y picos de lectura de miles de GB/s en herramientas de benchmark como AIDA64. Por ejemplo, un Ryzen moderno puede rondar los 0,7 ns de latencia en L1 con anchos de banda de más de 2.700 GB/s, a costa de un tamaño pequeño, como 512 KB totales de L1 combinando todos los núcleos.

Caché L2: el equilibrio entre tamaño y velocidad

La caché L2 se sitúa justo por detrás de L1 como segundo nivel de respaldo. Su latencia es algo mayor, pero sigue siendo muy baja comparada con la RAM. Su función es almacenar datos que no caben en L1 pero que se siguen usando con bastante frecuencia.

En la mayoría de arquitecturas de consumo, cada núcleo dispone de su propia L2 privada, que no se divide en datos e instrucciones y suele tener tamaños entre 256 KB y 1 MB por núcleo, aunque en servidores de última generación ya se ven cifras de 1 MB por núcleo o más. En términos de rendimiento, es habitual ver anchos de banda de más de 1.300 GB/s con latencias de alrededor de 2,7 ns.

Al ser más grande, la L2 ayuda a reducir los fallos que llegarían a L3 o a RAM si solo existiera L1, manteniendo un buen equilibrio entre capacidad y latencia. En algunas topologías, varios núcleos se agrupan en clústeres que comparten una L2 común, lo que introduce detalles extra de coherencia y buses internos.

Caché L3 o LLC (Last Level Cache)

La caché L3 suele llamarse también LLC (Last Level Cache) porque, en la mayoría de procesadores de escritorio, es el último nivel de caché antes de llegar a la RAM. Es la caché más grande y también la más lenta de las que están dentro del encapsulado principal de la CPU.

A diferencia de L1 y L2, la L3 suele ser compartida entre todos los núcleos o entre grupos amplios de núcleos (por ejemplo, bloques de ocho en algunos diseños de AMD). Esto permite que cualquier núcleo pueda reutilizar datos que otro haya traído, elevando la tasa global de aciertos, aunque complica bastante la lógica de coherencia.

En un procesador de gama media de escritorio no es raro ver desde 4 MB hasta 32 MB de L3, mientras que en CPUs de servidor, como algunas series AMD EPYC, se llega fácilmente a centenares de MB de caché L3. El precio a pagar es una mayor latencia, que puede rondar los 10 ns, y un ancho de banda inferior al de L1 y L2, aunque aún muy notable: en torno a 900 GB/s en equipos potentes.

Caché L4: casos especiales

La caché L4 es un caso particular que no aparece en la mayoría de CPUs de consumo. Normalmente se implementa como eDRAM externa al encapsulado principal de la CPU, pero muy cercana físicamente en la placa, y se utiliza en procesadores con GPU integrada para dar un impulso extra al ancho de banda gráfico.

Un ejemplo clásico fue el Intel Core i5-5775C, que combinaba 6 MB de L3 con 128 MB de eDRAM usados como caché L4 para su GPU integrada Iris Pro 6200. Esta memoria actuaba como buffer para los datos gráficos, reduciendo la presión sobre la RAM del sistema y mejorando el rendimiento gaming frente a otras iGPU sin ese apoyo.

Latencia de la caché y su impacto en el rendimiento

La palabra clave cuando hablamos de caché CPU es latencia: el tiempo que tarda la CPU en acceder a un dato almacenado en un nivel determinado de memoria. Esa latencia se mide en nanosegundos (ns), y aunque parezcan tiempos ridículos, sumados a millones de accesos por segundo marcan la diferencia.

En una jerarquía típica, la latencia de L1 es la más baja (menos de 1 ns), la de L2 se multiplica por varios factores (por ejemplo, 2,7 ns), y la de L3 vuelve a subir (puede llegar a 10 ns o más, especialmente si está en un chip separado). Cuando no hay acierto en ninguna de las cachés, el procesador debe ir a la RAM, donde las latencias pueden dispararse hasta varias decenas de nanosegundos, incluso con memorias DDR5 rápidas.

Un ejemplo real: con un Ryzen 7 7700X y memoria DDR5 a 6.000 MT/s y CL30 podemos ver latencias medias de RAM en torno a 70 ns, frente a 0,7 ns en L1, 2,7 ns en L2 y unos 10 ns en L3. Esa diferencia explica por qué es tan importante que la CPU encuentre los datos en la caché: cada fallo de caché obliga a esperar muchísimo más tiempo relativo.

La latencia no depende solo de la tecnología de memoria usada, también de la distancia física y la topología. En diseños antiguos en los que L2 y L3 iban montadas en la placa base, mucho más lejos de la CPU, la latencia era muy superior y el rendimiento se resentía. Integrar todas las cachés en el encapsulado de la CPU redujo radicalmente esos retrasos.

Además de la latencia, el ancho de banda efectivo de la caché (medido en GB/s) indica cuántos datos se pueden transferir por unidad de tiempo. Aquí L1 vuelve a ser la reina con cifras que superan los 2.000 GB/s en lectura en benchmarks sintéticos, seguida de L2 y L3 con valores más modestos, pero aún muy por encima de la RAM.

Aciertos, fallos de caché y coherencia entre núcleos

Cuando la CPU busca un dato y lo encuentra en uno de los niveles de caché hablamos de un acierto de caché (cache hit). Si no lo encuentra, se produce un fallo de caché (cache miss) y toca recurrir al nivel siguiente o, en el peor escenario, a la memoria principal. Cuantos más aciertos se consigan en los niveles superiores, mayor rendimiento global tendrá el sistema.

Los fallos de caché no solo añaden latencia; también pueden provocar que la CPU tenga que repetir ciclos de trabajo o reordenar instrucciones porque los datos aún no están disponibles, lo que «rompe» la canalización interna del procesador y reduce el aprovechamiento de sus unidades funcionales.

Microsoft revoluciona la computación cuántica con Majorana 1, su nuevo chip cuántico

En procesadores multinúcleo entra además en juego la coherencia de caché, es decir, mantener una visión consistente de los datos compartidos entre núcleos que tienen sus propias L1 y L2. Protocolos de coherencia complejos se encargan de invalidar y actualizar líneas de caché cuando otro núcleo modifica un dato, lo que añade tráfico interno y puede afectar a la latencia efectiva.

La arquitectura interna también influye. En diseños monolíticos como muchos Intel Core, todos los núcleos acceden a una única caché L3 con latencias bastante homogéneas. En arquitecturas tipo chiplet o MCM, como las primeras generaciones de AMD Ryzen, la L3 se organiza en bloques (CCX, CCD) y algunos núcleos solo pueden acceder de forma directa a una parte de la L3, lo que introduce latencias extra cuando se cruza de un bloque a otro.

Latencia de caché frente a RAM: frecuencia, timings y bus

Cuando la información no está en la caché, es la memoria RAM la que entra en juego. Aquí suelen confundirse dos conceptos: latencia y frecuencia. La frecuencia (típicamente expresada en MT/s o MHz) marca cuántos datos se pueden transferir por segundo, mientras que la latencia (en ns o a través de los timings tipo CL16, CL30, etc.) indica cuánto tarda en entregarse el primer dato.

Una RAM con frecuencia alta pero latencias muy elevadas puede ofrecer buen ancho de banda pero peor tiempo de respuesta, lo que penaliza procesos muy sensibles a la latencia, como juegos o ciertas cargas de trabajo con accesos poco secuenciales. En cambio, módulos con menores timings mejoran ese primer acceso, aunque su ancho de banda bruto no sea tan espectacular.

El ancho de bus entre CPU y RAM también importa. En la mayoría de plataformas de escritorio, cada canal de memoria tiene un bus de 64 bits, y con la configuración de doble canal (dual channel) se pasa a 128 bits efectivos, duplicando la cantidad de datos que pueden viajar simultáneamente entre procesador y RAM.

Cuanto más eficaz sea la combinación de frecuencia, latencia y ancho de bus, menos doloroso será un fallo de caché. Aun así, ninguna RAM actual puede acercarse a las cifras de latencia y ancho de banda de la L1, L2 o L3, por lo que la prioridad sigue siendo maximizar los aciertos de caché.

Scratchpad RAM frente a caché automática

Dentro del procesador no solo encontramos cachés automáticas gestionadas por hardware. Algunos diseños incluyen también Scratchpad RAM, un tipo de memoria interna de acceso muy rápido que, a diferencia de la caché, no se gestiona sola.

La diferencia es clara: la memoria caché replica de forma transparente líneas de datos cercanas a las direcciones que se están usando, siguiendo algoritmos internos, y el programador no tiene control directo sobre ella. En cambio, una Scratchpad RAM funciona como una pequeña RAM local, donde es el propio software el que decide qué datos colocar, cómo organizarlos y cuándo vaciarlos.

Este enfoque se ve más en procesadores embebidos, DSP y algunas GPU, donde se necesitan patrones de acceso muy predecibles y se quiere evitar la incertidumbre de las cachés automáticas. En PCs de escritorio y servidores el usuario final rara vez interactúa con una Scratchpad RAM de forma explícita.

Latencia de caché, pruebas de rendimiento y efectos curiosos

En el mundo de los benchmarks es habitual medir latencias de caché en nanosegundos y anchos de banda en GB/s para cada nivel (L1, L2, L3) mediante herramientas como AIDA64, o desarrollando pruebas propias en C++ que hacen recorridos específicos por grandes arrays.

Estas pruebas pueden mostrar comportamientos curiosos. Por ejemplo, al medir el ancho de banda de lectura de la L2 y L3 en un sistema aparentemente inactivo, es posible observar que, a veces, los valores de L2 bajan de unos 80 GB/s a alrededor de 60 GB/s, y los de L3 pueden caer de unos 45 GB/s a poco más de 35 GB/s sin una razón obvia aparente.

Una explicación frecuente es el throttling o cambios dinámicos de frecuencia y de estados de energía internos de la CPU. Sin embargo, hay escenarios en los que al abrir una herramienta de monitorización como HWINFO, las cifras vuelven mágicamente a los valores «buenos». Cuando se cierra esa herramienta, las puntuaciones vuelven a fluctuar a la baja.

Lo que suele ocurrir es que programas como HWINFO mantienen a la CPU en estados de rendimiento más altos, forzando frecuencias más estables, evitando que partes del anillo interno o de la caché entren en modos de reposo profundo. Si el benchmark se ejecuta sin nada más activo, el procesador tiende a ahorrar energía, lo que puede reducir de forma intermitente el ancho de banda efectivo medido, aunque las latencias medias no cambien tanto.

En esos casos se han llegado a plantear soluciones como mantener un hilo de «keep-alive» que haga trabajo ligero para evitar que la CPU se duerma, pero no siempre es fácil reproducir el efecto de una herramienta de monitorización, porque cada microarquitectura tiene su propio conjunto de estados de reposo y políticas internas.

La memoria caché y el rendimiento en juegos

En los videojuegos, la caché L3 tiene un papel muy destacado. Muchas cargas de trabajo de gaming se benefician enormemente de poder almacenar más datos e instrucciones cercanos a la CPU, desde estructuras de escenas hasta datos de física o lógica de juego. Cuanto más se reduzcan los accesos a RAM, más estables serán los FPS y menor será la variación de tiempos de fotograma.

Un procesador con una L3 generosa y bien aprovechada puede ofrecer mejoras claras en la estabilidad de la tasa de imágenes, sobre todo en títulos modernos que mueven gran cantidad de objetos y realizan muchas consultas repetitivas a estructuras de datos. En lugar de tener que ir constantemente a la RAM (mucho más lenta y con más latencia), la CPU puede servir la mayoría de peticiones desde su L3.

Cómo leer la salud de un disco duro o SSD y evitar perder datos

Eso sí, la caché no hace milagros. Una CPU con pocos núcleos, bajo IPC y frecuencias discretas seguirá limitada, incluso con gigantescas cantidades de L3. La combinación ganadora para juegos suele ser alto IPC, buena frecuencia, caché amplia y RAM rápida con baja latencia, de manera que el conjunto minimice cuellos de botella.

Cuando se abre un juego exigente, si se mide con un benchmark como AIDA64 en paralelo, se aprecia cómo los accesos a caché se disparan. Muchos de los microparones que se notan en algunos títulos se deben a picos de fallos de caché que obligan a ir a RAM, o a cambios en los hilos que rompen la localidad de datos que se había conseguido.

3D V-Cache de AMD y la carrera por más L3

Para romper el techo físico de lo que se puede integrar en caché L3 en un solo trozo de silicio plano, AMD introdujo su tecnología 3D V-Cache, que consiste en apilar verticalmente un chip adicional de L3 encima de un CCD (chiplet) del procesador. De este modo, se amplía enormemente la capacidad de la L3 sin tener que aumentar el tamaño base del die.

Los procesadores Ryzen con sufijo X3D, como el Ryzen 7 7800X3D o el 7950X3D, llevan esta idea al extremo. El 7800X3D, por ejemplo, combina 32 MB de L3 en el CCD base con otros 64 MB apilados, sumando 96 MB de caché L3 accesible por ese conjunto de núcleos. El 7950X3D va aún más allá con 128 MB de L3, además de 1 MB de L1 y 16 MB de L2 repartidos entre todos sus núcleos.

El impacto en juegos es enorme porque se disparan las tasas de acierto de caché, reduciendo la necesidad de ir a RAM para muchas estructuras que antes no cabían completas en la L3. Esto explica por qué estos modelos X3D han pasado a ser referencia en rendimiento gaming puro, incluso frente a CPUs con más núcleos o frecuencias algo superiores.

Por ahora, el principal competidor, Intel, no ha replicado una solución idéntica. La compañía ha indicado que, de momento, prefiere centrarse en un rendimiento general equilibrado antes que en un enfoque tan orientado a gaming como el de grandes bloques de L3 apilada. Eso no impide que pueda aumentar gradualmente el tamaño de sus propias cachés en futuras generaciones, pero no parece que vaya a adoptar un esquema de V-Cache exactamente igual en el corto plazo.

Cómo ver cuánta caché tiene tu procesador

Si quieres saber qué caché L1, L2 y L3 monta tu CPU sin volverte loco buscando documentación técnica, una de las formas más rápidas es usar herramientas como CPU-Z en Windows. Este programa gratuito muestra, en pestañas específicas, los tamaños de cada nivel de caché, así como el número de núcleos, hilos y otros datos relevantes.

Otra opción es acudir a la página oficial del fabricante (Intel ARK, fichas de producto de AMD, etc.), aunque muchas veces solo se detalla claramente la L3 y hay que rebuscar en documentos técnicos para ver L1 y L2. En análisis y reviews de medios especializados también se suele desglosar esta información, acompañada de benchmarks de latencia y ancho de banda.

Elegir y aprovechar bien la memoria RAM junto a la caché

La caché puede tapar gran parte de las carencias de la RAM, pero no todas. Al montar un equipo es importante escoger una memoria RAM adecuada en frecuencia, latencia y capacidad para el uso previsto. Un equipo de ofimática o navegación ligera puede ir bien con 8-16 GB y módulos de gama media, mientras que para juegos y edición de vídeo suele ser recomendable partir de 16 GB o 32 GB.

Conviene comprobar siempre la compatibilidad de la RAM con la placa base y la CPU (tipo DDR3, DDR4, DDR5, velocidades máximas soportadas, perfiles XMP/EXPO, etc.). También es buena idea buscar un equilibrio entre frecuencia alta y timings razonables, en lugar de fijarse solo en un número llamativo de MHz.

Para exprimir al máximo memoria y caché, ayuda mucho mantener el sistema limpio de programas en segundo plano innecesarios, actualizar BIOS y controladores y, en equipos que han visto mucho uso, borrar archivos temporales y caches de navegador que ya no aportan nada. Todo lo que reduzca la presión sobre RAM y CPU contribuye a que los recursos rápidos se utilicen para lo que realmente importa.

A nivel de BIOS, activar los perfiles automáticos de la memoria (XMP, DOCP, EXPO) suele ser una forma sencilla de asegurarse de que la RAM trabaja a la velocidad prometida por el fabricante, evitando quedarse anclado en valores conservadores que limitan el ancho de banda.

Entender cómo trabajan la latencia de la caché, su jerarquía L1/L2/L3, la relación con la RAM y tecnologías como 3D V-Cache permite leer con otros ojos las especificaciones de una CPU y los resultados de los benchmarks: más allá de los GHz y el número de núcleos, buena parte de la fluidez del sistema se decide en esos pocos nanosegundos que tarda el procesador en encontrar o no encontrar un dato en su memoria más cercana.

Tabla de Contenidos

De la brecha CPU-RAM al nacimiento de la memoria caché
Qué es la memoria caché de la CPU y cómo funciona
Niveles de caché: L1, L2, L3 e incluso L4
Latencia de la caché y su impacto en el rendimiento
Aciertos, fallos de caché y coherencia entre núcleos
Latencia de caché frente a RAM: frecuencia, timings y bus
Scratchpad RAM frente a caché automática
Latencia de caché, pruebas de rendimiento y efectos curiosos
La memoria caché y el rendimiento en juegos
3D V-Cache de AMD y la carrera por más L3
Cómo ver cuánta caché tiene tu procesador
Elegir y aprovechar bien la memoria RAM junto a la caché