Arquitectura CPU multinúcleo: núcleos, hilos y rendimiento

Informatec Digital » Recursos » Arquitectura de CPU multinúcleo y sistemas multiprocesador

Los procesadores multinúcleo integran varios núcleos completos dentro de un mismo chip, compartiendo parte de la circuitería para mejorar coste, consumo y rendimiento.
Un sistema multiprocesador monta varias CPU físicas en la placa base, logrando efectos similares a nivel de hilos pero con más complejidad y mayor coste.
Para aprovechar de verdad varios núcleos hacen falta sistemas operativos y aplicaciones paralelizadas, así como tecnologías como HyperThreading o SMT para exprimir cada núcleo.
El consumo energético, la disipación de calor y la miniaturización de transistores condicionan la evolución de CPU, GPU y chips especializados para IA y otros usos intensivos.

Si hoy abres prácticamente cualquier ordenador de sobremesa, portátil o incluso un smartphone, te encontrarás con un procesador multinúcleo diseñado para trabajar en paralelo. Aunque llevamos muchos años conviviendo con esta tecnología, todavía hay bastante confusión sobre qué significa tener varios núcleos, en qué se diferencian de tener varios procesadores físicos y cómo encaja todo esto con conceptos como HyperThreading, SMT o GPU.

Para aclarar todo este lío vamos a repasar, con calma pero sin rodeos, cómo es la arquitectura de una CPU multinúcleo, qué papel juega cada uno de sus componentes y cómo se aprovecha desde el sistema operativo y el software. Veremos también la diferencia real entre sistemas multinúcleo y multiprocesador, tocaremos el tema del consumo y la disipación de calor, y cerraremos con un vistazo al papel de las GPU y de los chips especializados en tareas como la IA o la edición de vídeo.

Función básica de la CPU en un ordenador

El procesador, la famosa CPU o Unidad Central de Procesamiento, es el circuito electrónico que interpreta y ejecuta las instrucciones de los programas. Está construido a partir de millones o miles de millones de transistores, organizados en puertas lógicas y rutas internas por las que circulan señales eléctricas que representan datos y órdenes.

Es precisamente esta CPU la que permite que un ordenador pase de ser un montón de chips y cables a convertirse en una máquina capaz de transformar señales eléctricas en operaciones con datos y, en muchos casos, en acciones físicas en el mundo real. Sin un procesador, un PC, una consola, un móvil o hasta un electrodoméstico “inteligente” serían poco más que un adorno caro.

Cuando ejecutas una aplicación de ofimática, compilas código, renderizas un vídeo o simplemente navegas por internet, tu CPU va leyendo instrucciones, moviendo datos entre memoria, registros y periféricos y coordinando el trabajo del resto del sistema. Esa orquesta de operaciones se mide en hercios (Hz), que indican cuántos ciclos de reloj por segundo puede completar el procesador.

Durante años la industria empujó sobre todo la frecuencia: la carrera por alcanzar y superar el gigahercio llevó a arquitecturas como NetBurst de Intel, diseñadas para escalar en GHz. Pero más adelante se toparon con un muro: cada aumento de frecuencia disparaba consumo y temperatura hasta niveles difíciles de controlar con disipadores convencionales.

Qué es exactamente un núcleo de procesador

Dentro del encapsulado de una CPU moderna no hay una única unidad de cálculo monolítica, sino varios bloques repetidos: cada núcleo (core) es en esencia una CPU completa integrada dentro del mismo chip. La combinación de todos esos núcleos, de sus cachés y de los buses internos es lo que solemos llamar la arquitectura del procesador.

En el ámbito del PC de consumo, la arquitectura dominante es x86 y sus extensiones de 64 bits. Esta arquitectura define el conjunto de instrucciones, registros, modos de direccionamiento y comportamiento general de los núcleos. Sobre ella se construyen procesadores con 2, 4, 8, 16 o más núcleos, todos capaces de ejecutar el mismo tipo de código máquina.

Si nos acercamos al detalle, veremos que cada núcleo está formado por varios bloques clave que cooperan para ejecutar instrucciones de forma rápida y ordenada. Aunque las implementaciones concretas cambian según el fabricante y la generación, los elementos fundamentales son muy similares.

En un núcleo típico encontramos, entre otros, los siguientes componentes:

Unidad de control (UC): se encarga de dirigir el flujo de instrucciones y coordinar de forma sincronizada el trabajo del núcleo y su comunicación con memoria y periféricos. Genera señales de control que indican qué hay que leer, escribir o decodificar en cada ciclo.
Unidad aritmético-lógica (ALU): es la parte que ejecuta operaciones aritméticas (sumas, restas, desplazamientos) y lógicas (AND, OR, XOR, comparaciones) sobre los datos que recibe. Suele haber varias ALU para paralelizar microoperaciones.
Registros: son pequeñas celdas de memoria ultrarrápida donde se almacenan temporalmente datos, direcciones y resultados intermedios de las instrucciones en ejecución. Actúan como “mesa de trabajo” inmediata del núcleo.

Alrededor de estos elementos también hay cachés de distintos niveles (L1, L2, a veces L3 compartida), colas de instrucciones, lógica de predicción de saltos y unidades especializadas en operaciones de coma flotante o vectoriales. Todo ello se combina para procesar un flujo continuo de instrucciones con la mayor eficiencia posible.

Por qué pasamos de subir GHz a sumar más núcleos

En los inicios de la informática personal, la forma más sencilla de vender más potencia era subir la frecuencia de reloj: cuantos más ciclos de reloj por segundo, más instrucciones se podían completar si la arquitectura lo permitía. Lograr el primer procesador a 1 GHz fue todo un hito tanto en servidores como en PCs domésticos.

El primer chip comercial que alcanzó el gigahercio fue el DEC Alpha a principios de los 90, un procesador pensado para estaciones de trabajo y servidores. En el ámbito doméstico, allá por 1999, Intel con su Pentium III y AMD con sus Athlon alcanzaron también la barrera del GHz, y durante un tiempo el marketing se centró en el “mientras más GHz, mejor”.

Cómo volver a un punto anterior en Windows sin perder datos

Sin embargo, pasado cierto punto, los fabricantes se encontraron con que subir aún más la frecuencia disparaba la generación de calor y el consumo de energía de forma brutal. El núcleo sufría tensiones térmicas enormes y los sistemas de refrigeración necesarios dejaban de ser razonables para el usuario medio.

En ese contexto surgió el cambio de estrategia: si escalar en MHz y GHz era cada vez menos viable, la alternativa lógica era introducir varios núcleos capaces de trabajar a la vez sobre tareas distintas. En vez de un único núcleo a 10 GHz, la industria se orientó a ofrecer dos, cuatro, ocho o más núcleos trabajando a frecuencias más contenidas.

La idea es relativamente sencilla: si un núcleo es capaz de procesar una cierta cantidad de instrucciones por unidad de tiempo, varios núcleos pueden repartir la carga de trabajo y aumentar el rendimiento global, sobre todo si el software está preparado para ejecutarse en paralelo. Esa es la base de la arquitectura multinúcleo moderna.

Los primeros procesadores multinúcleo y su evolución

Aunque el usuario doméstico empezó a oír hablar de dual core hacia mediados de los 2000, los primeros procesadores multinúcleo ya se utilizaban en entornos de servidores y grandes sistemas. Como suele pasar, la tecnología bajó primero desde el mundo corporativo.

Uno de los hitos iniciales fue el IBM POWER4, considerado el primer procesador comercial con dos núcleos integrados en un mismo chip. Apareció alrededor de 2000-2001 con frecuencias en torno a 1,1 GHz y se orientaba a servidores de gama alta.

En el mercado de consumo, el salto llegó algo más tarde. En 2005, Intel lanzó el Pentium Extreme Edition 840, un procesador de doble núcleo para escritorio que además incorporaba HyperThreading, de forma que el sistema operativo veía cuatro procesadores lógicos. Poco después AMD respondió con los Athlon X2.

Paralelamente, se exploró otra vía: los sistemas multiprocesador, en los que una placa base aloja dos o más CPUs físicas completas. Esta opción ofrecía mucho rendimiento, pero a costa de complejidad, consumo y precio, por lo que quedó principalmente para servidores y estaciones de trabajo potentes.

Con el tiempo, y gracias a la miniaturización de los transistores, fue posible integrar cada vez más núcleos en un solo circuito integrado, reduciendo tamaño y consumo por unidad de rendimiento. Procesos de fabricación en torno a 7 nm o incluso menos han permitido introducir auténticos monstruos de hasta 32 o 64 núcleos en el ámbito profesional.

Multinúcleo frente a multiprocesador: ¿son lo mismo?

A nivel conceptual, un sistema multinúcleo y un sistema multiprocesador se parecen mucho: en ambos casos hay varios “cerebros de cálculo” capaces de ejecutar hilos de forma simultánea. De ahí que muchas explicaciones (como la de Superuser que mencionabas) resuman la diferencia como algo principalmente físico y económico.

En un equipo multiprocesador clásico tienes varias CPU físicas instaladas en distintos zócalos de la placa base, cada una con sus propios núcleos, cachés y controladores. En un chip multinúcleo moderno, en cambio, todos esos núcleos viven dentro del mismo encapsulado y comparten parte de la circuitería, como determinadas cachés o el acceso a memoria.

¿En qué se traduce esto en la práctica? En que un sistema multinúcleo suele ser más eficiente en coste, espacio y consumo que montar varios procesadores físicos separados para lograr un número similar de núcleos. La lógica de coherencia de caché y los buses internos están mucho más integrados y optimizados.

Ahora bien, desde el punto de vista del sistema operativo y de la mayoría de las aplicaciones, un núcleo es simplemente una unidad de ejecución capaz de correr hilos, da igual si está en el mismo chip que otros núcleos o en una CPU aparte. Por eso muchas descripciones simplifican y dicen que multinúcleo y multiprocesador “hacen lo mismo”.

Las tablas comparativas de algunas webs (como las que enlazas de GeeksforGeeks o Javatpoint) a veces exageran las diferencias, llegando a afirmar cosas como que “un sistema multinúcleo sólo sirve para ejecutar un único programa rápido y los multiprocesador son necesarios para varios programas”, lo cual no es correcto. Ambos tipos de sistemas pueden ejecutar múltiples procesos y múltiples hilos; la diferencia real está en cómo se ha resuelto físicamente la implementación y en matices de coherencia de memoria, latencias y escalabilidad.

Qué hace falta para aprovechar de verdad varios núcleos

Poner muchos núcleos sobre el silicio es solo la mitad de la historia. Para exprimirlos hace falta que el sistema operativo y, sobre todo, las aplicaciones estén diseñadas para paralelizar su carga de trabajo en varios hilos. Durante un tiempo, este fue el verdadero cuello de botella en el salto al multinúcleo.

Los sistemas operativos modernos (Windows, Linux, macOS, etc.) son plenamente multiproceso y capaces de distribuir procesos e hilos entre los diferentes núcleos físicos y lógicos disponibles. El planificador (scheduler) se encarga de decidir qué hilo se ejecuta en qué núcleo y durante cuánto tiempo.

El problema histórico no estaba tanto en el sistema operativo como en el software de usuario. Muchos programas antiguos estaban escritos pensando en un único hilo de ejecución, de modo que, aunque el equipo tuviera 4 u 8 núcleos, esa aplicación concreta sólo saturaba uno. En esos casos, añadir más núcleos apenas mejoraba el rendimiento de esa tarea puntual.

Trucos de Windows para dominar tu PC como un experto

Con el tiempo, y a golpe de necesidad (edición de vídeo, diseño 3D, simulaciones, servidores de bases de datos, etc.), los desarrolladores empezaron a diseñar aplicaciones con soporte multinúcleo real, dividiendo el trabajo en hilos capaces de ejecutarse en paralelo. En este contexto es donde cobran protagonismo los conceptos de hilos de proceso, subprocesos o threads.

Hoy, programas profesionales de diseño, renderizado, edición de vídeo o CAD suelen escalar muy bien con el número de núcleos e hilos, mientras que muchos videojuegos todavía van más limitados por uno o pocos hilos pesados (aunque también en gaming se ha progresado bastante en paralelismo).

HyperThreading, SMT y los hilos lógicos

Además de multiplicar núcleos físicos, los fabricantes introdujeron otra idea interesante: hacer que cada núcleo físico pueda manejar más de un hilo de ejecución “a la vez” mediante multithreading simultáneo. En Intel esto se popularizó bajo el nombre de HyperThreading; en AMD se suele hablar de SMT (Simultaneous Multi-Threading).

La base de esta técnica es que dentro de un núcleo hay muchas unidades de ejecución que no siempre están ocupadas al 100%. Si sólo manejas un hilo, hay momentos en los que el núcleo se queda esperando datos de memoria o resultados de otro bloque interno, desperdiciando potencial.

El multithreading simultáneo permite que dos (o más) hilos lógicos compartan el mismo núcleo físico y sus recursos internos, rellenando huecos en la tubería de ejecución. Para el sistema operativo parece que hay más “procesadores” disponibles, pero en realidad lo que se ha hecho es exprimir mejor el hardware existente.

Por ejemplo, un procesador de 4 núcleos con HyperThreading activado será visto por el sistema como 8 procesadores lógicos, lo que ayuda en escenarios con muchas tareas ligeras o con bastante espera de memoria. Intel ofrece esta tecnología en muchas de sus gamas Core y Xeon, mientras que AMD la utiliza en Ryzen y EPYC bajo el paraguas de SMT.

Importante: un hilo lógico no equivale en rendimiento a un núcleo físico extra, pero sí aporta una mejora apreciable en determinados tipos de carga. De ahí que se hable de “núcleos reales” frente a “procesadores lógicos” al mirar el Administrador de tareas de Windows u otras herramientas de monitorización.

Cómo saber cuántos núcleos y hilos tiene tu CPU

En sistemas Windows, si abres el Administrador de tareas y entras en la pestaña Rendimiento verás un apartado específico para la CPU. Allí se indica tanto el número de núcleos físicos como el número de procesadores lógicos (hilos) disponibles.

Conviene tener en cuenta que algunas utilidades del sistema o herramientas clásicas no distinguen siempre entre núcleo físico e hilo lógico y pueden referirse a ambos simplemente como “procesadores”. Por eso es habitual que un procesador de 6 núcleos con SMT activado aparezca como 12 “CPUs” en ciertos listados.

En otros sistemas operativos la situación es similar: Linux ofrece comandos como lscpu o cat /proc/cpuinfo para ver el desglose de núcleos físicos e hilos, y en macOS se puede consultar la información del sistema o usar herramientas de línea de comandos.

Esta diferencia entre núcleos e hilos es relevante a la hora de entender qué estás comprando o qué puedes esperar de tu equipo: no es lo mismo un procesador con 4 núcleos y 8 hilos que otro con 8 núcleos y 8 hilos, aunque ambos se anuncien como “8 hilos”. El segundo tendrá, en general, más músculo bruto para cargas muy paralelas.

GPU, microprocesadores y otros componentes relacionados

Aunque cuando pensamos en arquitectura multinúcleo solemos centrarnos en la CPU, hay otros procesadores especializados que también trabajan con decenas o miles de núcleos para acelerar tareas concretas. El caso más conocido es el de las GPU.

Una unidad de procesamiento gráfico (GPU) es un tipo de procesador orientado a ejecutar un gran número de operaciones simples en paralelo. Nació para acelerar el renderizado de gráficos en PC, consolas y móviles, pero hoy se usa masivamente en IA, minería de criptomonedas y cálculo científico.

Al igual que la CPU, una GPU está formada por transistores y bloques lógicos, pero su arquitectura interna está optimizada para el paralelismo masivo, con muchos núcleos pequeños organizados en grupos capaces de procesar grandes volúmenes de datos de forma muy regular. Por eso brillan tanto en gráficos y en redes neuronales.

En el terreno de la CPU clásica, la miniaturización ha dado lugar a los microprocesadores: CPUs completas integradas en un único chip de circuito integrado, con uno o varios núcleos físicos. Hoy en día, prácticamente todas las CPU de consumo son microprocesadores multinúcleo.

En ese microprocesador, cada núcleo físico se apoya en un ecosistema de cachés, buses internos y controladores de memoria y de entrada/salida, todo empaquetado en muy poco espacio. Esto permite montar sistemas muy potentes en placas base compactas, algo clave para portátiles, mini PCs y dispositivos embebidos.

Consumo de energía, calor y diseño de centros de datos

El consumo eléctrico es uno de los factores que más condiciona la evolución de las CPU multinúcleo. Cuantos más núcleos añadimos y más frecuencia aplicamos, más potencia se disipa en forma de calor. Ese calor hay que sacarlo físicamente del chip para que no se destruya.

Las mejores tarjetas de video dedicadas para juegos

En un PC doméstico esto se traduce en disipadores de mayor tamaño, ventiladores más potentes o incluso sistemas de refrigeración líquida. En un centro de datos, donde hay miles de servidores trabajando a pleno rendimiento, la ecuación se vuelve crítica: el coste de refrigeración puede ser enorme.

Por ello, los grandes proveedores de nube y los centros de datos a hiperescala diseñan infraestructuras con climatización muy estudiada, pasillos fríos y calientes y, en algunos casos, refrigeración líquida directa sobre los componentes. Al final, cada vatio que se ahorra por procesador se multiplica por miles de máquinas.

A nivel doméstico también entra en juego la sostenibilidad: un equipo muy potente puede consumir bastante energía si se le exige continuamente. Esto es aceptable para tareas pesadas puntuales, pero no tiene mucho sentido si sólo vamos a navegar, ver vídeo y hacer ofimática sencilla.

Por eso, los fabricantes cuidan cada vez más la eficiencia: arquitecturas híbridas con núcleos de alto rendimiento y núcleos de alta eficiencia, escalado dinámico de frecuencia y voltaje y modos de reposo profundos ayudan a reducir el consumo cuando no se necesita toda la potencia.

Chips especializados y el papel de la IA

La explosión reciente de la inteligencia artificial ha llevado a la aparición de procesadores y aceleradores diseñados específicamente para cargas de trabajo de machine learning y redes neuronales. Aquí ya no hablamos solo de CPU y GPU, sino también de unidades como los Tensor Processing Units (TPU) o Tensor Streaming Processors (TSP).

Estos chips se centran en ofrecer un rendimiento brutal en operaciones matriciales y vectoriales, típicas del entrenamiento e inferencia de modelos de IA. Suelen incluir cientos o miles de unidades de cálculo simples pero muy bien organizadas para maximizar el paralelismo de datos.

En el ámbito de las CPU de propósito general también hay modelos especialmente pensados para estas cargas. Por ejemplo, procesadores con decenas de núcleos como ciertos Threadripper de AMD o gamas altas de Intel Core e Intel Xeon son muy apreciados para edición de vídeo, renderizado y tareas mixtas de IA y creatividad.

Según el uso que vayas a darle al equipo, tiene sentido priorizar unas características u otras: para edición de vídeo profesional te interesan muchos núcleos de CPU y una buena GPU, para gaming te importa mucho la latencia y el rendimiento por núcleo y para tareas generales basta casi cualquier CPU moderna de gama media.

Todo esto convive con el avance constante en densidad de transistores: cada nueva generación de proceso de fabricación permite meter más lógica en el mismo espacio o reducir consumo para una potencia similar. De ahí que veamos CPUs recientes que superan de largo a modelos de hace pocos años tanto en rendimiento como en eficiencia.

Transistores: la base de toda esta arquitectura

Debajo de toda la jerga de núcleos, hilos, cachés y GPUs hay un componente humilde pero fundamental: el transistor, ese pequeño dispositivo semiconductor que controla el paso de corriente en un circuito. Su nombre viene de “transfer resistor” (resistencia de transferencia).

En informática, los transistores se utilizan para construir puertas lógicas, registros, memorias y todo tipo de bloques digitales. Son los responsables de implementar físicamente el lenguaje binario de 0 y 1 que los ordenadores usan para representar la información y la lógica booleana.

La evolución de la electrónica moderna se puede resumir como una carrera por meter cada vez más transistores en menos espacio, reduciendo a la vez el consumo por transistor. Esa es la esencia de las sucesivas generaciones de procesos de fabricación: de micrómetros (µm) se ha pasado a nanómetros (nm) y se sigue bajando.

En una CPU multinúcleo contemporánea hay miles de millones de estos pequeños interruptores electrónicos trabajando a toda velocidad. Su fiabilidad, su tamaño y su eficiencia determinan, en última instancia, las prestaciones y límites de cualquier arquitectura de procesador.

Si lo pensamos con perspectiva, toda la magia de ejecutar varios hilos, coordinar múltiples núcleos, compartir cachés o mover datos entre CPU, GPU y aceleradores especializados no es más que una coreografía gigantesca de transistores que se encienden y apagan siguiendo patrones muy bien definidos.

Visto todo lo anterior, podemos hacernos una idea mucho más clara de qué hay realmente detrás de un “procesador multinúcleo” más allá de la simple cifra de núcleos. Importa el número de núcleos y su frecuencia, sí, pero también la arquitectura interna, el soporte de tecnologías como HyperThreading o SMT, la eficiencia energética, el diseño del software que los aprovecha y la convivencia con otros procesadores como la GPU. Entender estas piezas te permite elegir mejor tu hardware y, sobre todo, poner en contexto lo que de verdad significan esas especificaciones que ves en las fichas técnicas.