Otimização do cache da CPU e melhoria de desempenho no Windows

Informatec Digital » Recursos » Otimização e desempenho do cache da CPU no Windows

A hierarquia de memória e o projeto das estruturas de dados determinam, em grande parte, a utilização do cache da CPU.
Agrupar dados frequentemente acessados, usar contêineres contíguos e padrões SoA reduz falhas de cache e melhora a latência.
No Windows, atualizar o sistema e os drivers, além de limitar os processos em segundo plano, libera CPU, RAM e cache.
Complementar as otimizações de software com ajustes de energia e, se necessário, melhorias de hardware, maximiza o desempenho geral.

La otimização do cache da CPU É um daqueles tópicos que diferencia o código que "funciona" do código que "voa". Quando entendemos como a memória é organizada, quais tempos de acesso cada nível gerencia e como o hardware se comporta, podemos alcançar melhorias de desempenho significativas sem precisar trocar de máquina.

Entretanto, um número significativo de usuários do Windows sofre com um problema mais corriqueiro: seus PCs estão lentos. E, frequentemente, a raiz do problema reside justamente aí, no uso ineficiente de memória, cache e da própria CPU. Com uma combinação de bom design de baixo nível (estruturas de dados, padrões de acesso à memória) e configurações práticas no Windows (limpeza, atualização, modos de energia, etc.), melhorias muito perceptíveis podem ser alcançadas, desde pequenos aumentos de 5% até saltos de 30-40% em determinados cenários.

Hierarquia de memória e latências: por que as regras de cache

Antes de começarmos a ajustar o código ou configurar o Windows, precisamos entender uma coisa claramente: nem toda memória é igual. A diferença entre acessar os caches L1, L2 e L3, a RAM ou o disco é enorme, e muitas otimizações de cache são baseadas justamente nisso. evite ir para níveis lentos todo o possível.

Em um processador moderno, os tempos de acesso típicos (ordem de grandeza) são aproximadamente os seguintes: um acesso ao Cache L1 É cerca de meio nanossegundo; uma falha na previsão de um salto leva vários nanossegundos. L2 É em torno de 7 ns, enquanto o acesso à memória principal pode ultrapassar 100 ns. Se considerarmos conexões externas ao dispositivo (rede, SSD, disco rígido mecânico), os números disparam para centenas de milhares ou milhões de nanossegundos.

Essa diferença gritante é o que torna a organização adequada dos dados, a redução de falhas de cache e o design de padrões de acesso sequencial tão importantes. Um loop que reside no cache L1 será significativamente mais rápido do que um que acessa constantemente a RAM ou o SSD, mesmo que executem a mesma função logicamente.

Além disso, o cache da CPU é organizado em vários níveis: L1, muito pequeno e extremamente rápido; L2, maior e um pouco mais lento; e L3, ainda maior, frequentemente compartilhado entre os núcleos. A ideia é manter os dados "quentes" (os dados usados com frequência) sempre à mão e relegar o restante para níveis mais lentos. Como desenvolvedores, podemos contribuir para que isso aconteça naturalmente com um bom design de estrutura de dados e com acesso previsível.

O que é cache e por que ele afeta o desempenho?

O cache, em qualquer contexto (CPU, disco, web…), é um armazenamento rápido de dados usados recentementeEm vez de acessar sempre a fonte mais lenta, mantemos uma cópia daquela que provavelmente será reutilizada. Isso reduz o tempo de resposta e a sobrecarga nos recursos primários.

De forma geral, o cache é usado para acelerar o acesso e melhorar a experiência do usuário. Na prática, ele também permite que o sistema execute mais trabalho com o mesmo hardware: menos espera, menos bloqueios e menos filas. É por isso que ele é usado em CPUs, discos, navegadores, sistemas distribuídos e praticamente qualquer software que lide intensivamente com dados.

Um PC típico contém vários tipos de cache: cache de disco (RAM que armazena dados do disco rígido), cache da web (recursos estáticos do navegador) e cache da CPU (L1, L2, L3). Todos funcionam com a mesma ideia básica: armazenar o que provavelmente será necessário mais tarde, evitando a repetição de operações lentas.

Tipos de cache: cache de disco, cache web e cache de CPU.

Em um sistema do mundo real, vários mecanismos de cache convergem, cada um em seu próprio nível. Compreendê-los ajuda tanto a programar melhor quanto a diagnosticar por que um computador está apresentando desempenho inferior ao esperado.

Cache de disco

O cache de disco é uma área de memória (geralmente RAM) onde o sistema operacional armazena dados. Armazena dados lidos ou gravados recentemente no disco.Quando o aplicativo solicita esses dados novamente, o sistema primeiro verifica o cache: se estiver lá, o acesso é muito mais rápido do que acessar o disco, especialmente se estivermos falando de discos mecânicos.

Esse mecanismo reduz drasticamente os tempos de carregamento, diminui o número de operações físicas de leitura e gravação e, por sua vez, prolonga a vida útil do disco.Em cenários com acesso repetitivo aos mesmos arquivos (bancos de dados, servidores, aplicativos pesados), o cache em disco faz uma grande diferença.

Cache da web

No navegador, o cache da web armazena temporariamente imagens, folhas de estilo, JavaScript e outros recursos. Graças a isso, quando você revisita uma página ou navega entre seções dentro do mesmo site, o navegador pode... Utilize o que você já tem armazenado. em vez de encomendá-lo novamente online.

O resultado é duplo: tempos de carregamento mais curtos para o usuário e menor consumo de largura de banda, tanto na sua conexão quanto no servidor que fornece o conteúdo. No entanto, se o cache não for gerenciado corretamente, recursos desatualizados podem aparecer, e é por isso que às vezes é recomendável limpá-lo.

Cache da CPU: níveis L1, L2 e L3

A joia da coroa em termos de desempenho é o cache da CPU. Os processadores modernos incluem vários níveis hierárquicos projetados para minimizar a latência de acesso a dados e instruções. De modo geral, o L1 é o menor e mais rápido, o L2 é intermediário e o L3 é o maior e mais lento, frequentemente compartilhado.

La Cache L1 Geralmente é dividido em instruções e dados, com tamanhos típicos de algumas dezenas de KB por núcleo. É extremamente rápido e usado para as tarefas mais imediatas. Cache L2 Possui maior capacidade (centenas de KB a vários MB) e funciona como um backup de camada 1. Cache L3 Pode atingir vários MB ou dezenas de MB, compartilhados por vários núcleos, e serve como o último nível antes de acessar a RAM.

Automação avançada no Windows com PowerShell DSC e Ansible

Quando o padrão de acesso à memória é razoavelmente sequencial ou previsível, o hardware consegue antecipá-lo e trazer os dados para esses níveis de cache. Quando é caótico, cheio de saltos aleatórios e estruturas dispersas, o processador gasta muito tempo. aguardando memória e a CPU fica "entediada". É aí que entra a otimização em nível de código.

Otimizar estruturas de dados para cache de CPU

Grande parte do desempenho depende de como projetamos nossas estruturas de dados. Não é a mesma coisa ter um objeto gigante com campos "quentes" e "frios" misturados do que separar o que é usado com frequência do que é usado raramente. Cada linha de cache trazida para o processador tem um custo; se preenchermos essas linhas com dados inúteis, estaremos desperdiçando largura de banda.

Agrupe os dados quentes e separe os dados frios.

Uma estratégia fundamental é identificar quais campos em uma estrutura são acessados em quase todas as operações (dados "quentes") e quais são usados apenas ocasionalmente (dados "frios"). Os primeiros devem para estarmos juntos na memória e, se possível, caber em uma ou algumas linhas de cache. Esta última pode estar em uma estrutura separada, referenciada por um ponteiro ou índice.

Por exemplo, em vez de ter um objeto de usuário com strings longas (nome, biografia, e-mail) misturadas com indicadores ou marcadores que são constantemente verificados, é melhor agrupar os dados "quentes" (id, último login, status ativo) em uma estrutura compacta e deixar o restante das informações em uma estrutura separada de "detalhes". Dessa forma, quando o código itera por uma lista de usuários para verificar um status ou marcador, as linhas de cache estão quase que totalmente preenchidas com dados relevantes.

Reduza o uso de enchimento e aproveite melhor cada linha.

Outra frente de batalha reside no projeto físico das estruturas: o ordem dos campos e seus tipos. Devido ao alinhamento, misturar tipos de tamanhos diferentes de forma desordenada pode introduzir bytes de preenchimento que apenas servem para desperdiçar memória e, pior ainda, linhas de cache.

Se reorganizarmos uma estrutura de dados para agrupar primeiro os tipos grandes (por exemplo, doubles ou int64_t), depois os tipos médios e, por fim, os tipos menores (bool, char), normalmente reduzimos ou eliminamos grande parte do preenchimento. Isso permite que mais elementos caibam em cada linha de cache, reduzindo a sobrecarga na hierarquia de memória e a probabilidade de falhas de memória.

Escolha contêineres adjacentes

Os recipientes que armazenam os itens em memória contíguaOs vetores, como um tipo de matriz, são geralmente muito mais amigáveis ao cache do que estruturas baseadas em nós esparsos ligados por ponteiros (árvores, listas encadeadas clássicas, etc.). Ao percorrer um vetor, o hardware pode prever perfeitamente o próximo acesso e pré-carregar as linhas de cache seguintes.

Em contraste, estruturas como mapas baseados em árvores ou listas encadeadas distribuem seus nós pela memória heap, forçando a CPU a realizar buscas contínuas de ponteiros. Cada salto pode resultar em uma falha de cache e uma custosa viagem de volta à memória principal. É por isso que muitas bibliotecas modernas oferecem mapas de hash densosTabelas abertas e outros contêineres que tentam manter os dados o mais compactos possível.

Armazenamento online para pequenas coleções

Muitos algoritmos envolvem coleções muito pequenas (alguns inteiros, algumas estruturas) que são constantemente criadas e destruídas. Se cada uma delas causar uma alocação de memória heap, não apenas incorremos em custos de gerenciamento de memória, mas também temos dados espalhados pela RAM. A solução é usar contêineres com armazenamento online para tamanhos pequenos.

Esse tipo de contêiner reserva espaço para 8 ou 16 elementos diretamente dentro do próprio objeto. Enquanto esse limite não for excedido, não há necessidade de acessar o heap, e os dados permanecem vinculados ao restante do estado da função ou classe, o que é muito benéfico para o cache.

Padrões de acesso: da Análise de Sistemas (AoS) à Análise de Sistemas (SoA) e o uso de conjuntos de bits.

Mesmo com caches bem estruturadas, o padrão de acesso aos dados determina em grande parte o desempenho. Percorrer um array sequencialmente não é o mesmo que saltar de um endereço para outro com base em uma lista de ponteiros. Existem algumas técnicas recorrentes para maximizar a utilização do cache.

Matriz de Estruturas (AoS) vs. Estrutura de Matrizes (SoA)

Um padrão clássico é a transição de um design de "matriz de estruturas" (AoS) para um design de "matriz de estruturas" (SoA). Em AoS, cada elemento é um objeto com muitos campos (por exemplo, a posição e a massa de uma partícula), e esses elementos são armazenados sequencialmente. Quando você precisa ler apenas uma parte desses campos (por exemplo, a posição), você é forçado a carregar linhas de cache que também contêm dados não utilizados.

Em SoA, por outro lado, os diferentes atributos são separados em matrizes paralelas: uma para x, outra para y, outra para z, outra para massa, etc. Assim, se um algoritmo atualiza apenas as posições, ele só acessa as matrizes de coordenadas, e o O cache não está contaminado com informações irrelevantes.Além disso, esse projeto favorece a vetorização e o uso de instruções SIMD.

Conjuntos de bits e referências por índice

Para domínios pequenos (por exemplo, flags variando de 0 a 255), usar um conjunto de bits é muito mais eficiente do que uma estrutura de conjunto baseada em hash. Um conjunto de bits de 256 posições ocupa apenas algumas dezenas de bytes e permite operações muito rápidas, totalmente contíguas e otimizadas para cache, em vez de ter que resolver colisões em uma tabela hash.

Da mesma forma, substitua os ponteiros por índices em matrizes contíguas Isso pode reduzir o tamanho das estruturas (índices de 32 bits em vez de ponteiros de 64 bits) e melhorar a coerência do cache. Em vez de nós espalhados pelo heap, um vetor de nós é armazenado e eles são referenciados por sua posição, facilitando as travessias sequenciais.

Como reverter para um ponto anterior no Windows sem perder dados

Pré-busca: quando se antecipar ao trabalho

Além da pré-busca por hardware, que tenta antecipar padrões de acesso sequencial, temos instruções de pré-busca por software para carregamento de dados avançado Em casos específicos. Isso faz sentido quando o padrão é previsível, mas não estritamente linear, como ocorre em tabelas hash ou listas encadeadas.

A ideia geral é simples: ao processar o elemento i, você instrui o hardware a trazer o elemento i+1 (ou algum bloco futuro) para o cache. Quando esse elemento é alcançado, a probabilidade de ele já estar em L1 ou L2 é alta, e o tempo de espera é reduzido. Isso pode ser implementado com primitivas de pré-busca do compilador ou bibliotecas específicas.

No entanto, não faz sentido usar pré-busca explícita em acessos completamente sequenciais, porque o hardware já lida com isso automaticamente. Na verdade, adicionar pré-busca desnecessária pode sujar o cache e piorar o desempenho. Como quase sempre acontece com o desempenho, o ideal é medir antes e depois.

Políticas de localização em cache, substituição e pré-busca

Em um nível mais teórico, os sistemas de cache são baseados em políticas que definem onde armazenar dados, quando recuperá-los e quais dados remover quando não houver espaço suficiente. Embora esses detalhes sejam gerenciados pelo hardware ou pelo sistema operacional, compreendê-los ajuda a interpretar certos comportamentos incomuns.

Em relação à localização, podem ser utilizados esquemas de segmentação de memória ou alocação associativa por conjuntos, onde cada endereço de memória principal só pode ser mapeado para um subconjunto do cache. Isso influencia o número de conflitos e a probabilidade de dois endereços se sobreporem dentro do cache.

Em relação à limpeza do cache (o que acontece quando ocorre uma falha de cache), entram em jogo as políticas de substituição: LRU (Least Recently Used - Menos Recentemente Usado), FIFO (First-In, First-Out - Primeiro a Entrar, Primeiro a Sair) ou até mesmo substituição aleatória. O LRU tenta manter os dados usados mais recentemente no cache, presumindo que serão necessários novamente, enquanto o FIFO simplesmente descarta os dados mais antigos. Cada política tem suas vantagens, dependendo do padrão de acesso real.

Na seção de pré-busca, existem mecanismos baseados em padrões históricos: se o hardware detectar que cada acesso é deslocado, por exemplo, sempre em 64 bytes, ele tenderá a antecipe blocos adjacentesEm outros casos, o pré-carregamento de espaço (trazer um bloco inteiro mesmo que você tenha solicitado apenas uma parte dele) é usado para minimizar o número de acessos à memória principal.

Medição e análise do comportamento do cache

Otimizar sem medir é como entrar às cegas. Existem ferramentas de análise de desempenho que permitem visualizar métricas específicas de cache: referências, falhas de cache de nível 1 (L1), falhas de cache de último nível (LLC), porcentagem de falhas, etc. Essas métricas indicam se as suas alterações estão realmente melhorando a situação.

Se, por exemplo, a porcentagem de falhas no cache de nível 1 for em torno de 2 a 3%, geralmente é considerada razoável, enquanto taxas de falhas muito altas no cache de último nível podem indicar problemas com localização espacial ou temporalA combinação desses dados com os perfis de CPU e memória ajuda a detectar quais partes do código estão exercendo maior pressão sobre a hierarquia de memória.

Otimização de cache e desempenho no Windows

Além do próprio código, muitos usuários se perguntam por que seus PCs com Windows funcionam tão lentamente se, "em teoria", possuem um bom processador e memória RAM. Parte da resposta está no próprio sistema, nos aplicativos instalados e no acúmulo de arquivos inúteis. Eles consomem CPU, memória e cache. constantemente, deixando menos recursos para tarefas importantes. Aplicando diversas otimizações específicas no Windows 10 e no Windows 11, é possível liberar recursos de CPU e RAM (Por exemplo, configurando a memória virtual.), reduzindo processos em segundo plano e melhorando a capacidade do sistema de armazenar em cache dados relevantes. Dependendo da situação inicial, essas melhorias podem variar de pequenos ajustes a mudanças muito perceptíveis no desempenho geral.

Atualizar o Windows e os drivers

Um passo muito básico que muitas pessoas negligenciam é manter o sistema operacional e os drivers atualizados. As atualizações do Windows não trazem apenas correções de segurança: elas geralmente incluem melhorias na gestão de recursos, correções de vazamento de memória e otimização de kernel.

No painel de configurações do Windows (Iniciar > Configurações > Atualização e Segurança > Windows Update), você pode pesquisar atualizações gerais e pacotes opcionais, incluindo drivers não essenciais que podem otimizar o desempenho da sua CPU, GPU ou chipset. A instalação desses componentes pode resolver gargalos ou problemas de estabilidade que afetam diretamente a utilização do cache e da memória.

Desativar a distribuição P2P de atualizações

Desde o Windows 10, o sistema pode baixar e compartilhar atualizações usando um mecanismo P2P com outros computadores. Embora engenhoso, esse sistema significa que o computador... Utiliza CPU, rede e disco. para ajudar na distribuição de atualizações, algo que nem sempre é desejável.

Desativar a "Otimização de Entrega" no Windows Update impede que seu computador envie ou baixe fragmentos de atualização para outros computadores. Isso libera recursos, reduz a atividade em segundo plano e pode melhorar o desempenho geral, especialmente em sistemas menos potentes.

Libere espaço em disco e remova arquivos desnecessários.

Quando o disco está cheio ou quase cheio, o Windows tem menos espaço para paginação e criação de arquivos temporários, o que acaba afetando o desempenho. Use a ferramenta integrada de Limpeza de disco Permite excluir arquivos temporários, resquícios de atualizações, itens da lixeira e outros dados que não são mais necessários.

Além dessa ferramenta de limpeza, é recomendável esvaziar regularmente a Lixeira e usar as opções de armazenamento do Windows para excluir arquivos temporários acumulados. Quanto menos espaço houver na unidade do sistema, mais eficientemente o subsistema de memória funcionará e mais eficazmente o cache de disco atuará.

Significado dos ícones do Windows 11 e sua evolução

Otimizar programas de inicialização e em segundo plano

Um dos maiores inimigos da CPU e do cache em um PC usado diariamente são os programas que iniciam automaticamente e rodam em segundo plano: sincronizadores, atualizadores, pequenos utilitários que quase não usamos, etc. Embora possam parecer leves, cada um deles adiciona threads, memória, acessos ao disco e consumo de cache.

A partir do Gerenciador de Tarefas ou com Sysinternals para controle de processosNa guia Início, é possível desativar aplicativos desnecessários Para evitar que sejam carregados automaticamente. Além disso, nas configurações de Privacidade, você pode controlar quais aplicativos têm permissão para serem executados em segundo plano. Reduzir essa lista não só melhora o tempo de inicialização, como também diminui a carga contínua na CPU e na RAM.

Reduzir efeitos gráficos e notificações

Animações de janelas, transparências e outros efeitos visuais consomem recursos. Em computadores mais antigos ou menos potentes, pode ser vantajoso ajustar as configurações do Windows para priorizar o desempenho em detrimento da aparência. Isso é feito nas opções avançadas do sistema, na seção de desempenho, selecionando a configuração que prioriza a velocidade.

Da mesma forma, um excesso de notificações pode saturar o usuário e a equipeDesativar alertas desnecessários não só melhora a experiência do usuário, como também impede que processos ou verificações em segundo plano sejam acionados com muita frequência.

Modos de energia, hibernação e desempenho máximo.

O Windows inclui diversos planos de energia que influenciam diretamente o gerenciamento da CPU: priorizando a duração da bateria ou o desempenho máximo. Em desktops e laptops conectados à tomada, geralmente é uma boa ideia revisar essas configurações.

El começo rápido A Inicialização Rápida combina recursos de desligamento e hibernação para acelerar o tempo de inicialização, pré-carregando parte do kernel e dos drivers antes de desligar o sistema. Habilitá-la pode reduzir significativamente o tempo de inicialização, embora seja recomendável desativá-la temporariamente caso cause problemas com atualizações ou acesso à BIOS.

Por outro lado, existe um plano oculto de “desempenho máximo” Isso força a CPU e outros componentes a trabalharem com menos eficiência, priorizando a economia de energia. Habilitá-lo pode proporcionar um pouco mais de folga para tarefas intensivas, mas ao custo de maior aquecimento, ruído da ventoinha e consumo de energia.

Gerenciamento eficiente de espaço e memória no sistema

Além da limpeza regular e do controle dos programas residentes, existem outras maneiras de obter melhor aproveitamento dos recursos físicos do computador e, consequentemente, da CPU e do cache de disco.

Ter uma área de trabalho repleta de ícones, atalhos, pastas e arquivos não é apenas uma questão de poluição visual: o Windows precisa gerenciar tudo isso, o que adiciona uma carga de trabalho extra. Manter uma mesa razoavelmente limpa Organizar arquivos em pastas dentro de unidades de disco é uma prática simples que contribui para um ambiente mais organizado.

Também é útil recorrer a soluções de armazenamento em nuvem para determinados arquivos, o que reduz a quantidade de armazenamento local utilizado. Desde que isso seja feito de forma sensata (sem depender totalmente da conexão com a internet), o sistema local pode ficar menos sobrecarregado e ter mais flexibilidade.

Tecnologias específicas: ReadyBoost, overclocking e hardware

Em sistemas com disco rígido mecânico e memória RAM limitada, o Windows inclui tecnologias como o ReadyBoost, que permite usar um pen drive rápido como uma espécie de cache adicional. Embora não seja uma solução milagrosa, em certas configurações pode proporcionar um aumento de desempenho. aliviar parte da pressão sobre o disco.

No outro extremo, usuários avançados podem fazer overclock em seus processadores usando ferramentas como o Intel Extreme Tuning Utility (para processadores desbloqueados). Aumentar a frequência do clock melhora o desempenho, mas também aumenta a temperatura e o consumo de energia, com um risco real de instabilidade e danos se a voltagem e o resfriamento não forem gerenciados com cuidado.

Quando todas as otimizações de software falham, é hora de considerar atualizações de hardware: substituir um disco rígido por um SSD, expandir a RAM ou até mesmo alterar processador ou todo o sistema. Um SSD, em particular, transforma o desempenho percebido do sistema, pois reduz drasticamente os tempos de acesso ao disco, o que, por sua vez, permite que o cache de disco e a memória virtual funcionem de forma muito mais eficiente.

Juntos, combinem bom projeto de estruturas de dados e padrões de acesso à memória Aproveitar o cache da CPU com uma configuração cuidadosa do Windows (atualizada, leve, sem processos desnecessários ou inúteis, com o plano de energia adequado e, se necessário, com pequenos auxílios como o ReadyBoost ou melhorias de hardware) permite extrair muito mais do mesmo computador, obtendo aplicativos que respondem com agilidade e um sistema que parece visivelmente mais rápido sem a necessidade de truques "mágicos" ou esotéricos.