CPU-cacheoptimering og ydeevneforbedring i Windows

Informatic Digital » Recursos » CPU-cacheoptimering og ydeevne i Windows

Hukommelseshierarkiet og designet af datastrukturer bestemmer i høj grad udnyttelsen af CPU-cachen.
Gruppering af hot data, brug af sammenhængende containere og SoA-mønstre reducerer cache-fejl og forbedrer latenstid.
I Windows frigør opdatering af systemet og driverne samt begrænsning af baggrundsprocesser CPU, RAM og cache.
Supplering af softwareoptimeringer med strømjusteringer og, om nødvendigt, hardwareforbedringer maksimerer den samlede ydeevne.

La CPU-cacheoptimering Det er et af de emner, der adskiller kode, der "virker", fra kode, der "flyver". Når vi forstår, hvordan hukommelse er organiseret, hvilke adgangstider hvert niveau håndterer, og hvordan hardwaren opfører sig, kan vi opnå massive forbedringer af ydeevnen uden at skifte maskiner.

I mellemtiden lider et betydeligt antal Windows-brugere af et mere almindeligt problem: deres pc'er er langsomme. Og ofte ligger roden til problemet netop der, i ineffektiv udnyttelse af hukommelse, cache og selve CPU'en. Med en kombination af godt lavniveaudesign (datastrukturer, hukommelsesadgangsmønstre) og praktiske indstillinger i Windows (rensning, opdatering, strømtilstande osv.) kan der opnås meget mærkbare forbedringer, fra små stigninger på 5 % til spring på 30-40 % i visse scenarier.

Hukommelseshierarki og latenstider: hvorfor cachen hersker

Før vi begynder at finjustere kode eller konfigurere Windows, skal vi have én ting helt klart: Ikke al hukommelse er skabt lige. Forskellen mellem at få adgang til L1-, L2-, L3-cacher, RAM eller disk er enorm, og mange cacheoptimeringer er bogstaveligt talt baseret på dette. undgå at gå ned på langsomme niveauer alt muligt.

I en moderne processor er typiske adgangstider (i størrelsesorden) omtrent som følger: en adgang til L1-cache Det er omkring et halvt nanosekund, en fejl i en springforudsigelse tager adskillige nanosekunder, L2 Det er omkring 7 ns, mens hovedhukommelsen kan nå over 100 ns. Hvis vi bevæger os uden for enheden (netværk, SSD, mekanisk harddisk), stiger tallene til hundredtusindvis eller millioner af nanosekunder.

Denne markante forskel er det, der gør det så vigtigt at organisere data korrekt, reducere cache-misses og designe sekventielle adgangsmønstre. En løkke, der ligger i L1-cache, vil være betydeligt hurtigere end en, der konstant tilgår RAM eller SSD'en, selvom de logisk udfører den samme funktion.

Derudover er CPU-cachen organiseret i flere niveauer: L1, meget lille og ekstremt hurtig; L2, større og noget langsommere; og L3, endnu større, ofte delt mellem kerner. Ideen er at holde de "hot" data (de data, der bruges ofte) lige ved hånden og flytte resten til langsommere niveauer. Som udviklere kan vi hjælpe med at få dette til at ske naturligt med godt datastrukturdesign og med forudsigelig adgang.

Hvad er cache, og hvorfor påvirker det ydeevnen?

Cachen er, i enhver kontekst (CPU, disk, web…), en hurtig lagring af nyligt brugte dataI stedet for altid at tilgå den langsomste kilde, beholder vi en kopi af det, der mest sandsynligt vil blive genbrugt. Dette forkorter svartid og reducerer belastningen på primære ressourcer.

Generelt bruges caching til at fremskynde adgangen og forbedre brugeroplevelsen. I praksis giver det også systemet mulighed for at udføre mere arbejde med den samme hardware: mindre ventetid, færre blokke og færre køer. Derfor bruges det i CPU'er, diske, browsere, distribuerede systemer og stort set al software, der håndterer data intensivt.

En typisk pc indeholder flere typer cache: diskcache (RAM, der lagrer data fra harddisken), webcache (statiske browserressourcer) og CPU-cache (L1, L2, L3). De arbejder alle med den samme grundlæggende idé: at gemme det, der sandsynligvis vil være nødvendigt senere, og undgå at gentage langsomme operationer.

Typer af cache: disk-, web- og CPU-cache

Inden for et virkeligt system konvergerer adskillige caching-mekanismer, hver på sit eget niveau. At forstå dem hjælper både med bedre programmering og med at diagnosticere, hvorfor en pc yder dårligere end forventet.

Disk cache

Diskcachen er et hukommelsesområde (normalt RAM), hvor operativsystemet gemmer data, der for nylig er læst eller skrevet til diskenNår applikationen anmoder om disse data igen, kontrollerer systemet først cachen: hvis den er der, er adgangen meget hurtigere end at gå til disken, især hvis vi taler om mekaniske diske.

Denne mekanisme reducerer drastisk indlæsningstiderne, mindsker antallet af fysiske læse- og skriveoperationer og dermed også forlænger diskens levetidI scenarier med gentagen adgang til de samme filer (databaser, servere, tunge applikationer) gør diskcaching en stor forskel.

Webcache

I browseren gemmer webcachen midlertidigt billeder, stylesheets, JavaScript og andre ressourcer. Takket være dette kan browseren, når du besøger en side igen eller navigerer mellem sektioner på det samme websted,... træk fra det, du allerede har gemt i stedet for at bestille den online igen.

Resultatet er dobbelt: kortere indlæsningstider for brugeren og mindre båndbreddeforbrug, både på din forbindelse og på den server, der leverer indholdet. Men hvis cachen ikke administreres korrekt, kan der opstå forældede ressourcer, og derfor er det nogle gange tilrådeligt at rydde den.

CPU-cache: L1-, L2- og L3-niveauer

Kronjuvelen, hvad angår ydeevne, er CPU-cachen. Moderne processorer inkluderer flere hierarkiske niveauer, der er designet til at minimere latenstid for data- og instruktionsadgang. Generelt er L1 den mindste og hurtigste, L2 er den mellemliggende, og L3 er den største og langsomste, ofte delt.

La L1-cache Det er normalt opdelt i instruktioner og data, med typiske størrelser på et par titusindvis af KB pr. kerne. Det er ekstremt hurtigt og bruges til de mest umiddelbare opgaver. L2-cache Den har større kapacitet (hundredvis af KB til flere MB) og fungerer som en L1-backup. L3-cache Den kan nå flere MB eller snesevis af MB, deles af flere kerner, og fungerer som det sidste niveau før den går til RAM.

Avanceret automatisering i Windows med PowerShell DSC og Ansible

Når hukommelsesadgangsmønsteret er rimeligt sekventielt eller forudsigeligt, er hardwaren i stand til at forudse det og bringe dataene til disse cacheniveauer. Når det er kaotisk, fuld af tilfældige spring og spredte strukturer, bruger processoren for meget tid venter på hukommelse og CPU'en "keder sig". Det er her, optimering på kodeniveau kommer ind i billedet.

Optimer datastrukturer til CPU-caching

Meget af ydeevnen afhænger af, hvordan vi designer vores datastrukturer. Det er ikke det samme at have et kæmpe objekt med varme og kolde felter blandet sammen, som det er at adskille det, der bruges ofte, fra det, der sjældent bruges. Hver cache-linje, der bringes til processoren, har en pris; hvis vi fylder disse linjer med ubrugelige data, spilder vi båndbredde.

Gruppér varme data og adskil kolde data

En nøglestrategi er at identificere, hvilke felter i en struktur der tilgås i næsten alle operationer ("hot" data), og hvilke der kun bruges lejlighedsvis ("cold" data). Førstnævnte bør at være sammen i mindet og, hvis muligt, indpasse en eller få cache-linjer. Sidstnævnte kan være i en separat struktur, der refereres til af en pointer eller et indeks.

For eksempel, i stedet for at have et brugerobjekt med lange strenge (navn, biografi, e-mail) blandet med flag eller markører, der konstant kontrolleres, er det bedre at gruppere de "hot" data (id, sidste login, aktiv status) i en kompakt struktur og lade resten af informationen være i en separat "detalje"-struktur. På denne måde, når koden itererer gennem en liste over brugere for at kontrollere en status eller markør, er cachelinjerne næsten fuldstændigt fyldt med relevante data.

Reducer fyld og udnyt hver linje bedre

En anden kampfront ligger i strukturernes fysiske design: rækkefølgen af felterne og deres typer. På grund af justering kan blanding af typer af forskellige størrelser på en uordnet måde introducere padding bytes, der kun spilder hukommelse og, endnu værre, cachelinjer.

Hvis vi omarrangerer en datastruktur, så den først grupperer store typer (f.eks. doubles eller int64_t), derefter mellemstore typer og endelig de mindste typer (bool, char), reducerer eller eliminerer vi typisk en stor del af polstringen. Dette giver plads til flere elementer pr. cachelinje, hvilket reducerer belastningen på hukommelseshierarkiet og sandsynligheden for hukommelsesmangler.

Vælg tilstødende beholdere

Beholderne, hvori varerne opbevares sammenhængende hukommelseVektorer, som en type array, er generelt meget mere cache-venlige end strukturer baseret på sparse noder forbundet af pointere (træer, klassiske linkede lister osv.). Når man gennemløber en vektor, kan hardwaren perfekt forudsige den næste adgang og forudindlæse de følgende cachelinjer.

I modsætning hertil fordeler strukturer som træbaserede kort eller linkede lister deres noder på tværs af heapen, hvilket tvinger CPU'en til at udføre kontinuerlig pointerjagt. Hvert hop kan resultere i et cache-miss og en dyr tur tilbage til hovedhukommelsen. Derfor tilbyder mange moderne biblioteker tætte hash-kortåbne tabeller og andre containere, der forsøger at holde dataene så kompakte som muligt.

Online opbevaring af små samlinger

Mange algoritmer involverer meget små samlinger (et par heltal, et par strukturer), der konstant oprettes og ødelægges. Hvis hver af disse forårsager en heap-allokering, pådrager vi os ikke kun omkostninger til hukommelsesstyring, men har også data spredt ud over RAM. Løsningen er at bruge containere med Online opbevaring til små størrelser.

Denne type container reserverer plads til 8 eller 16 elementer direkte i selve objektet. Så længe denne grænse ikke overskrides, er der ikke behov for at tilgå heapen, og dataene forbliver knyttet til resten af funktionen eller klassetilstanden, hvilket er meget fordelagtigt for caching.

Adgangsmønstre: fra AoS til SoA og brugen af bitsets

Selv med velstrukturerede cacher bestemmer dataadgangsmønsteret i høj grad ydeevnen. Det er ikke det samme at gennemløbe et array sekventielt, som det er at hoppe fra én adresse til en anden baseret på en liste af pointere. Der er nogle tilbagevendende teknikker til at maksimere cacheudnyttelsen.

Array af strukturer (AoS) vs. struktur af arrayer (SoA)

Et klassisk mønster er skiftet fra et "array of structures" (AoS) design til en "array structure" (SoA). I AoS er hvert element et objekt med mange felter (f.eks. en partikels position og masse), og disse elementer gemmes sekventielt. Når du kun behøver at læse en del af disse felter (f.eks. positionen), er du tvunget til at indlæse cache-linjer, der også indeholder ubrugte data.

I SoA er de forskellige attributter derimod opdelt i parallelle arrays: en for x, en anden for y, en anden for z, en anden for masse osv. Således, hvis en algoritme kun opdaterer positionerne, berører den kun koordinatarraysene, og cachen er ikke forurenet med irrelevante oplysningerDesuden favoriserer dette design vektorisering og brugen af SIMD-instruktioner.

Bitsets og referencer efter indeks

For små domæner (f.eks. flag fra 0 til 255) er det meget mere effektivt at bruge et bitsæt end en hash-baseret sætstruktur. Et bitsæt på 256 positioner optager kun et par tiere bytes og muliggør meget hurtige, fuldt sammenhængende og cache-venlige operationer i stedet for at skulle løse kollisioner i en hashtabel.

På samme måde skal du erstatte pointere med indekser i sammenhængende arrays Det kan reducere størrelsen på strukturerne (32-bit indekser i stedet for 64-bit pointere) og forbedre cache-kohærensen. I stedet for noder spredt ud over heapen, gemmes en vektor af noder, og de peges på ved hjælp af deres position, hvilket letter sekventielle gennemløb.

Sådan vender du tilbage til et tidligere punkt i Windows uden at miste data

Forhåndshentning: hvornår man skal komme i forkøbet

Ud over hardware-forhåndshentning, som forsøger at forudse sekventielle adgangsmønstre, har vi software-forhåndshentningsinstruktioner til forhåndsindlæsning af data i specifikke tilfælde. Dette giver mening, når mønsteret er forudsigeligt, men ikke strengt lineært, som det sker i hashtabeller eller sammenkædede lister.

Den overordnede idé er enkel: mens du behandler element i, instruerer du hardwaren til at bringe element i+1 (eller en fremtidig blok) ind i cachen. Når du når dette element, er sandsynligheden for, at det allerede er i L1 eller L2, høj, og ventetiden reduceres. Dette kan implementeres med compiler prefetch-primitiver eller specifikke biblioteker.

Der er dog ingen mening i at bruge eksplicit prefetching i fuldstændig sekventielle adgange, fordi hardwaren allerede håndterer det automatisk. Faktisk kan tilføjelse af unødvendig prefetching beskid cachen og forringe ydeevnen. Som det næsten altid er tilfældet med ydeevne, er det bedst at måle før og efter.

Politikker for cachelagret placering, erstatning og forhåndshentning

På et mere teoretisk niveau er cachesystemer baseret på politikker for, hvor data skal lagres, hvornår de skal hentes, og hvilke data der skal fjernes, når der ikke er plads nok. Selvom disse detaljer administreres af hardwaren eller operativsystemet, hjælper forståelsen af dem med at fortolke visse usædvanlige adfærdsmønstre.

Med hensyn til placering kan ordninger anvendes af hukommelsessegmentering eller sæt-associativ allokering, hvor hver hovedhukommelsesadresse kun kan knyttes til en delmængde af cachen. Dette påvirker antallet af konflikter og sandsynligheden for, at to adresser overlapper hinanden i cachen.

Med hensyn til cache-tømning (hvad sker der, når der er et cache-fejl), kommer erstatningspolitikker i spil: LRU (Least Recently Used), FIFO eller endda tilfældig erstatning. LRU forsøger at gemme de senest anvendte data i cachen, forudsat at de vil være nødvendige igen, mens FIFO blot kasserer de ældste data. Hver politik har sine fordele afhængigt af det faktiske adgangsmønster.

I prefetching-sektionen er der mekanismer baseret på historiske mønstre: hvis hardwaren registrerer, at hver adgang er forskudt, for eksempel altid med 64 bytes, vil den have en tendens til at forudse tilstødende blokkeI andre tilfælde bruges pladsforhåndshentning (indføring af en hel blok, selvom du kun anmodede om en del af den) til at minimere antallet af ture til hovedhukommelsen.

Måling og profilering af cache-adfærd

Optimering uden måling er som at gå i blinde. Der findes værktøjer til performanceanalyse, der giver dig mulighed for at se specifikke cache-målinger: referencer, L1-misser, misser i last-level cache (LLC), missprocent osv. Disse målinger indikerer, om dine ændringer rent faktisk forbedrer situationen.

Hvis for eksempel procentdelen af misser i L1 er omkring 2-3%, anses det normalt for rimeligt, hvorimod meget høje misserater i cachen på sidste niveau kan indikere problemer med rumlig eller tidsmæssig placeringVed at kombinere disse tal med CPU- og hukommelsesprofiler kan man finde ud af, hvilke dele af koden der lægger mest pres på hukommelseshierarkiet.

Cache- og ydeevneoptimering i Windows

Ud over selve koden undrer mange brugere sig over, hvorfor deres Windows-pc kører så langsomt, hvis den "i teorien" har en god CPU og RAM. En del af svaret ligger i selve systemet, de installerede applikationer og ophobningen af digitale junkfiler. De bruger CPU, hukommelse og cache. konstant, hvilket giver færre ressourcer til vigtige opgaver. Ved at anvende flere specifikke optimeringer i Windows 10 og Windows 11 er det muligt at frigøre CPU- og RAM-ressourcer (For eksempel ved at konfigurere virtuel hukommelse), reducerer baggrundsprocesser og forbedrer systemets evne til at cachelagre relevante data. Afhængigt af den oprindelige situation kan disse forbedringer variere fra mindre justeringer til meget mærkbare ændringer i den samlede ydeevne.

Opdater Windows og drivere

Et meget grundlæggende trin, som mange mennesker forsømmer, er at holde både operativsystemet og driverne opdaterede. Windows-opdateringer bringer ikke kun sikkerhedsrettelser: de inkluderer ofte forbedringer i ressourceforvaltning, rettelser af hukommelseslækager og kerneoptimering.

Fra Windows-indstillingspanelet (Start > Indstillinger > Opdatering og sikkerhed > Windows Update) kan du søge efter både generelle opdateringer og valgfrie pakker, herunder ikke-kritiske drivere, der kan optimere ydeevnen af din CPU, GPU eller chipset. Installation af disse komponenter kan løse flaskehalse eller stabilitetsproblemer, der direkte påvirker, hvordan cache og hukommelse udnyttes.

Deaktiver P2P-distribution af opdateringer

Siden Windows 10 kan systemet downloade og dele opdateringer ved hjælp af en P2P-mekanisme med andre computere. Selvom det er genialt, betyder dette system, at computeren... bruger CPU, netværk og disk at hjælpe med at distribuere opdateringer, noget der ikke altid er ønskeligt.

Deaktivering af "Leveringsoptimering" i Windows Update forhindrer din pc i at levere eller downloade opdateringsfragmenter til andre computere. Dette frigør ressourcer, reducerer baggrundsaktivitet og kan forbedre den samlede ydeevne, især på mindre kraftfulde systemer.

Frigør diskplads og fjern uønskede filer

Når disken er fuld eller næsten fuld, har Windows mindre plads til at sideindlæse og oprette midlertidige filer, hvilket i sidste ende påvirker ydeevnen. Brug det indbyggede værktøj Diskoprydning Det giver dig mulighed for at slette midlertidige filer, rester af opdateringer, elementer fra papirkurven og andre data, der ikke længere er nødvendige.

Ud over dette oprydningsværktøj anbefales det regelmæssigt at tømme papirkurven og bruge Windows-lagerindstillinger til at slette akkumulerede midlertidige filer. Jo mindre plads der er på systemdrevet, desto mere effektivt vil hukommelsessystemet fungere, og desto mere effektivt vil diskcachen fungere.

Betydningen af Windows 11-ikoner og deres udvikling

Optimer opstarts- og baggrundsprogrammer

En af de største fjender af CPU'en og cachen på en pc, der bruges dagligt, er programmer, der starter automatisk og kører i baggrunden: synkroniseringsprogrammer, opdateringsprogrammer, små værktøjer, som vi næsten ikke bruger osv. Selvom de kan virke lette, tilføjer de hver især tråde, hukommelse, diskadgang og cacheforbrug.

Fra Jobliste eller med Sysinternals til processtyringPå fanen Hjem er det muligt deaktiver unødvendige applikationer for at forhindre dem i at indlæses automatisk. I indstillingerne for beskyttelse af personlige oplysninger kan du også kontrollere, hvilke programmer der må køre i baggrunden. At reducere denne liste forbedrer ikke kun opstartstiden, men reducerer også den kontinuerlige belastning af CPU og RAM.

Reducer grafiske effekter og notifikationer

Vinduesanimationer, gennemsigtigheder og andre visuelle udsmykninger bruger ressourcer. På ældre eller mindre kraftfulde computere kan det være en fordel at justere Windows-indstillingerne for at prioritere ydeevne frem for udseende. Dette gøres via systemets avancerede indstillinger i ydeevnesektionen ved at vælge den konfiguration, der favoriserer hastighed.

På samme måde kan et overskud af notifikationer mætte brugeren og teametDeaktivering af unødvendige advarsler forbedrer ikke kun brugeroplevelsen, men forhindrer også, at baggrundsprocesser eller kontroller udløses for ofte.

Strømtilstande, dvaletilstand og maksimal ydeevne

Windows indeholder adskillige strømstyringsplaner, der direkte påvirker, hvordan CPU'en styres: om batterilevetid eller ren ydeevne prioriteres. På stationære og bærbare computere, der er tilsluttet strøm, er det normalt en god idé at gennemgå disse indstillinger.

El hurtig start Hurtig opstart kombinerer funktioner som nedlukning og dvaletilstand for at fremskynde opstartstiden ved at forudindlæse en del af kernen og driverne, før den lukkes ned. Aktivering kan reducere opstartstiden betydeligt, selvom det anbefales midlertidigt at deaktivere den, hvis det forårsager problemer med opdateringer eller BIOS-adgang.

På den anden side er der en skjult "maksimal ydeevne"-plan Dette tvinger CPU'en og andre komponenter til at arbejde mindre effektivt og prioritere energibesparelser. Aktivering kan give lidt mere plads til intensive opgaver, men på bekostning af øget varme, ventilatorstøj og strømforbrug.

Effektiv styring af plads og hukommelse i systemet

Ud over regelmæssig rengøring og kontrol af residente programmer er der andre måder at få bedre udnyttelse af computerens fysiske ressourcer og dermed CPU'en og diskcachen.

At have et skrivebord fyldt med ikoner, genveje, mapper og filer er ikke bare visuelt rod: Windows skal håndtere alt dette, hvilket tilføjer en ekstra arbejdsbyrde. rimelig rent skrivebord Organisering af filer i mapper på drev er en simpel fremgangsmåde, der bidrager til et lettere miljø.

Det er også en god idé at bruge cloud-lagringsløsninger til bestemte filer, hvilket reducerer mængden af lokal lagring. Forudsat at dette gøres fornuftigt (uden at være fuldstændig afhængig af internetforbindelsen), kan det lokale system holdes mindre belastet og have mere fleksibilitet.

Specifikke teknologier: ReadyBoost, overclocking og hardware

På systemer med en mekanisk harddisk og begrænset RAM inkluderer Windows teknologier som ReadyBoost, der giver dig mulighed for at bruge et hurtigt USB-drev som en slags ekstra cache. Selvom det ikke er en magisk løsning, kan det i visse konfigurationer give et boost i ydeevnen. aflaste noget af trykket på disken.

I den anden ende af spektret kan avancerede brugere overclocke deres CPU'er ved hjælp af værktøjer som Intel Extreme Tuning Utility (til ulåste processorer). At øge clockhastigheden forbedrer ydeevnen, men øger også temperatur og strømforbrug, med en reel risiko for ustabilitet og skader, hvis spænding og køling ikke styres omhyggeligt.

Når alle softwareoptimeringer ikke virker, er det tid til at overveje hardwareopgraderinger: udskiftning af en harddisk med en SSD, udvidelse af RAM eller endda ændringsprocessor eller hele systemet. Især en SSD transformerer systemets opfattede ydeevne, da den drastisk reducerer diskadgangstider, hvilket igen gør det muligt for diskcachen og den virtuelle hukommelse at fungere meget mere problemfrit.

Sammen, kombiner godt design af datastrukturer og hukommelsesadgangsmønstre At udnytte CPU-cachen med en omhyggelig Windows-konfiguration (opdateret, let, uden skrammel eller unødvendige processer, med den passende strømstyringsplan og om nødvendigt med små hjælpemidler som ReadyBoost eller hardwareforbedringer) giver dig mulighed for at få meget mere ud af den samme computer, opnå applikationer, der reagerer med smidighed, og et system, der føles mærkbart hurtigere uden behov for "magi" eller esoteriske tricks.

relateret artikel:

CPU-cache-latens: hvordan det påvirker ydeevnen

Indholdsfortegnelse

Hukommelseshierarki og latenstider: hvorfor cachen hersker
Hvad er cache, og hvorfor påvirker det ydeevnen?
Typer af cache: disk-, web- og CPU-cache
Optimer datastrukturer til CPU-caching
Adgangsmønstre: fra AoS til SoA og brugen af bitsets
- Array af strukturer (AoS) vs. struktur af arrayer (SoA)
- Bitsets og referencer efter indeks
Forhåndshentning: hvornår man skal komme i forkøbet
Politikker for cachelagret placering, erstatning og forhåndshentning
Måling og profilering af cache-adfærd
Cache- og ydeevneoptimering i Windows
Strømtilstande, dvaletilstand og maksimal ydeevne
Effektiv styring af plads og hukommelse i systemet
Specifikke teknologier: ReadyBoost, overclocking og hardware