Windows 系统中的 CPU 缓存优化和性能提升

信息技术数字 » 资源 » Windows 系统中的 CPU 缓存优化和性能

内存层次结构和数据结构的设计在很大程度上决定了 CPU 缓存的利用率。
将热点数据分组、使用连续容器和 SoA 模式可以减少缓存未命中并改善延迟。
在 Windows 系统中，更新系统和驱动程序并限制后台进程可以释放 CPU、RAM 和缓存。
通过软件优化、电源调整以及必要时的硬件改进，可以最大限度地提高整体性能。

CPU缓存优化

La CPU缓存优化 这是区分“能用”代码和“运行流畅”代码的关键所在。当我们理解内存的组织方式、每一级内存的访问时间以及硬件的运行机制时，即使不更换机器，也能大幅提升性能。

与此同时，相当一部分 Windows 用户正面临着一个更为常见的问题：他们的电脑运行缓慢。而问题的根源往往就在于此，即内存、缓存和 CPU 本身的利用效率低下。通过以下方式： 良好的底层设计 （数据结构、内存访问模式） Windows 中的实用设置（清理、更新、电源模式等），可以实现非常明显的改进，从 5% 的小幅提升到某些情况下 30-40% 的飞跃。

内存层次结构和延迟：缓存规则的重要性

在开始修改代码或配置 Windows 之前，我们需要清楚地理解一点：并非所有内存都是一样的。访问 L1、L2、L3 缓存、RAM 或磁盘之间的差异巨大，许多缓存优化正是基于这一点。 避免进入慢速模式 一切皆有可能。

在现代处理器中，典型的访问时间（数量级）大致如下：一次访问 L1缓存 大约需要半纳秒，而跳跃预测失败则需要几纳秒。 L2 大约需要 7 纳秒，而到达主内存则可能超过 100 纳秒。如果我们将数据传输到设备外部（网络、固态硬盘、机械硬盘），这些数字会急剧上升。 数十万或数百万纳秒.

这种显著差异正是数据组织、减少缓存未命中和设计顺序访问模式如此重要的原因。即使逻辑上执行相同的功能，驻留在 L1 缓存中的循环也比不断访问 RAM 或 SSD 的循环快得多。

此外，CPU缓存分为多个级别：L1缓存容量很小，速度极快；L2缓存容量较大，速度稍慢；L3缓存容量更大，通常由多个核心共享。其理念是将“热”数据（频繁使用的数据）放在触手可及的位置，而将其他数据放到速度较慢的级别。作为开发者，我们可以通过良好的数据结构设计和……来帮助实现这一点。 可预测的访问.

什么是缓存？为什么它会影响性能？

缓存，无论在何种环境下（CPU、磁盘、Web……），都是一个 快速存储最近使用的数据我们不会总是访问速度最慢的资源，而是保留一份最有可能被重用的资源副本。这可以缩短响应时间，并减轻主资源的压力。

一般来说，缓存用于加快访问速度并改善用户体验。实际上，它还能让系统在相同的硬件条件下执行更多工作：减少等待时间、减少阻塞、减少队列。因此，它被广泛应用于 CPU、磁盘、浏览器、分布式系统以及几乎所有数据密集型软件中。

一台典型的PC包含几种类型的缓存： 磁盘缓存 （用于存储硬盘数据的内存） 网络缓存 （静态浏览器资源） CPU缓存 （L1、L2、L3）。它们的基本思路都一样：存储以后可能需要的数据，避免重复执行缓慢的操作。

缓存类型：磁盘缓存、Web缓存和CPU缓存

在实际系统中，多种缓存机制相互交汇，各自发挥着不同的作用。理解这些机制有助于更好地进行编程，也有助于诊断电脑性能低于预期的原因。

磁盘缓存

磁盘缓存是操作系统用于存储数据的内存区域（通常是 RAM）。 存储最近读取或写入磁盘的数据当应用程序再次请求该数据时，系统首先检查缓存：如果缓存中有数据，则访问速度比访问磁盘快得多，尤其是在使用机械磁盘的情况下。

这种机制大幅缩短了加载时间，减少了物理读写操作的次数，进而， 延长光盘寿命在需要重复访问相同文件的场景（数据库、服务器、大型应用程序）中，磁盘缓存可以发挥很大的作用。

网络缓存

在浏览器中，网页缓存会临时存储图片、样式表、JavaScript 和其他资源。因此，当您再次访问某个页面或在同一网站的不同版块之间导航时，浏览器可以…… 从你已有的储备中汲取力量 而不是再次在线订购。

这样做有两个好处：一是用户加载时间更短，二是用户网络连接和服务器带宽消耗都更低。但是，如果缓存管理不当，可能会出现过时的资源，因此有时建议清除缓存。

CPU缓存：L1、L2和L3级

就性能而言，CPU缓存是至关重要的组成部分。现代处理器包含多个层级的缓存，旨在最大限度地减少数据和指令访问延迟。一般来说，L1缓存最小且速度最快，L2缓存速度居中，L3缓存最大且速度最慢，通常与其他缓存共享。

La L1缓存 它通常分为指令和数据两部分，每个核心的典型大小为几十KB。它的速度极快，用于处理最紧急的任务。 L2缓存 它的容量更大（数百 KB 到几 MB），可用作 L1 备份。 L3缓存 它可以达到几兆字节甚至几十兆字节，由多个核心共享，并且是进入 RAM 之前的最后一级。

Windows 11 许可证激活及通用密钥使用完整指南

当内存访问模式相对有序或可预测时，硬件能够预先判断并将数据加载到相应的缓存级别。而当内存访问模式混乱无序，充满随机跳转和分散结构时，处理器就会花费过多时间。 等待内存 然后CPU就会“无聊”。这时就需要进行代码级优化了。

优化数据结构以进行 CPU 缓存

性能很大程度上取决于我们如何设计数据结构。将一个包含冷热字段的大型对象与将常用字段和不常用字段分开是截然不同的。每个被送至处理器的缓存行都会产生开销；如果我们用无用数据填充这些缓存行，就会浪费带宽。

分组热数据并分离冷数据

关键策略是识别结构中哪些字段几乎每次操作都会访问（“热”数据），哪些字段仅偶尔使用（“冷”数据）。前者应该 在记忆中永远相伴 如果可能，尽量将其放入一到几行缓存中。后者可以放在单独的结构体中，并通过指针或索引进行引用。

例如，与其创建一个包含冗长字符串（姓名、简介、邮箱）并混杂着需要不断检查的标志或标记的用户对象，不如将“热门”数据（ID、上次登录时间、活跃状态）分组到一个紧凑的结构中，并将其余信息放在一个单独的“详细信息”结构中。这样，当代码遍历用户列表以检查状态或标记时，缓存行几乎完全被相关数据填充。

减少冗余，更好地利用每一行文字

另一个战场在于建筑物的物理设计： 字段顺序 以及它们的类型。由于对齐方式的限制，无序地混合不同大小的类型会导致引入填充字节，这些填充字节只会浪费内存，更糟糕的是，还会浪费缓存行。

如果我们重新排列数据结构，先放置大类型数据（例如 double 或 int64_t），再放置中等类型数据，最后放置最小类型数据（例如 bool、char），通常可以减少或消除大部分填充数据。这样，每个缓存行可以容纳更多元素，从而减轻内存层次结构的压力，并降低内存未命中的可能性。

选择相邻的容器

存放物品的容器 连续内存作为一种数组，向量通常比基于稀疏节点并通过指针链接的结构（例如树、经典链表等）更利于缓存利用。在遍历向量时，硬件可以完美地预测下一次访问，并预加载后续的缓存行。

相比之下，像基于树的映射或链表这样的结构会将它们的节点分布在堆上，迫使 CPU 执行持续的指针追踪。每次跳转都可能导致缓存未命中，并需要代价高昂地返回主内存。这就是为什么许多现代库都提供缓存未命中机制的原因。 密集哈希映射开放表格和其他容器，力求使数据尽可能紧凑。

小型收藏品的在线存储

许多算法涉及非常小的集合（几个整数，几个结构体），这些集合会不断地被创建和销毁。如果每次都进行堆内存分配，不仅会增加内存管理成本，还会导致数据分散在内存中。解决方案是使用容器。 小尺寸在线存储.

这种类型的容器会在对象内部直接预留 8 或 16 个元素的空间。只要不超过这个限制，就不需要访问堆内存，数据会一直与函数或类的其他状态关联，这对于缓存非常有利。

访问模式：从 AoS 到 SoA 以及位集的使用

即使缓存结构良好，数据访问模式也很大程度上决定了性能。顺序遍历数组和基于指针列表从一个地址跳转到另一个地址是截然不同的。有一些常用的技巧可以最大限度地利用缓存。

结构体数组 (AoS) 与数组结构 (SoA)

一个经典的模式是从“结构体数组”（AoS）设计向“结构体数组”（SoA）设计的转变。在AoS中，每个元素都是一个包含多个字段的对象（例如，粒子的位置和质量），这些元素按顺序存储。当您只需要读取其中的一部分字段（例如，位置）时，您就不得不加载包含未使用数据的缓存行。

另一方面，在SoA中，不同的属性被分离到并行数组中：一个用于x，一个用于y，一个用于z，一个用于质量，等等。因此，如果一个算法只更新位置，它就只会操作坐标数组，而不会影响其他属性。 缓存中未包含无关信息此外，这种设计有利于向量化和使用 SIMD 指令。

位集和索引引用

对于小型域（例如，标志位范围为 0 到 255），使用位集比基于哈希的集合结构效率更高。一个 256 位的位集仅占用几十字节，并且允许进行非常快速、完全连续且缓存友好的操作，而无需在哈希表中解决冲突。

同样地，将指针替换为 连续数组中的索引 它可以减小结构体的大小（使用 32 位索引代替 64 位指针），并提高缓存一致性。节点不再分散在堆上，而是存储一个节点向量，并通过位置指向这些节点，从而简化了顺序遍历。

Windows 中的 ALT 代码和键盘符号完整列表：终极指南

预取：何时提前完成工作

除了硬件预取（它试图预测顺序访问模式）之外，我们还有软件预取指令。 预先加载数据 在特定情况下，这种做法是合理的。当模式可预测但并非严格线性时，例如哈希表或链表的情况，这种做法就很有意义。

基本思路很简单：在处理元素 i 时，指示硬件将元素 i+1（或某个未来的数据块）加载到缓存中。当处理到该元素时，它已在 L1 或 L2 缓存中的概率很高，从而减少了等待时间。这可以通过编译器预取原语或特定库来实现。

然而，在完全顺序的访问中，显式预取是没有意义的，因为硬件已经自动处理了。事实上，添加不必要的预取反而会适得其反。 弄脏缓存 并导致性能下降。性能方面的情况几乎总是如此，最好在操作前后进行测量。

缓存位置、替换和预取策略

从更理论的层面来说，缓存系统基于一系列策略，这些策略决定了数据存储的位置、何时检索数据，以及在空间不足时需要清除哪些数据。虽然这些细节由硬件或操作系统管理，但理解它们有助于解释某些异常行为。

关于位置，可以使用以下方案： 记忆分割 或者采用组相联分配，其中每个主存地址只能映射到缓存的一个子集。这会影响冲突的数量以及两个地址在缓存中重叠的概率。

关于缓存刷新（缓存未命中时的处理方式），替换策略就派上了用场：LRU（最近最少使用）、FIFO（先进先出）甚至随机替换。LRU 策略会尝试将最近使用的数据保留在缓存中，假设这些数据之后还会被再次使用；而 FIFO 策略则会直接丢弃最旧的数据。每种策略都有其自身的优势，具体取决于实际的访问模式。

在预取部分，存在基于历史模式的机制：例如，如果硬件检测到每次访问都发生偏移，总是偏移 64 字节，它就会倾向于…… 预计相邻街区在其他情况下，空间预取（即使你只请求了其中的一部分，也引入整个块）用于最大限度地减少访问主内存的次数。

测量和分析缓存行为

不进行测量就进行优化，就像盲人摸象。有一些性能分析工具可以让你查看具体的缓存指标：引用次数、L1 缓存未命中次数、末级缓存 (LLC) 未命中次数、未命中率等等。这些指标可以表明你的更改是否真的改善了性能。

例如，如果 L1 缓存的未命中率在 2-3% 左右，通常被认为是合理的；而最后一级缓存的未命中率过高则可能表明存在问题。 空间或时间位置将这些数据与 CPU 和内存配置文件结合起来，有助于检测代码的哪些部分对内存层次结构造成了最大的压力。

Windows 中的缓存和性能优化

除了代码本身之外，许多用户都疑惑，为什么他们的 Windows 电脑运行速度如此缓慢，明明“理论上”配备了不错的 CPU 和内存。部分原因在于系统本身、已安装的应用程序以及积累的数字垃圾文件。 它们会消耗 CPU、内存和缓存。 持续不断地占用资源，导致用于重要任务的资源减少。通过在 Windows 10 和 Windows 11 中应用一些特定的优化措施，可以释放 CPU 和 RAM 资源（例如，通过配置虚拟内存减少后台进程并提高系统缓存相关数据的能力。根据初始情况的不同，这些改进可能从细微调整到整体性能的显著提升不等。

更新 Windows 和驱动程序

很多人忽略的一个非常基本的步骤是保持操作系统和驱动程序的更新。Windows 更新不仅仅带来安全补丁：它们通常还包括其他更新。 资源管理的改进内存泄漏修复和核优化.

在 Windows 设置面板（“开始”>“设置”>“更新和安全”>“Windows 更新”）中，您可以搜索常规更新和可选更新包，其中包括可以优化 CPU、GPU 或芯片组性能的非关键驱动程序。安装这些组件可以解决直接影响缓存和内存利用率的瓶颈或稳定性问题。

禁用 P2P 更新分发

自 Windows 10 起，系统可以通过 P2P 机制与其他计算机下载和共享更新。虽然这种机制很巧妙，但也意味着计算机…… 占用 CPU、网络和磁盘资源 帮助分发更新，但这并非总是可取的。

禁用 Windows 更新中的“传递优化”功能，可以阻止您的电脑向其他电脑提供或下载更新片段。这可以释放资源、减少后台活动，并提高整体性能，尤其是在配置较低的系统上。

释放磁盘空间并删除垃圾文件

当磁盘已满或接近满时，Windows 用于分页和创建临时文件的空间就会减少，最终影响性能。使用内置工具…… 磁盘清理它可以删除临时文件、更新残留文件、回收站中的项目以及其他不再需要的数据。

除了使用清理工具之外，建议定期清空回收站，并使用 Windows 存储选项删除累积的临时文件。系统驱动器上的空间越少，内存子系统运行效率越高，磁盘缓存功能也越有效。

什么是NVMe存储？与SATA相比，它有哪些优势？

优化启动和后台程序

对于日常使用的电脑来说，CPU 和缓存的最大敌人之一是那些自动启动并在后台运行的程序：同步程序、更新程序、我们几乎不使用的小工具等等。虽然它们看起来很轻量级，但每个程序都会增加线程、内存、磁盘访问和缓存消耗。

从任务管理器或通过 Sysinternals 过程控制在“主页”选项卡上，可以 禁用不必要的应用程序 防止它们自动加载。此外，在隐私设置中，您可以控制哪些应用程序允许在后台运行。减少此列表不仅可以缩短启动时间，还可以降低 CPU 和内存的持续负载。

减少图形效果和通知

窗口动画、透明效果和其他视觉美化效果都会消耗系统资源。在老旧或配置较低的电脑上，调整 Windows 设置以优先考虑性能而非外观可能更有益。这可以通过系统高级选项中的“性能”设置来完成，选择优先考虑速度的配置即可。

同样，过多的通知也会导致问题。 让用户和团队都感到饱和禁用不必要的警报不仅可以改善用户体验，还可以防止后台进程或检查过于频繁地触发。

功率模式、休眠和峰值性能

Windows 内置了多种电源计划，这些计划会直接影响 CPU 的管理方式：是优先考虑电池续航时间还是纯粹的性能。对于连接电源的台式机和笔记本电脑，通常最好检查一下这些设置。

El 快速入门 快速启动结合了关机和休眠的功能，通过在关机前预加载部分内核和驱动程序来加快启动速度。启用此功能可以显著缩短启动时间，但如果它导致更新或 BIOS 访问出现问题，建议暂时禁用它。

另一方面，有一个隐藏的“最高绩效”计划这会迫使 CPU 和其他组件降低运行效率，优先考虑节能。启用此功能可以为高强度任务提供更多余量，但代价是发热量、风扇噪音和功耗增加。

系统中空间和内存的高效管理

除了定期清理和控制驻留程序外，还有其他方法可以更好地利用计算机的物理资源，进而更好地利用 CPU 和磁盘缓存。

桌面上堆满图标、快捷方式、文件夹和文件不仅仅是视觉上的混乱：Windows 需要管理所有这些内容，这会增加额外的工作量。维护桌面整洁有序至关重要。 桌面比较干净。 将文件整理到驱动器内的文件夹中是一种简单的操作，有助于营造更轻便的环境。

使用云存储解决方案来存放某些文件也有助于减少本地存储空间的使用。如果操作得当（不完全依赖互联网连接），就能减轻本地系统的负担，并使其更加灵活。

具体技术：ReadyBoost、超频和硬件

对于配备机械硬盘且内存有限的系统，Windows 内置了 ReadyBoost 等技术，允许您使用高速 USB 驱动器作为额外的缓存。虽然它并非万能灵药，但在某些配置下可以提升性能。 减轻椎间盘的部分压力.

另一方面，高级用户可以使用诸如 Intel Extreme Tuning Utility（适用于未锁频处理器）之类的工具对 CPU 进行超频。提高时钟频率可以提升性能，但也会增加温度和功耗，如果电压和散热管理不当，则存在系统不稳定甚至损坏的风险。

当所有软件优化都无效时，就该考虑硬件升级了：例如用固态硬盘替换机械硬盘、扩展内存，甚至变更处理器或者说，整个系统。特别是固态硬盘 (SSD)，它能显著提升系统的感知性能，因为它大幅缩短了磁盘访问时间，从而使磁盘缓存和虚拟内存能够更流畅地运行。

一起，结合 良好的数据结构和内存访问模式设计 通过精心配置 Windows（更新、轻量级、无垃圾或不必要的进程、使用合适的电源计划，并在必要时借助 ReadyBoost 等辅助工具或硬件改进），充分利用 CPU 缓存，可以让你从同一台计算机中获得更多性能，使应用程序响应更加敏捷，系统运行速度明显更快，而无需任何“魔法”或深奥的技巧。

CPU缓存延迟：它如何影响性能

内存层次结构和延迟：缓存规则的重要性
什么是缓存？为什么它会影响性能？
缓存类型：磁盘缓存、Web缓存和CPU缓存
优化数据结构以进行 CPU 缓存
访问模式：从 AoS 到 SoA 以及位集的使用
- 结构体数组 (AoS) 与数组结构 (SoA)
- 位集和索引引用
预取：何时提前完成工作
缓存位置、替换和预取策略
测量和分析缓存行为
Windows 中的缓存和性能优化
功率模式、休眠和峰值性能
系统中空间和内存的高效管理
具体技术：ReadyBoost、超频和硬件