Подробное объяснение когерентности кэша в многоядерных процессорах.

Информатек Диджитал » Ресурсы » Согласованность кэша в многоядерных процессорах: как она поддерживается и кто её контролирует.

Когерентность кэша гарантирует, что все копии одних и тех же данных в разных кэшах и в оперативной памяти остаются согласованными в многоядерных системах.
Иерархия кэша с общим последним уровнем упрощает контроль согласованности и уменьшает количество прямых обращений к основной памяти.
Протоколы когерентности используют стратегии аннулирования или обновления копирования, поддерживаемые состояниями и управляющими битами для каждой строки кэша.
Компилятор и операционная система могут дополнять аппаратную согласованность, вставляя инструкции и настраивая память для критических периодов.

Если взглянуть на схему любого современного многоядерного процессора, всегда видна одна и та же закономерность: несколько ядер, каждое со своей собственной кэш-памятью, расположенной рядом, и... кэш последнего уровня, выступающий в качестве общей точки до достижения оперативной памяти. Такое расположение не случайно и не является прихотью разработчиков, а представляет собой прямой ответ на критическую проблему параллельных систем: согласованность кэша.

Без надёжного механизма обеспечения согласованности каждое ядро может в конечном итоге работать с... разные и устаревшие версии одних и тех же данных в памятиВ реальных условиях это приводит к незначительным ошибкам, непредсказуемым сбоям и даже системным сбоям. Поэтому понимание того, как поддерживается эта стабильность — как на аппаратном, так и на программном уровнях — является ключом к пониманию... производительность и стабильность современных многоядерных процессоров.

Что такое согласованность кэша: терминальная метафора

в реальном времени в электронных системах

Теме статьи:

Электронные системы реального времени: основы, планирование и применение.

Представьте себе несколько человек, сидящих перед разными терминалами, и всех их объединяет редактирование. тот же документ хранится на центральном сервере.На каждом экране отображается копия файла, и любые изменения, внесенные одним пользователем, должны немедленно отобразиться на экранах всех остальных.

Для этого необходимо наличие механизм синхронизации, распространяющий изменения в документе На все терминалы, чтобы они всегда видели одну и ту же версию. Пока эта система работает, всё идёт хорошо: тот, кто вносит изменения в текст, знает, что все остальные увидят новую версию практически мгновенно.

Теперь они думают, что система синхронизации внезапно дала сбой. Каждый продолжает редактировать, убежденный, что работает над общим документом, но на самом деле... На каждом терминале сохранилась локальная копия, которая отключена.С этого момента изменения, внесенные одним человеком, не затрагивают остальных, и документ начинает неконтролируемо расходиться.

В контексте вычислительной техники это в точности отражает то, что произошло бы, если бы центральный процессор не имел надежного протокола согласованности: ядро изменяет данные в памяти, но Оставшиеся ядра продолжают считывать более старую версию из своих личных кэшей.Это создает благодатную почву для серьезных логических ошибок, искажения данных и поведения, которое невозможно исправить.

Таким образом, когерентность кэша — это набор механизмов, гарантирующих, что в многоядерной системе... Все копии одних и тех же данных, распределенные по различным кэшам и оперативной памяти, поддерживают согласованное состояние.Даже если существует несколько копий, система должна вести себя так, как если бы существовала только одна.

Кэширование и иерархия памяти в многоядерном процессоре

Кэш процессора — это небольшая, очень быстрая память, которая поддерживает копии часто используемых фрагментов оперативной памятиКогда процессор выполняет код, вместо непрерывного обращения к (сравнительно медленной) оперативной памяти он пытается читать и записывать данные в кэш, что значительно снижает задержку.

Хитрость, конечно же, заключается в том, что тайники Они не хранят "официальную версию" данных, а лишь временную копию.Следуя метафоре терминала, оперативная память (RAM) будет представлять собой документ на сервере, а кэши — локальные экраны, отображающие копии определенных частей файла.

В многоядерном процессоре конструкция становится более сложной, поскольку каждое ядро обычно имеет собственные частные кэши первого уровня (L1) и даже второго уровня (L2)Поверх них добавляется общий кэш последнего уровня (например, L3), расположенный между ядрами и контроллером памяти, обеспечивающим доступ к ОЗУ.

Этот общий кэш был введен потому, что предоставление всем ядрам прямого и интенсивного доступа к оперативной памяти привело бы к... Конфликты доступа, конкуренция за шину памяти и заметное снижение производительности.Кэш последнего уровня действует как общий «буфер», который уменьшает доступ к оперативной памяти и централизует большую часть трафика данных.

Внешняя видеокарта для ноутбуков: полное руководство по eGPU

Кроме того, во многих архитектурах кэш-память организована инклюзивно: строки хранятся на уровнях, близких к процессору. Они также присутствуют на более высоких уровнях иерархии.То есть строка, которая встречается в L1, также встречается в L2 и, в свою очередь, в L3. Это имеет очень полезное следствие для непротиворечивости: этого достаточно для Необходимо корректно обновить кэш последнего уровня, чтобы иметь возможность отслеживать состояние других уровней. без необходимости постоянного обращения к оперативной памяти.

Почему кэширование на последнем уровне является ключом к обеспечению согласованности данных

Без этого глобального кэша последнего уровня каждому ядру пришлось бы... Проверка согласованности напрямую по отношению к основной памяти.При каждом изменении строки памяти в частном кэше необходимо проверять, поддерживают ли другие ядра копию этой же строки, и если да, то обновлять или аннулировать её везде.

В системе с большим количеством ядер такая нагрузка проверок представляла бы собой огромное количество транзакций в ОЗУЭто сводит на нет большую часть преимуществ быстрых кэшей. Размещая общий кэш между ядрами и памятью, процессор может сосредоточить управление когерентностью в одном промежуточном месте.

Во многих реализациях кэши располагаются на более высоких уровнях (дальше от процессора). Они содержат копии строк, присутствующих на уровнях, наиболее близких к ядру.При такой организации протоколу когерентности достаточно лишь обеспечить синхронизацию последнего уровня с основной памятью, а также синхронизацию частных уровней каждого ядра с непосредственно вышестоящим уровнем.

Это можно представить как своего рода русскую матрешку: Кэш третьего уровня включает в себя содержимое кэшей второго и первого уровней.Второй уровень включает в себя собственные линии и линии первого уровня, в то время как первый уровень знает только свои собственные линии. Таким образом, управляя «большим запястьем» (последним уровнем), система может более эффективно координировать работу остальных элементов.

В результате поддержание стабильности становится более экономичен с точки зрения проектирования и использования памяти.Вместо того чтобы заставлять каждое ядро постоянно работать с оперативной памятью, протокол воздействует на общий кэш и оттуда управляет тем, какие строки следует обновлять или аннулировать в частных кэшах.

Методы обновления: аннулирование и обновление копий.

Особую сложность возникает, когда два или более ядра хотят получить доступ практически одновременно. тот же поток данных, который дублируется в нескольких кэшах.В этом контексте системы обеспечения согласованности обычно при работе со священными текстами прибегают к двум основным стратегиям.

Первый метод основан на аннулировании кэша. Когда ядру необходимо записать данные в определенную кэш-строку, протокол обрабатывает это. аннулировать все копии этой же строки, которые могут существовать в других кэшах.Только ядро, которое собирается производить запись, сохраняет строку в состоянии, пригодном для чтения и записи; остальным, если они хотят повторно использовать эти данные, придется перезагрузить строку с более высокого уровня (или из памяти) с обновленной версией.

Вторая стратегия предполагает обновление. В этом случае, когда ядро изменяет строку кода, система пытается... автоматически распространить новое содержимое на существующие копии в других кэшахТаким образом, все кэши, в которых хранилась эта строка, получают актуальную версию без необходимости ее аннулирования и повторной загрузки.

У каждого подхода есть свои плюсы и минусы. Аннулирование обычно происходит более эффективно при частом письмеПотому что это позволяет избежать перегрузки системной памяти обновлениями, которые могут быть не нужны другим ядрам в данный момент. И наоборот, обновление может быть выгодно, когда Многие ядра часто считывают одни и те же данные, которые изменяются относительно редко.Это происходит потому, что задержка уменьшается за счет отсутствия необходимости перезагрузки линии после каждой аннулирования.

В любом случае, оба метода используют дополнительные биты состояния и управления в кэш-линиях. Обычно каждая линия включает в себя информация о том, соответствует ли ее содержимое содержимому оперативной памяти.и является ли она общей, модифицированной, эксклюзивной, зарезервированной и т. д., в зависимости от конкретного протокола (MESI, MOESI, MSI и т. д.). Это позволяет оборудованию быстро принимать решения о том, что делать при выполнении операции чтения или записи на уже реплицированной линии.

Apple M5: прорыв в области искусственного интеллекта для Mac, iPad и Vision Pro

Проверка согласованности между кэшами и памятью.

Непосредственно проверьте соответствие между все уровни кэша ЦП или ГП и основной памяти Это была бы колоссальная задача, как с точки зрения сложности проектирования, так и с точки зрения затрат на производительность. Именно поэтому современные системы организуют эту проверку иерархически.

Кэш-память, расположенная ближе всего к процессору (L1, L2), обычно не связана напрямую с оперативной памятью, а подключена к следующему уровню кэша. Это означает, что Согласованность проверяется не по отношению к основной памяти на каждом уровне, а по отношению к непосредственно более высокому уровню.Это уменьшает количество обращений к оперативной памяти и упрощает логику, необходимую на более низких уровнях.

В конечном итоге, сравнение содержимого кэша и содержимого оперативной памяти выполняется между ними. кэш последнего уровня и основная памятьЕсли этот последний уровень поддерживает корректное и согласованное состояние, а каждый последующий уровень поддерживает согласованность с предыдущим, то вся иерархия остается согласованной без необходимости многократной проверки каждой строки в оперативной памяти.

Когда ядро записывает данные в кэш-строку и изменяет её состояние, эта строка помечается соответствующим образом. больше не соответствует точно копии, хранящейся в памяти.Далее протокол координирует обновление: он помечает соответствующие копии в других кэшах как зарезервированные или недействительные и, при необходимости, записать новое содержимое в соответствующую линию основной памяти.

Такая каскадная организация позволяет изменениям распространяться постепенно от ядра, которое обновляет данные, к основной памяти, проходя через каждый уровень кэша контролируемым образом. Таким образом, поддержание согласованности не становится непреодолимым узким местом для процессора.

Аппаратная согласованность против программной согласованности

До сих пор мы обсуждали механизмы когерентности, которые в основном реализуются на аппаратном уровне: протоколы, биты состояния, общие кэши и т. д. Однако существует и другой подход, который стремится к перенести часть этой сложности в программное обеспечение.в частности, к компилятору и операционной системе.

Программные схемы обеспечения когерентности стремятся уменьшить потребность в дополнительной внутрикристальной логике, и они достигают этого за счет Анализ кода и решения на этапе компиляцииИдея заключается в том, что, если компилятор сможет определить, когда и как осуществляется доступ к определенным общим данным, он во многих случаях сможет предотвратить кэширование этих данных или явно управлять их видимостью.

У этого подхода есть явное преимущество: часть рабочей нагрузки переносится с одного места на другое. выполняться во время выполнения, разрешаться на этапе компиляции.Вместо того чтобы оборудование обнаруживало и обрабатывало все конфликты на лету, компилятор пытается предвидеть их и генерировать код, который позволяет избежать опасных ситуаций.

Недостатком является ограниченность статического анализа кода и, следовательно, Компиляторы, как правило, придерживаются консервативного подхода.Это означает, что во избежание нарушения согласованности они часто принимают решения, снижающие эффективность кэширования. Если они подозревают, что какие-то данные могут быть проблематичными, они часто предотвращают их кэширование или принудительно выполняют синхронизацию чаще, чем это строго необходимо.

Таким образом, хотя эти программные схемы привлекательны в теории, особенно для упрощения проектирования аппаратного обеспечения, на практике, Они не заменяют встроенную в сам процессор поддержку когерентности.но скорее дополняют его в некоторых конкретных сценариях.

Роль компилятора в обеспечении согласованности кэша

Ключевым элементом подходов к обеспечению согласованности на основе программного обеспечения является роль компилятора. Компилятор может выполнять глубокий анализ кода и определять какие общие структуры данных могут быть небезопасны для кэшированияИсходя из этого, пометьте эти элементы особым образом или адаптируйте генерацию кода.

Самый простой и одновременно самый консервативный подход заключается в следующем: предотвратить кэширование общих переменных данныхИными словами, каждое обращение к этим переменным требует обращения к основной памяти или к некэшируемой области. Это гарантирует согласованность, но упускает множество возможностей повышения производительности, поскольку общая структура может фактически использоваться в приватном режиме в определенные периоды или быть доступной только для чтения в другие.

Реальные различия между монитором с частотой 60 Гц и монитором с частотой 144 Гц.

В действительности проблема когерентности возникает только в те интервалы, в которых По крайней мере один процесс может записывать данные в переменную, а другой процесс может их читать.Вне этих критических периодов переменную можно рассматривать как предназначенную исключительно для использования потоком или даже как эффективную константу на некоторое время, что позволит кэшировать её без проблем.

Наиболее продвинутые стратегии компиляции стремятся точно идентифицировать эти «Безопасные» периоды, в течение которых общая переменная может считаться не вызывающей конфликтов.Для этого компилятор анализирует пути выполнения, потенциальные одновременные обращения и шаблоны синхронизации (блокировки, критические секции и т. д.). На основе этого анализа он делит время жизни переменной на фазы: некоторые подходят для кэширования, другие требуют специальной обработки.

В критические периоды, когда обнаруживается одновременный доступ и запись, Компилятор вставляет в сгенерированный код дополнительные инструкции для обеспечения согласованности кэша.В зависимости от модели программирования и базовой архитектуры, эти инструкции могут принудительно очищать кэш, перезагружать память, создавать барьеры памяти или предоставлять доступ к областям, помеченным как некэшируемые.

Взаимосвязь между компилятором, операционной системой и оборудованием.

Фраза «компилятор вставляет инструкции в сгенерированный код для обеспечения согласованности кэша» может навести на мысль, что операционная система Воспринимайте эти инструкции как важные подсказки. и, исходя из этого, решать, как запустить программу. На самом деле, механизм несколько отличается.

Когда компилятор добавляет инструкции такого типа, он вносит в двоичный файл следующее: конкретные операции, поддерживаемые архитектурой или средой выполненияНапример, можно вставлять инструкции по очистке кэша, барьеры памяти, специальные инструкции для пометки областей как некэшируемых или вызовы служб операционной системы, которые настраивают атрибуты памяти.

Операционная система не интерпретирует эти инструкции как высокоуровневые «комментарии» или «подсказки», написанные компилятором, а просто как их результат. выполняет машинный код, как и любой другой.Дело в том, что некоторые из этих инструкций предназначены для взаимодействия с подсистемой памяти и управлением кэшем, поэтому они изменяют способ доступа процессора к определенным данным.

Иными словами, компилятор проводит предварительный анализ и генерирует код, который при выполнении... обеспечивает желаемое поведение кэшаОперационная система взаимодействует, устанавливая атрибуты памяти (кэшируемые или некэшируемые области, политики записи и т. д.) и предоставляя примитивы синхронизации, но она не «читает» специальные инструкции в смысле их семантической интерпретации, как это сделал бы компилятор.

Также может случиться так, что оборудование, получив определённые инструкции, активировать определенные механизмы когерентности или синхронизацииНапример, инструкции типа «ограда» или «барьер» гарантируют порядок доступа к памяти и обеспечивают определенные эффекты видимости в иерархии кэша. В этом случае происходит трехстороннее взаимодействие: компилятор решает, где разместить эти инструкции, операционная система настраивает среду выполнения, а оборудование реализует фактическое поведение на уровне кэша и шины памяти.

В совокупности все эти элементы гарантируют, что, даже при наличии нескольких копий одних и тех же данных, распределенных по различным кэшам и оперативной памяти, Параллельные программы выполняются с использованием согласованной модели памяти.Согласованность кэша, будучи далеко не простой внутренней деталью процессора, становится центральным элементом для надежной и эффективной работы многоядерных систем.

Понимание того, как сочетаются иерархия кэша, протоколы аппаратной когерентности и методы программной поддержки, позволяет лучше понять, почему современные конструкции ЦП имеют столь схожую структуру и почему небольшой сбой в любом из этих механизмов может привести к... Хаотическое поведение в параллельных приложениях Это полностью зависит от того, насколько точно все ядра системы видят одни и те же данные в нужное время.

Оглавление

Что такое согласованность кэша: терминальная метафора
Кэширование и иерархия памяти в многоядерном процессоре
Почему кэширование на последнем уровне является ключом к обеспечению согласованности данных
Методы обновления: аннулирование и обновление копий.
Проверка согласованности между кэшами и памятью.
Аппаратная согласованность против программной согласованности
Роль компилятора в обеспечении согласованности кэша
Взаимосвязь между компилятором, операционной системой и оборудованием.