В связи с растущим спросом на искусственный интеллект (ИИ) и повышением удельной мощности центры обработки данных сталкиваются с беспрецедентными проблемами управления температурным режимом. Точный мониторинг температуры в режиме реального времени необходим для оптимизации производительности и эффективности и предотвращения перегрева. Эти решения для обнаружения должны быть точными, быстродействующими, надежными и способными выдерживать быстро меняющиеся тепловые нагрузки на высокочувствительные устройства.
В этой статье будут рассмотрены проблемы управления температурным режимом, с которыми сталкиваются современные проектировщики центров обработки данных с использованием искусственного интеллекта, и представлен подробный анализ различных систем охлаждения, включая кондиционирование воздуха, погружное охлаждение и решения по управлению температурным режимом. Затем познакомьтесь с термисторами с отрицательным температурным коэффициентом (NTC) от EPCOS (TDK) и объясните, как использовать эти решения для решения проблем управления температурным режимом.
Почему центры обработки данных с искусственным интеллектом создадут новые проблемы управления температурным режимом?
Оборудование искусственного интеллекта, такое как графические процессоры (GPU) и тензорные процессоры (TPU), обычно потребляют гораздо больше энергии, чем традиционные центральные процессоры (ЦП). Поэтому центры обработки данных, ориентированные на искусственный интеллект, часто имеют относительно высокую плотность мощности и концентрированные точки доступа, что затрудняет управление с использованием традиционных методов охлаждения.
Хуже того, рабочие нагрузки ИИ часто сильно различаются, а во время обучения с подкреплением или операций вывода тепловые нагрузки могут быстро возрастать. Если не обеспечить надлежащее управление температурным режимом, эти ситуации могут привести к снижению производительности, незапланированным простоям и ухудшению аппаратного ускорения.
Чтобы удовлетворить эти растущие потребности, в центрах обработки данных необходимо внедрить более совершенные методы охлаждения. Прямое охлаждение чипа является распространенным методом охлаждения. Эта технология совмещает охлаждающие трубки, охлаждающие пластины или теплообменники непосредственно с высокомощными устройствами, такими как процессоры, графические процессоры и память. Кроме того, можно выбрать метод иммерсионного охлаждения, который предполагает погружение всего сервера в непроводящую жидкость.
Кондиционер также подвергается различным модернизациям. Например, междурядные охлаждающие устройства и встроенные в шкафы охлаждающие устройства могут обеспечивать зональное охлаждение на основе общей системы кондиционирования компьютерного зала, то есть реагировать в режиме реального времени на локальные проблемы перегрева.
Хотя конкретные условия работы этих систем охлаждения различаются, все они вызывают потребность в мониторинге температуры с более широким распространением и более быстрым реагированием. В этой статье в качестве примера рассматривается система охлаждения чипа с прямым подключением. Каждый целевой чип должен быть оснащен датчиком-радиатором для обеспечения соблюдения температурных стандартов. Контролировать приток теплоносителя необходимо посредством датчиков, монтируемых на трубопроводе, а для обеспечения эффективной работы системы на устройстве распределения теплоносителя и теплообменнике необходимо установить другие датчики.
Преимущества термисторных датчиков NTC в центрах обработки данных
Термисторы NTC могут удовлетворить всем этим требованиям. Как следует из названия, сопротивление датчиков NTC уменьшается с повышением температуры. Что касается термисторов NTC, то это достигается за счет небольшого термочувствительного оксидно-керамического элемента, заключенного в защитный корпус из металла или эпоксидной смолы.
На рисунке 1 показана типичная кривая температурного сопротивления термистора с номинальным сопротивлением 2–5 кОм при 25 °C. Как показано на рисунке, чем больше сопротивление, тем больше подходит термистор для высокотемпературных применений, поскольку изменение сопротивления легче измерить.
Типичный график кривой температурного сопротивления
Рисунок 1: Типичная кривая температурного сопротивления термистора с номинальным значением от 2 кОм до 5 кОм при 25 °C. (Источник изображения: EPCOS (TDK))
Преимущества, которые термисторы NTC приносят в центры обработки данных AI, включают в себя:
Высокая точность и быстрый отклик: чрезвычайно чувствителен к небольшим изменениям температуры, а благодаря небольшой тепловой массе скорость срабатывания высокая. Эти функции позволяют термисторам NTC эффективно удовлетворять быстро меняющиеся тепловые потребности центров обработки данных искусственного интеллекта.
Долговечность и стабильность: Изготовлен из прочных материалов, имеет превосходную долгосрочную надежность и минимальный сдвиг сопротивления с течением времени. Такая стабильность сводит к минимуму требования к техническому обслуживанию и максимально снижает риск непредвиденных простоев.
Компактный размер и гибкая установка. Благодаря небольшому размеру его можно легко интегрировать в центры обработки данных с большим количеством устройств и ограниченным пространством. Имея различные формы, он может удовлетворить разнообразные потребности систем охлаждения в центрах обработки данных искусственного интеллекта.
Серия термисторов EPCOS NTC полностью воплощает в себе эти преимущества. В эту серию продуктов входят решения для мониторинга радиаторов и трубопроводов, систем погружного охлаждения и вентиляционных установок.
Мониторинг мощных компонентов с помощью термисторов NTC, установленных на радиаторах.
Мощные процессоры, такие как графические процессоры и TPU, требуют строгого температурного мониторинга для поддержания производительности и предотвращения перегрева. B57703M0103G040 (рис. 2) используется для установки непосредственно на радиатор, что делает его очень подходящим для этой задачи. В этом датчике с винтовым креплением термистор NTC заключен в металлический корпус с выступающими кольцевыми ушками.
Термистор терминала контура EPCOS B57703M0103G040
Рисунок 2. Термистор с кольцевым спаем B57703M0103G040 позволяет обеспечить точный контроль температуры радиаторов процессора высокой мощности. (Источник изображения: EPCOS (TDK))
Конструкция датчиков с винтовым креплением одновременно удобна и важна, поскольку обеспечивает хорошую термическую связь с поверхностью радиатора и постоянное контактное давление, тем самым снижая тепловое сопротивление и повышая точность измерений при быстром изменении нагрузки.
Датчик прошел долгосрочное испытание на стабильность в течение 10 000 часов при температуре +70 °C и может использоваться в условиях высоких температур, обычно встречающихся в рабочих нагрузках центров обработки данных искусственного интеллекта. Номинальное сопротивление датчика при +25°С составляет 10 кОм, что обеспечивает надежную основу для измерения более высоких рабочих температур и точную обратную связь для системы контроля температуры.

