Как развернуть краевой ИИ на FPGA с помощью знакомых инструментов

June 1, 2026
последние новости компании о Как развернуть краевой ИИ на FPGA с помощью знакомых инструментов

ИИ на границе сети редко означает только умозаключения. Реальное развертывание обычно включает в себя высокоскоростной ввод/вывод (I/O), формирование сигнала и контуры управления в реальном времени, которые выполняются одновременно. Эти многофункциональные рабочие нагрузки требуют тесной координации и высокой уверенности, и разработчикам сложно удовлетворить эти требования с использованием основного оборудования искусственного интеллекта.

Два фактора еще больше усложняют эту проблему. Во-первых, модели искусственного интеллекта развиваются с поразительной скоростью, что побуждает дизайнеров использовать платформы, поддерживающие быстрое обновление алгоритмов. Между тем, многие периферийные системы используются на местах до десяти и более лет, что затрудняет обеспечение долгосрочной адаптируемости. Во-вторых, путь от хорошо обученных моделей к развертыванию и внедрению системы по-прежнему фрагментирован. Ученые, работающие с данными, используют PyTorch и TensorFlow, в то время как команды встроенных специалистов используют совершенно разные цепочки инструментов, что создает трудности в процессе передачи данных и замедляет скорость производства.

Чтобы решить эти проблемы, платформы должны иметь возможность сочетать высокопроизводительную обработку ИИ с детерминированным поведением, гибким вводом-выводом и долгосрочной адаптируемостью, и все это должно быть достигнуто в типичном диапазоне энергопотребления при ограниченном периферийном развертывании.

В этой статье основное внимание уделяется сценариям приложений и связанным с ними требованиям, которые заставляют проектировщиков исследовать новые периферийные архитектуры ИИ. Затем компания представила устройства и программные инструменты Altera с программируемой вентильной матрицей (FPGA), поддерживающие периферийный искусственный интеллект, и продемонстрировала, как их использовать для удовлетворения разнообразных требований к производительности и мощности этих приложений.

Эволюция периферийного ИИ требует архитектурных инноваций
Периферийные системы все чаще используют разнообразные технологии искусственного интеллекта, включая классическое машинное обучение (ML) для обнаружения аномалий, сверточные нейронные сети (CNN) для восприятия и преобразователи для больших языковых моделей (LLM). Эти ресурсоемкие алгоритмы часто сосуществуют с требовательными функциями, не связанными с искусственным интеллектом, такими как обработка сигналов, сетевая связь и управление в реальном времени.

Хорошим примером являются автономные системы. Обычно им необходимо собирать данные с нескольких датчиков, таких как видео, аудио, радар, LiDAR и обратная связь по движению/положению, предварительно обрабатывать эти потоки данных с высокой пропускной способностью, анализировать результаты с помощью сложного искусственного интеллекта, а затем управлять высокоточными контурами управления, и все это требует надежной определенности.

Существует множество подобных примеров в промышленной автоматизации, медицинской визуализации, обороне и телекоммуникациях. Общая проблема, с которой они сталкиваются, заключается в том, что традиционные архитектуры трудно адаптировать к постоянно конвергентным рабочим нагрузкам.

Почему FPGA особенно подходит для периферийного искусственного интеллекта
Напротив, эти требования полностью совместимы с функциональностью FPGA. Ядром FPGA является предоставление настраиваемой логики для выполнения операций по-настоящему параллельным образом, при этом ее временные характеристики закладываются во время разработки, а не меняются во время выполнения. Эта архитектура может обеспечить детерминизм с низкой задержкой, что имеет решающее значение для периферийного ИИ. Гибкая логика также может использовать мощный ввод-вывод: FPGA обычно обеспечивают множество высокоскоростных операций ввода-вывода, которые можно подключать к различным датчикам и исполнительным механизмам для достижения тесной связи с обработкой искусственного интеллекта.

FPGA также включает в себя распределенную внутреннюю память, которая обеспечивает доступ к данным с помощью логики, которая с ними работает. Это уменьшает узкое место, которое возникает, когда нескольким этапам обработки приходится конкурировать за доступ к шине общей памяти, что является распространенным ограничением в архитектурах на базе процессоров.

Многие FPGA также включают в себя специализированное оборудование цифровой обработки сигналов (DSP). По сравнению с традиционными структурами эти усовершенствованные схемы обеспечивают более высокую производительность и лучшую энергоэффективность для рабочих нагрузок обработки сигналов. Некоторые FPGA также интегрируют проводные процессорные системы, которые могут запускать стандартные стеки программного обеспечения (включая Linux), что позволяет разрабатывать традиционное программное обеспечение для таких задач, как работа в сети, управление устройствами и пользовательский интерфейс.

Короче говоря, одна FPGA может интегрировать функции, которые в противном случае могли бы потребовать отдельных микросхем ввода-вывода, ускорителей искусственного интеллекта, DSP и процессоров плоскости управления. Это может сократить спецификацию, уменьшить площадь печатной платы, снизить энергопотребление, сохраняя при этом низкую задержку и надежность, необходимые для периферийных приложений искусственного интеллекта.

Как открыть новые возможности с добавлением тензорных блоков ИИ
Традиционное оборудование FPGA DSP уже очень подходит для многих периферийных рабочих нагрузок, но вывод ИИ часто основан на плотных, но с низкой точностью операциях умножения. Чтобы решить эту проблему, устройства Altera Agilex 3 и Agilex 5 используют улучшенные DSP с тензорными блоками AI. Это специализированное оборудование для умножения матриц и векторных матриц, которое неоднократно появляется в графах вычислений ИИ.

Ядром этого метода является скалярное произведение и сумматор/аккумулятор (рис. 1). В тензорном режиме аппаратный механизм точек использует 8-битный ввод и предварительно загруженные 8-битные веса для выполнения скалярного произведения из 10 элементов. Чтобы расширить динамический диапазон, путь данных также может использовать общий «общий индекс» для блочного масштабирования с плавающей запятой, чтобы справиться с типичными сценариями, где для вывода ИИ обычно требуется высокий динамический диапазон, но низкая точность.