banner
Дом / Блог / Создание DGX
Блог

Создание DGX

Jun 27, 2023Jun 27, 2023

Не каждый может позволить себе AI-сервер Nvidia DGX, оснащенный новейшими графическими ускорителями Hopper H100 или даже одним из его многочисленных клонов, доступных от OEM-производителей и ODM-производителей по всему миру. И даже если они могут позволить себе такую ​​эскаладу обработки ИИ, это ни на секунду не означает, что они смогут заполучить графические процессоры H100 или даже графические процессоры Ampere A100, которые являются неотъемлемой частью этой системы, учитывая высокий спрос на эти вычислительные устройства. двигатели.

Как обычно, люди находят экономические и технические заменители, и именно так работает здоровая экономика: благодаря конкуренции увеличивается количество альтернатив и снижается стоимость всех этих альтернатив.

Именно так и произошло с конфигурациями SuperNode, которые поставщик компонуемых фабрик GigaIO собрал с помощью производителей серверов Supermicro и Dell. Вместо использования графических процессоров Nvidia, суперузлы GigaIO основаны на более дешевых графических ускорителях AMD «Arcturus» Instinct MI210, которые подключаются к слотам PCI-Express и не имеют специальных разъемов, которые требуются для графических процессоров более высокого класса от Nvidia, AMD или Intel – SXM4. и разъемы SXM5 для графических процессоров A100 и H100 от Nvidia и разъемы OAM от AMD и Intel. И вместо использования межсоединений NVLink для объединения памяти графических процессоров Nvidia A100 и H100 в общую систему памяти или межсоединения Infinity Fabric от AMD для объединения памяти высокопроизводительных графических процессоров Instinct MI250X, установка SuperNode использует PCI-Express. 4.0 для связи памяти графического процессора друг с другом и с узлами хоста сервера.

Конечно, эта установка имеет меньшую пропускную способность, чем межсоединения NVLink или Infinity Fabric, и даже когда будут доступны коммутаторы PCI-Express 5.0, это все равно будет использоваться - на что мы недавно сетовали от имени таких компаний, как GigaIO, и их клиентов. Мы по-прежнему утверждаем, что уровни выпусков PCI-Express для серверных портов, плат адаптеров и коммутаторов должны быть доступны одновременно в аппаратном обеспечении, а не с огромной задержкой между серверами, адаптерами и коммутаторами. Если компонуемая инфраструктура должна стать обычным явлением и если межсоединения PCI-Express являются лучшим способом добиться этого на уровне модуля (имеется в виду несколько связанных между собой стоек машин), то это кажется нам очевидным.

Ни у GigaIO, ни у ее клиентов нет времени ждать, пока все это выстроится в очередь. Компания должна сегодня создавать кластеры и предоставлять клиентам преимущества компонуемости, что она может сделать, как мы показали в прошлом на тематических исследованиях и на которые ссылаются эти ссылки. Самое главное, что возможность компоновки позволяет повысить эффективность использования дорогостоящих вычислительных механизмов, таких как графические процессоры, поскольку несколько рабочих нагрузок, выполняемых в кластерах, со временем меняются. Как бы трудно в это поверить (и это было показано в тестах Суперкомпьютерного центра Сан-Диего), вы можете использовать менее производительные графические процессоры или меньшее их количество, повысить их загрузку и при этом получить более быстрые результаты с помощью компонуемой инфраструктуры, чем вы можете это сделать с помощью большого и мощного графического процессора.

Конфигурации GigaPod, SuperNode и GigaCluster, создаваемые GigaIO, являются коммерциализацией этой идеи, и она не ограничивается графическими процессорами AMD MI210. В эти конфигурации можно включить любой графический процессор, FPGA или дискретный ускоритель, который подключается к слоту PCI-Express 4.0 или 5.0.

GigaPod имеет от одного до трех вычислительных узлов на базе двухпроцессорных серверов, использующих процессоры AMD Milan Epyc 7003, но, опять же, нет ничего, что мешало бы GigaIO или ее клиентам использовать другие процессоры или серверы, кроме Dell или Supermicro. Это всего лишь конфигурация, полностью построенная на процессорах AMD, которая сертифицирована для продажи покупателям как единое целое.

GigaPod оснащен 24-портовым коммутатором PCI-Express, основанным на ASIC Switchtec Gen 4.0 PCI-Express от Microchip Technology. (Здесь мы представили ASIC Microchip Gen 5.0 Switchtec, и надеемся, что они скоро начнут поставляться в больших количествах.) GigaIO использует ASIC-адаптеры PCI-Express от Broadcom для подключения серверов, корпусов хранения данных и корпусов ускорителей к этой коммутационной магистрали, которую представляет собой программное обеспечение FabreX. стек может дезагрегироваться и компоноваться на лету. GigaPod имеет шестнадцать ускорителей, а центральные и графические процессоры настраиваются с помощью Bright Cluster Manager от Bright Computing, которую Nvidia купила в январе 2022 года.

Отправить запрос
Отправлять