AMD wprowadza na rynek akcelerator graficzny AI Instinct MI300X, do 60% szybszy niż NVIDIA H100

AMD wprowadza na rynek akcelerator graficzny AI Instinct MI300X, do 60% szybszy niż NVIDIA H100

AMD ogłosiło oficjalną premierę swojego flagowego akceleratora GPU AI, MI300X, który oferuje do 60% lepszą wydajność niż NVIDIA H100.

AMD wreszcie ma procesor graficzny, który może stawić czoła NVIDIA w segmencie sztucznej inteligencji, MI300X do 60% szybszy niż H100

Akceleratory AI klasy AMD Instinct MI300 będą kolejnym potężnym chipletem wykorzystującym zaawansowane technologie pakowania opracowane przez TSMC. Dzisiaj AMD nie tylko ogłosiło wprowadzenie na rynek tych układów, ale udostępniło pierwsze testy wydajności MI300X, które wyglądają świetnie. AMD najpierw użyło ogólnych specyfikacji do porównania i ofert akceleratorów CDNA 3 (w porównaniu z NVIDIA H100):

  • 2,4 razy większa pojemność pamięci
  • 1,6X większa przepustowość pamięci
  • 1,3X TFLOPS FP8
  • 1,3X TFLOPS FP16
amd-instinct-mi300-_-mi300x-launch-_4amd-instinct-mi300-_-mi300x-launch-_3amd-instinct-mi300-_-mi300x-launch-_6

Ogólnie rzecz biorąc, LLM Kernel TFLOP, MI300X oferuje do 20% wyższą wydajność w FlashAttention-2 i Llama 2 70B. Patrząc z perspektywy platformy, która porównuje rozwiązanie 8x MI300X z rozwiązaniem 8X H100, widzimy znacznie większy 40% wzrost w Llama 2 70B & wzrost o 60% w Bloom 176B. AMD wspomina, że ​​pod względem wydajności treningowej MI300X dorównuje konkurencji (H100) i oferuje konkurencyjny stosunek ceny do wydajności, a jednocześnie doskonale radzi sobie z wnioskowaniem o obciążeniach.

AMD Instinct MI300X – rzuca wyzwanie dominacji sztucznej inteligencji firmy NVIDIA dzięki CDNA 3 i amp; Ogromna pamięć

AMD Instinct MI300X to układ, który będzie najbardziej podkreślany, ponieważ jest przeznaczony dla akceleratorów Hopper firmy NVIDIA i akceleratorów Gaudi firmy Intel w segmencie sztucznej inteligencji. Układ ten został zaprojektowany wyłącznie w oparciu o architekturę CDNA 3 i sporo się w nim dzieje. Chip będzie obsługiwał mieszankę adresów IP 5 nm i 6 nm, a wszystkie łącznie dostarczą do 153 miliardów tranzystorów (MI300X).

AMD Instinct MI300X & Akceleratory AI MI300A Szczegółowe: CDNA 3 i amp; Zen 4 w zaawansowanym opakowaniu Marvel 2
Akcelerator AMD Instinct MI300X.

Zaczynając od projektu, główny przekładka jest układany za pomocą pasywnej matrycy, w której mieści się warstwa łącząca, wykorzystując rozwiązanie Infinity Fabric czwartej generacji. Przekładka zawiera w sumie 28 matryc, w tym osiem pakietów HBM3, 16 fikcyjnych matryc pomiędzy pakietami HBM. cztery aktywne kości, a każda z tych aktywnych kości otrzymuje dwie kości obliczeniowe.

Każdy GCD oparty na architekturze GPU CDNA 3 zawiera łącznie 40 jednostek obliczeniowych, co równa się 2560 rdzeniom. W sumie jest osiem kości obliczeniowych (GCD), co daje nam w sumie 320 mocy obliczeniowych i amp; 20 480 jednostek podstawowych. Jeśli chodzi o wydajność, AMD będzie ograniczać niewielką część tych rdzeni, a więcej szczegółów na temat dokładnych konfiguracji otrzymamy za miesiąc.

AMD Instinct MI300X & Akceleratory AI MI300A Szczegółowe: CDNA 3 i amp; Zen 4 łączy się w zaawansowanym opakowaniu Marvel 4
Akcelerator AMD Instinct MI300X z matrycami CDNA 3.

Pamięć to kolejny obszar, w którym nastąpi ogromna modernizacja dzięki MI300X, który może pochwalić się o 50% większą pojemnością HBM3 niż jego poprzednik, MI250X (128 GB). Aby osiągnąć pulę pamięci wynoszącą 192 GB, AMD wyposaża MI300X w 8 stosów HBM3, każdy stos ma wielkość 12-Hi, jednocześnie włączając układy scalone 16 Gb, które dają nam pojemność 2 GB na układ scalony lub 24 GB na stos.

Pamięć będzie oferować przepustowość do 5,3 TB/s i przepustowość Infinity Fabric wynoszącą 896 GB/s. Dla porównania, nadchodzący akcelerator AI H200 firmy NVIDIA oferuje pojemność 141 GB, podczas gdy Gaudi 3 firmy Intel będzie oferować 144 GB < /span>pojemności. Duże pule pamięci mają duże znaczenie w LLM, które są w większości powiązane z pamięcią, a AMD może pokazać swoje umiejętności w zakresie sztucznej inteligencji, przodując w dziale pamięci. Dla porównania:

  • Instinct MI300X – 192 GB HBM3
  • Gaudi 3 – 144 GB HBM3
  • H200 – 141 GB HBM3e
  • MI300A – 128 GB HBM3
  • MI250X – 128 GB HBM2e
  • H100 – 96 GB HBM3
  • Gaudi 2 – 96 GB HBM2e
232328650_instinct_mi300a_exploded_view_01-niestandardowe232328650_instinct_mi300x_exploded_view_01-niestandardowe232328650_instinct_mi300a_exploded_view_02-niestandardowe232328650_instinct_mi300x_exploded_view_02-niestandardowe232328650_instinct_mi300a_cross_section_angle_01-custom232328650_instinct_mi300x_cross_section_angle_01-custom232328650_instinct_mi300a_exploded_view_03-niestandardowy232328650_instinct_mi300x_exploded_view_03-custom

Jeśli chodzi o zużycie energii, AMD Instinct MI300X ma moc znamionową 750 W, co stanowi wzrost o 50% w porównaniu z 500 W Instinct MI250X i 50 W więcej niż NVIDIA H200.

amd-instinct-mi300-AI-accelerators-servers-_2amd-instinct-mi300-AI-accelerators-servers-_1amd-instinct-mi300-AI-accelerators-servers-_4amd-instinct-mi300-AI-accelerators-servers-_5AMD Instinct MI300A APU zasilane w języku francuskim

Jedna konfiguracja zaprezentowała serwery G593-ZX1/ZX2 z maksymalnie 8 akceleratorami graficznymi MI300X i dwoma procesorami AMD EPYC 9004. Systemy te będą wyposażone w maksymalnie osiem zasilaczy o mocy 3000 W, co daje łączną moc 18 000 W.

Na razie AMD powinno wiedzieć, że ich konkurenci również idą pełną parą w szaleństwie AI, a NVIDIA już drażni się z ogromnymi liczbami dotyczącymi procesorów graficznych Hopper H100 na rok 2024. Procesory graficzne Blackwell B100 i Intel przygotowują także procesory graficzne Guadi 3 i Falcon Shores do premiery w nadchodzących latach.

Jedno jest w tej chwili pewne: klienci AI pochłoną prawie wszystko, co im się uda, i wszyscy na tym skorzystają. Jednak AMD ma bardzo imponujące rozwiązanie, które nie tylko ma być alternatywą dla NVIDIA, ale także liderem w segmencie sztucznej inteligencji.

Akceleratory AMD Radeon Instinct

Nazwa akceleratora AMD Instinct MI400 AMD Instinct MI300 AMD Instinct MI250X AMD Instinct MI250 AMD Instinct MI210 AMD Instinct MI100 AMD Radeon Instinct MI60 AMD Radeon Instinct MI50 AMD Radeon Instinct MI25 AMD Radeon Instinct MI8 AMD Radeon Instinct MI6
Architektura procesora Zen 5 (eksaskalowy APU) Zen 4 (eksaskalowy APU) Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy
Architektura GPU CDNA 4 Aqua Vanjaram (CDNA 3) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Arktur (CDNA 1) Wega 20 Wega 20 Wega 10 Fidżi XT Polar 10
Węzeł procesowy GPU 4 nm 5 nm + 6 nm 6 nm 6 nm 6 nm 7-nanometrowy FinFET 7-nanometrowy FinFET 7-nanometrowy FinFET FinFET 14 nm 28 nm FinFET 14 nm
Chiplety GPU do ustalenia 8 (MCM) 2 (MCM)
1 (na kość)
2 (MCM)
1 (na kość)
2 (MCM)
1 (na kość)
1 (monolityczny) 1 (monolityczny) 1 (monolityczny) 1 (monolityczny) 1 (monolityczny) 1 (monolityczny)
Rdzenie GPU do ustalenia Do 19 456 14080 13312 6656 7680 4096 3840 4096 4096 2304
Szybkość zegara GPU do ustalenia TBA 1700 MHz 1700 MHz 1700 MHz 1500 MHz 1800 MHz 1725 MHz 1500 MHz 1000 MHz 1237 MHz
Obliczenia FP16 do ustalenia TBA 383 TOP 362 TOP 181 TOPów 185 TFLOPów 29,5 TFLOPów 26,5 TFLOPów 24,6 TFLOPów 8,2 TFLOPów 5,7 TFLOPów
Obliczenia FP32 do ustalenia TBA 95,7 TFLOPów 90,5 TFLOPów 45,3 TFLOPów 23,1 TFLOPów 14,7 TFLOPów 13,3 TFLOPów 12,3 TFLOPów 8,2 TFLOPów 5,7 TFLOPów
Obliczenia FP64 do ustalenia TBA 47,9 TFLOPów 45,3 TFLOPów 22,6 TFLOPów 11,5 TFLOPów 7,4 TFLOPów 6,6 TFLOPów 768 GFLOPów 512 GFLOPów 384 GFLOPów
VRAM do ustalenia 192 GB HBM3 128GB HBM2e 128GB HBM2e 64GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16 GB pamięci GDDR5
Taktowanie pamięci do ustalenia 5,2 Gb/s 3,2 Gb/s 3,2 Gb/s 3,2 Gb/s 1200 MHz 1000 MHz 1000 MHz 945 MHz 500 MHz 1750 MHz
Autobus pamięci do ustalenia 8192-bitowy 8192-bitowy 8192-bitowy 4096-bitowy Magistrala 4096-bitowa Magistrala 4096-bitowa Magistrala 4096-bitowa Magistrala 2048-bitowa Magistrala 4096-bitowa Magistrala 256-bitowa
Przepustowość pamięci do ustalenia 5,2 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1 TB/s 1 TB/s 484 GB/s 512 GB/s 224 GB/s
Współczynnik kształtu do ustalenia OAM OAM OAM Karta z dwoma gniazdami Podwójne gniazdo, pełna długość Podwójne gniazdo, pełna długość Podwójne gniazdo, pełna długość Podwójne gniazdo, pełna długość Podwójne gniazdo, połowa długości Pojedyncze gniazdo, pełna długość
Chłodzenie do ustalenia Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne
TDP (maks.) do ustalenia 750 W 560 W 500 W 300 W 300 W 300 W 300 W 300 W 175 W 150 W

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *