AMD wprowadza na rynek akcelerator graficzny AI Instinct MI300X, do 60% szybszy niż NVIDIA H100
AMD ogłosiło oficjalną premierę swojego flagowego akceleratora GPU AI, MI300X, który oferuje do 60% lepszą wydajność niż NVIDIA H100.
AMD wreszcie ma procesor graficzny, który może stawić czoła NVIDIA w segmencie sztucznej inteligencji, MI300X do 60% szybszy niż H100
Akceleratory AI klasy AMD Instinct MI300 będą kolejnym potężnym chipletem wykorzystującym zaawansowane technologie pakowania opracowane przez TSMC. Dzisiaj AMD nie tylko ogłosiło wprowadzenie na rynek tych układów, ale udostępniło pierwsze testy wydajności MI300X, które wyglądają świetnie. AMD najpierw użyło ogólnych specyfikacji do porównania i ofert akceleratorów CDNA 3 (w porównaniu z NVIDIA H100):
- 2,4 razy większa pojemność pamięci
- 1,6X większa przepustowość pamięci
- 1,3X TFLOPS FP8
- 1,3X TFLOPS FP16
Ogólnie rzecz biorąc, LLM Kernel TFLOP, MI300X oferuje do 20% wyższą wydajność w FlashAttention-2 i Llama 2 70B. Patrząc z perspektywy platformy, która porównuje rozwiązanie 8x MI300X z rozwiązaniem 8X H100, widzimy znacznie większy 40% wzrost w Llama 2 70B & wzrost o 60% w Bloom 176B. AMD wspomina, że pod względem wydajności treningowej MI300X dorównuje konkurencji (H100) i oferuje konkurencyjny stosunek ceny do wydajności, a jednocześnie doskonale radzi sobie z wnioskowaniem o obciążeniach.
AMD Instinct MI300X – rzuca wyzwanie dominacji sztucznej inteligencji firmy NVIDIA dzięki CDNA 3 i amp; Ogromna pamięć
AMD Instinct MI300X to układ, który będzie najbardziej podkreślany, ponieważ jest przeznaczony dla akceleratorów Hopper firmy NVIDIA i akceleratorów Gaudi firmy Intel w segmencie sztucznej inteligencji. Układ ten został zaprojektowany wyłącznie w oparciu o architekturę CDNA 3 i sporo się w nim dzieje. Chip będzie obsługiwał mieszankę adresów IP 5 nm i 6 nm, a wszystkie łącznie dostarczą do 153 miliardów tranzystorów (MI300X).
Zaczynając od projektu, główny przekładka jest układany za pomocą pasywnej matrycy, w której mieści się warstwa łącząca, wykorzystując rozwiązanie Infinity Fabric czwartej generacji. Przekładka zawiera w sumie 28 matryc, w tym osiem pakietów HBM3, 16 fikcyjnych matryc pomiędzy pakietami HBM. cztery aktywne kości, a każda z tych aktywnych kości otrzymuje dwie kości obliczeniowe.
Każdy GCD oparty na architekturze GPU CDNA 3 zawiera łącznie 40 jednostek obliczeniowych, co równa się 2560 rdzeniom. W sumie jest osiem kości obliczeniowych (GCD), co daje nam w sumie 320 mocy obliczeniowych i amp; 20 480 jednostek podstawowych. Jeśli chodzi o wydajność, AMD będzie ograniczać niewielką część tych rdzeni, a więcej szczegółów na temat dokładnych konfiguracji otrzymamy za miesiąc.
Pamięć to kolejny obszar, w którym nastąpi ogromna modernizacja dzięki MI300X, który może pochwalić się o 50% większą pojemnością HBM3 niż jego poprzednik, MI250X (128 GB). Aby osiągnąć pulę pamięci wynoszącą 192 GB, AMD wyposaża MI300X w 8 stosów HBM3, każdy stos ma wielkość 12-Hi, jednocześnie włączając układy scalone 16 Gb, które dają nam pojemność 2 GB na układ scalony lub 24 GB na stos.
Pamięć będzie oferować przepustowość do 5,3 TB/s i przepustowość Infinity Fabric wynoszącą 896 GB/s. Dla porównania, nadchodzący akcelerator AI H200 firmy NVIDIA oferuje pojemność 141 GB, podczas gdy Gaudi 3 firmy Intel będzie oferować 144 GB < /span>pojemności. Duże pule pamięci mają duże znaczenie w LLM, które są w większości powiązane z pamięcią, a AMD może pokazać swoje umiejętności w zakresie sztucznej inteligencji, przodując w dziale pamięci. Dla porównania:
- Instinct MI300X – 192 GB HBM3
- Gaudi 3 – 144 GB HBM3
- H200 – 141 GB HBM3e
- MI300A – 128 GB HBM3
- MI250X – 128 GB HBM2e
- H100 – 96 GB HBM3
- Gaudi 2 – 96 GB HBM2e
Jeśli chodzi o zużycie energii, AMD Instinct MI300X ma moc znamionową 750 W, co stanowi wzrost o 50% w porównaniu z 500 W Instinct MI250X i 50 W więcej niż NVIDIA H200.
Jedna konfiguracja zaprezentowała serwery G593-ZX1/ZX2 z maksymalnie 8 akceleratorami graficznymi MI300X i dwoma procesorami AMD EPYC 9004. Systemy te będą wyposażone w maksymalnie osiem zasilaczy o mocy 3000 W, co daje łączną moc 18 000 W.
Na razie AMD powinno wiedzieć, że ich konkurenci również idą pełną parą w szaleństwie AI, a NVIDIA już drażni się z ogromnymi liczbami dotyczącymi procesorów graficznych Hopper H100 na rok 2024. Procesory graficzne Blackwell B100 i Intel przygotowują także procesory graficzne Guadi 3 i Falcon Shores do premiery w nadchodzących latach.
Jedno jest w tej chwili pewne: klienci AI pochłoną prawie wszystko, co im się uda, i wszyscy na tym skorzystają. Jednak AMD ma bardzo imponujące rozwiązanie, które nie tylko ma być alternatywą dla NVIDIA, ale także liderem w segmencie sztucznej inteligencji.
Akceleratory AMD Radeon Instinct
Nazwa akceleratora | AMD Instinct MI400 | AMD Instinct MI300 | AMD Instinct MI250X | AMD Instinct MI250 | AMD Instinct MI210 | AMD Instinct MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|
Architektura procesora | Zen 5 (eksaskalowy APU) | Zen 4 (eksaskalowy APU) | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy |
Architektura GPU | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Arktur (CDNA 1) | Wega 20 | Wega 20 | Wega 10 | Fidżi XT | Polar 10 |
Węzeł procesowy GPU | 4 nm | 5 nm + 6 nm | 6 nm | 6 nm | 6 nm | 7-nanometrowy FinFET | 7-nanometrowy FinFET | 7-nanometrowy FinFET | FinFET 14 nm | 28 nm | FinFET 14 nm |
Chiplety GPU | do ustalenia | 8 (MCM) | 2 (MCM) 1 (na kość) |
2 (MCM) 1 (na kość) |
2 (MCM) 1 (na kość) |
1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) |
Rdzenie GPU | do ustalenia | Do 19 456 | 14080 | 13312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
Szybkość zegara GPU | do ustalenia | TBA | 1700 MHz | 1700 MHz | 1700 MHz | 1500 MHz | 1800 MHz | 1725 MHz | 1500 MHz | 1000 MHz | 1237 MHz |
Obliczenia FP16 | do ustalenia | TBA | 383 TOP | 362 TOP | 181 TOPów | 185 TFLOPów | 29,5 TFLOPów | 26,5 TFLOPów | 24,6 TFLOPów | 8,2 TFLOPów | 5,7 TFLOPów |
Obliczenia FP32 | do ustalenia | TBA | 95,7 TFLOPów | 90,5 TFLOPów | 45,3 TFLOPów | 23,1 TFLOPów | 14,7 TFLOPów | 13,3 TFLOPów | 12,3 TFLOPów | 8,2 TFLOPów | 5,7 TFLOPów |
Obliczenia FP64 | do ustalenia | TBA | 47,9 TFLOPów | 45,3 TFLOPów | 22,6 TFLOPów | 11,5 TFLOPów | 7,4 TFLOPów | 6,6 TFLOPów | 768 GFLOPów | 512 GFLOPów | 384 GFLOPów |
VRAM | do ustalenia | 192 GB HBM3 | 128GB HBM2e | 128GB HBM2e | 64GB HBM2e | 32GB HBM2 | 32GB HBM2 | 16GB HBM2 | 16GB HBM2 | 4GB HBM1 | 16 GB pamięci GDDR5 |
Taktowanie pamięci | do ustalenia | 5,2 Gb/s | 3,2 Gb/s | 3,2 Gb/s | 3,2 Gb/s | 1200 MHz | 1000 MHz | 1000 MHz | 945 MHz | 500 MHz | 1750 MHz |
Autobus pamięci | do ustalenia | 8192-bitowy | 8192-bitowy | 8192-bitowy | 4096-bitowy | Magistrala 4096-bitowa | Magistrala 4096-bitowa | Magistrala 4096-bitowa | Magistrala 2048-bitowa | Magistrala 4096-bitowa | Magistrala 256-bitowa |
Przepustowość pamięci | do ustalenia | 5,2 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s | 1,23 TB/s | 1 TB/s | 1 TB/s | 484 GB/s | 512 GB/s | 224 GB/s |
Współczynnik kształtu | do ustalenia | OAM | OAM | OAM | Karta z dwoma gniazdami | Podwójne gniazdo, pełna długość | Podwójne gniazdo, pełna długość | Podwójne gniazdo, pełna długość | Podwójne gniazdo, pełna długość | Podwójne gniazdo, połowa długości | Pojedyncze gniazdo, pełna długość |
Chłodzenie | do ustalenia | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne |
TDP (maks.) | do ustalenia | 750 W | 560 W | 500 W | 300 W | 300 W | 300 W | 300 W | 300 W | 175 W | 150 W |
Dodaj komentarz