Akceleratory AI AMD Instinct MI300X i MI300A — szczegółowe informacje: CDNA 3 i Zen 4 łączą się w zaawansowanym opakowaniu
AMD Instinct MI300X i MI300A to jedne z najbardziej oczekiwanych akceleratorów w segmencie AI, które zostaną wprowadzone na rynek w przyszłym miesiącu. Istnieje wiele oczekiwań wokół pierwszego pełnoprawnego arcydzieła AMD opartego na sztucznej inteligencji i dzisiaj pomyśleliśmy o podsumowaniu tego, czego można się spodziewać po tym cudu techniki.
AMD Instinct MI300X został zaprojektowany z myślą o obciążeniach AI akcelerowanych przez GPU, podczas gdy MI300A radzi sobie z HPC dzięki najbardziej zaawansowanemu technicznie pakietowi APU
6 grudnia AMD będzie gospodarzem przemówienia „Rozwój sztucznej inteligencji” , którego jednym z głównych punktów będzie pełne zaprezentowanie rodziny akceleratorów nowej generacji Instinct o nazwie kodowej MI300. Ta nowa rodzina akcelerowanych procesorów graficznych i procesorów będzie wiodącym produktem w segmencie sztucznej inteligencji, który jest obecnie numerem 1 firmy AMD i najważniejszym priorytetem strategicznym firmy AMD, gdy w końcu wprowadza na rynek produkt, który jest nie tylko zaawansowany, ale także zaprojektowany tak, aby spełniać krytyczne Wymóg sztucznej inteligencji w branży. Akceleratory AI klasy MI300 będą kolejnym potężnym chipletem wykorzystującym zaawansowane technologie pakowania opracowane przez TSMC, więc zobaczmy, co kryje się pod maską tych potworów AI.
AMD Instinct MI300X – rzuca wyzwanie dominacji AI firmy NVIDIA dzięki CDNA 3 i ogromnej pamięci
AMD Instinct MI300X to zdecydowanie chip, który zostanie najbardziej wyróżniony, ponieważ jest wyraźnie ukierunkowany na akceleratory Hopper firmy NVIDIA i akceleratory Gaudi firmy Intel w segmencie AI. Układ ten został zaprojektowany wyłącznie w oparciu o architekturę CDNA 3 i sporo się w nim dzieje. Chip będzie obsługiwał mieszankę adresów IP 5 nm i 6 nm, a wszystkie łącznie dostarczą do 153 miliardów tranzystorów (MI300X).
Począwszy od projektu, główny interposer jest układany za pomocą pasywnej matrycy, w której mieści się warstwa łącząca, wykorzystując rozwiązanie Infinity Fabric nowej generacji. Przekładka zawiera w sumie 28 kostek, w tym osiem pakietów HBM3, 16 fikcyjnych kostek pomiędzy pakietami HBM i cztery aktywne kości, a każda z tych aktywnych kostek otrzymuje dwie kości obliczeniowe.
Każdy GCD oparty na architekturze GPU CDNA 3 zawiera łącznie 40 jednostek obliczeniowych, co równa się 2560 rdzeniom. Łącznie jest osiem kości obliczeniowych (GCD), co daje nam w sumie 320 jednostek obliczeniowych i 20 480 jednostek rdzeniowych. Jeśli chodzi o wydajność, AMD będzie ograniczać niewielką część tych rdzeni, a więcej szczegółów na temat dokładnych konfiguracji otrzymamy za miesiąc.
Pamięć to kolejny obszar, w którym nastąpi ogromna modernizacja dzięki MI300X, który może pochwalić się o 50% większą pojemnością HBM3 niż jego poprzednik, MI250X (128 GB). Aby osiągnąć pulę pamięci wynoszącą 192 GB, AMD wyposaża MI300X w 8 stosów HBM3, każdy stos ma wielkość 12-Hi, jednocześnie włączając układy scalone 16 Gb, które dają nam pojemność 2 GB na układ scalony lub 24 GB na stos. Pamięć będzie oferować przepustowość do 5,2 TB/s i przepustowość Infinity Fabric na poziomie 896 GB/s. Dla porównania, nadchodzący akcelerator AI H200 firmy NVIDIA oferuje pojemność 141 GB, podczas gdy Gaudi 3 firmy Intel będzie oferować pojemność 144 GB. Duże pule pamięci mają duże znaczenie w LLM, które są w większości powiązane z pamięcią, a AMD z pewnością może pokazać swoje umiejętności w zakresie sztucznej inteligencji, przodując w dziale pamięci.
Jeśli chodzi o zużycie energii, AMD Instinct MI300X ma moc znamionową 750 W, co stanowi wzrost o 50% w porównaniu z 500 W Instinct MI250X i 50 W więcej niż NVIDIA H200.
AMD Instinct MI300A – gęsto upakowane eksaskalowe procesory APU są teraz rzeczywistością
Latami czekaliśmy, aż AMD w końcu dotrzyma obietnicy dotyczącej APU klasy Exascale, a dzień zbliża się do premiery Instinct MI300A. Opakowanie MI300A jest bardzo podobne do MI300X, z tą różnicą, że wykorzystuje pojemność pamięci zoptymalizowaną pod kątem TCO i rdzenie Zen 4.
Jedna z aktywnych matryc ma wycięte dwa dyski GCD CDNA 3 i zastąpione trzema dyskami CCD Zen 4, które oferują własną oddzielną pulę pamięci podręcznej i adresów IP rdzenia. Na każdy CCD przypada 8 rdzeni i 16 wątków, co daje w sumie 24 rdzenie i 48 wątków na aktywnej kości. Dostępnych jest także 24 MB pamięci podręcznej L2 (1 MB na rdzeń) i oddzielna pula pamięci podręcznej (32 MB na CCD). Należy pamiętać, że dyski GCD CDNA 3 również mają osobną pamięć podręczną L2.
Podsumowując niektóre z wyróżnionych funkcji akceleratorów AMD Instinct MI300, mamy:
- Pierwszy zintegrowany pakiet CPU+GPU
- Cel w rynku superkomputerów eksaskalowych
- AMD MI300A (zintegrowany procesor + karta graficzna)
- AMD MI300X (tylko karta graficzna)
- 153 miliardy tranzystorów
- Do 24 rdzeni Zen 4
- Architektura procesora graficznego CDNA 3
- Do 192 GB pamięci HBM3
- Do 8 chipletów + 8 stosów pamięci (proces 5 nm + 6 nm)
Łącząc to wszystko, AMD będzie współpracować ze swoimi podmiotami obsługującymi ekosystem i partnerami, aby zaoferować akceleratory MI300 AI w 8-kierunkowych konfiguracjach obejmujących konstrukcje SXM, które łączą się z płytą główną za pomocą złączy mezzanine. Ciekawie będzie zobaczyć, jakiego rodzaju konfiguracje będą one oferowane w ramach tej karty, i chociaż płyty SXM są oczywiste, możemy również spodziewać się kilku wariantów w formacie PCI-E.
Na razie AMD powinno wiedzieć, że ich konkurenci również pełną parą rozwijają szaleństwo sztucznej inteligencji, ponieważ NVIDIA już drażni się z ogromnymi liczbami dotyczącymi procesorów graficznych Blackwell na rok 2024, a Intel przygotowuje procesory graficzne Guadi 3 i Falcon Shores do premiery w nadchodzących latach. Jedno jest w tej chwili pewne: klienci AI pochłoną prawie wszystko, co im się uda, i wszyscy na tym skorzystają. Jednak AMD ma bardzo imponujące rozwiązanie, które nie ma na celu jedynie być alternatywą dla NVIDIA, ale także liderem w segmencie sztucznej inteligencji i mamy nadzieję, że MI300 pomoże im osiągnąć ten sukces.
Akceleratory AMD Radeon Instinct
Nazwa akceleratora | AMD Instinct MI400 | AMD Instinct MI300 | AMD Instinct MI250X | AMD Instinct MI250 | AMD Instinct MI210 | AMD Instinct MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|
Architektura procesora | Zen 5 (eksaskalowy APU) | Zen 4 (eksaskalowy APU) | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy | Nie dotyczy |
Architektura GPU | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Arktur (CDNA 1) | Wega 20 | Wega 20 | Wega 10 | Fidżi XT | Polar 10 |
Węzeł procesowy GPU | 4 nm | 5 nm + 6 nm | 6 nm | 6 nm | 6 nm | 7-nanometrowy FinFET | 7-nanometrowy FinFET | 7-nanometrowy FinFET | FinFET 14 nm | 28 nm | FinFET 14 nm |
Chiplety GPU | do ustalenia | 8 (MCM) | 2 (MCM) 1 (na kość) |
2 (MCM) 1 (na kość) |
2 (MCM) 1 (na kość) |
1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) | 1 (monolityczny) |
Rdzenie GPU | do ustalenia | Do 19 456 | 14080 | 13312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
Szybkość zegara GPU | do ustalenia | TBA | 1700 MHz | 1700 MHz | 1700 MHz | 1500 MHz | 1800 MHz | 1725 MHz | 1500 MHz | 1000 MHz | 1237 MHz |
Obliczenia FP16 | do ustalenia | TBA | 383 TOP | 362 TOP | 181 TOPów | 185 TFLOPów | 29,5 TFLOPów | 26,5 TFLOPów | 24,6 TFLOPów | 8,2 TFLOPów | 5,7 TFLOPów |
Obliczenia FP32 | do ustalenia | TBA | 95,7 TFLOPów | 90,5 TFLOPów | 45,3 TFLOPów | 23,1 TFLOPów | 14,7 TFLOPów | 13,3 TFLOPów | 12,3 TFLOPów | 8,2 TFLOPów | 5,7 TFLOPów |
Obliczenia FP64 | do ustalenia | TBA | 47,9 TFLOPów | 45,3 TFLOPów | 22,6 TFLOPów | 11,5 TFLOPów | 7,4 TFLOPów | 6,6 TFLOPów | 768 GFLOPów | 512 GFLOPów | 384 GFLOPów |
VRAM | do ustalenia | 192GB HBM3 | 128GB HBM2e | 128GB HBM2e | 64GB HBM2e | 32GB HBM2 | 32GB HBM2 | 16GB HBM2 | 16GB HBM2 | 4GB HBM1 | 16 GB GDDR5 |
Taktowanie pamięci | do ustalenia | 5,2 Gb/s | 3,2 Gb/s | 3,2 Gb/s | 3,2 Gb/s | 1200 MHz | 1000 MHz | 1000 MHz | 945 MHz | 500 MHz | 1750 MHz |
Autobus pamięci | do ustalenia | 8192-bitowy | 8192-bitowy | 8192-bitowy | 4096-bitowy | Magistrala 4096-bitowa | Magistrala 4096-bitowa | Magistrala 4096-bitowa | Magistrala 2048-bitowa | Magistrala 4096-bitowa | Magistrala 256-bitowa |
Przepustowość pamięci | do ustalenia | 5,2 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s | 1,23 TB/s | 1 TB/s | 1 TB/s | 484 GB/s | 512 GB/s | 224 GB/s |
Współczynnik kształtu | do ustalenia | OAM | OAM | OAM | Karta z dwoma gniazdami | Podwójne gniazdo, pełna długość | Podwójne gniazdo, pełna długość | Podwójne gniazdo, pełna długość | Podwójne gniazdo, pełna długość | Podwójne gniazdo, połowa długości | Pojedyncze gniazdo, pełna długość |
Chłodzenie | do ustalenia | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne | Chłodzenie pasywne |
TDP (maks.) | do ustalenia | 750 W | 560 W | 500 W | 300 W | 300 W | 300 W | 300 W | 300 W | 175 W | 150 W |
Dodaj komentarz