Akceleratory AI AMD Instinct MI300X i MI300A — szczegółowe informacje: CDNA 3 i Zen 4 łączą się w zaawansowanym opakowaniu

Akceleratory AI AMD Instinct MI300X i MI300A — szczegółowe informacje: CDNA 3 i Zen 4 łączą się w zaawansowanym opakowaniu

AMD Instinct MI300X i MI300A to jedne z najbardziej oczekiwanych akceleratorów w segmencie AI, które zostaną wprowadzone na rynek w przyszłym miesiącu. Istnieje wiele oczekiwań wokół pierwszego pełnoprawnego arcydzieła AMD opartego na sztucznej inteligencji i dzisiaj pomyśleliśmy o podsumowaniu tego, czego można się spodziewać po tym cudu techniki.

AMD Instinct MI300X został zaprojektowany z myślą o obciążeniach AI akcelerowanych przez GPU, podczas gdy MI300A radzi sobie z HPC dzięki najbardziej zaawansowanemu technicznie pakietowi APU

6 grudnia AMD będzie gospodarzem przemówienia „Rozwój sztucznej inteligencji” , którego jednym z głównych punktów będzie pełne zaprezentowanie rodziny akceleratorów nowej generacji Instinct o nazwie kodowej MI300. Ta nowa rodzina akcelerowanych procesorów graficznych i procesorów będzie wiodącym produktem w segmencie sztucznej inteligencji, który jest obecnie numerem 1 firmy AMD i najważniejszym priorytetem strategicznym firmy AMD, gdy w końcu wprowadza na rynek produkt, który jest nie tylko zaawansowany, ale także zaprojektowany tak, aby spełniać krytyczne Wymóg sztucznej inteligencji w branży. Akceleratory AI klasy MI300 będą kolejnym potężnym chipletem wykorzystującym zaawansowane technologie pakowania opracowane przez TSMC, więc zobaczmy, co kryje się pod maską tych potworów AI.

AMD Instinct MI300X – rzuca wyzwanie dominacji AI firmy NVIDIA dzięki CDNA 3 i ogromnej pamięci

AMD Instinct MI300X to zdecydowanie chip, który zostanie najbardziej wyróżniony, ponieważ jest wyraźnie ukierunkowany na akceleratory Hopper firmy NVIDIA i akceleratory Gaudi firmy Intel w segmencie AI. Układ ten został zaprojektowany wyłącznie w oparciu o architekturę CDNA 3 i sporo się w nim dzieje. Chip będzie obsługiwał mieszankę adresów IP 5 nm i 6 nm, a wszystkie łącznie dostarczą do 153 miliardów tranzystorów (MI300X).

Akceleratory AI AMD Instinct MI300X i MI300A — szczegółowe informacje: CDNA 3 i Zen 4 łączą się w zaawansowanym opakowaniu Marvel 2
Akcelerator AMD Instinct MI300X.

Począwszy od projektu, główny interposer jest układany za pomocą pasywnej matrycy, w której mieści się warstwa łącząca, wykorzystując rozwiązanie Infinity Fabric nowej generacji. Przekładka zawiera w sumie 28 kostek, w tym osiem pakietów HBM3, 16 fikcyjnych kostek pomiędzy pakietami HBM i cztery aktywne kości, a każda z tych aktywnych kostek otrzymuje dwie kości obliczeniowe.

Każdy GCD oparty na architekturze GPU CDNA 3 zawiera łącznie 40 jednostek obliczeniowych, co równa się 2560 rdzeniom. Łącznie jest osiem kości obliczeniowych (GCD), co daje nam w sumie 320 jednostek obliczeniowych i 20 480 jednostek rdzeniowych. Jeśli chodzi o wydajność, AMD będzie ograniczać niewielką część tych rdzeni, a więcej szczegółów na temat dokładnych konfiguracji otrzymamy za miesiąc.

Akceleratory AI AMD Instinct MI300X i MI300A — szczegółowe informacje: CDNA 3 i Zen 4 łączą się w zaawansowanym opakowaniu Marvel 4
Akcelerator AMD Instinct MI300X z matrycami CDNA 3.

Pamięć to kolejny obszar, w którym nastąpi ogromna modernizacja dzięki MI300X, który może pochwalić się o 50% większą pojemnością HBM3 niż jego poprzednik, MI250X (128 GB). Aby osiągnąć pulę pamięci wynoszącą 192 GB, AMD wyposaża MI300X w 8 stosów HBM3, każdy stos ma wielkość 12-Hi, jednocześnie włączając układy scalone 16 Gb, które dają nam pojemność 2 GB na układ scalony lub 24 GB na stos. Pamięć będzie oferować przepustowość do 5,2 TB/s i przepustowość Infinity Fabric na poziomie 896 GB/s. Dla porównania, nadchodzący akcelerator AI H200 firmy NVIDIA oferuje pojemność 141 GB, podczas gdy Gaudi 3 firmy Intel będzie oferować pojemność 144 GB. Duże pule pamięci mają duże znaczenie w LLM, które są w większości powiązane z pamięcią, a AMD z pewnością może pokazać swoje umiejętności w zakresie sztucznej inteligencji, przodując w dziale pamięci.

232328650_instinct_mi300a_exploded_view_01-niestandardowy232328650_instinct_mi300x_exploded_view_01-niestandardowe232328650_instinct_mi300a_exploded_view_02-niestandardowe232328650_instinct_mi300x_exploded_view_02-niestandardowe232328650_instinct_mi300a_cross_section_angle_01-custom232328650_instinct_mi300x_cross_section_angle_01-custom232328650_instinct_mi300a_exploded_view_03-niestandardowy232328650_instinct_mi300x_exploded_view_03-custom

Jeśli chodzi o zużycie energii, AMD Instinct MI300X ma moc znamionową 750 W, co stanowi wzrost o 50% w porównaniu z 500 W Instinct MI250X i 50 W więcej niż NVIDIA H200.

AMD Instinct MI300A – gęsto upakowane eksaskalowe procesory APU są teraz rzeczywistością

Latami czekaliśmy, aż AMD w końcu dotrzyma obietnicy dotyczącej APU klasy Exascale, a dzień zbliża się do premiery Instinct MI300A. Opakowanie MI300A jest bardzo podobne do MI300X, z tą różnicą, że wykorzystuje pojemność pamięci zoptymalizowaną pod kątem TCO i rdzenie Zen 4.

Akceleratory AI AMD Instinct MI300X i MI300A Szczegółowe informacje: CDNA 3 i Zen 4 łączą się w zaawansowanym opakowaniu Marvel 3
Akcelerator AMD Instinct MI300A.

Jedna z aktywnych matryc ma wycięte dwa dyski GCD CDNA 3 i zastąpione trzema dyskami CCD Zen 4, które oferują własną oddzielną pulę pamięci podręcznej i adresów IP rdzenia. Na każdy CCD przypada 8 rdzeni i 16 wątków, co daje w sumie 24 rdzenie i 48 wątków na aktywnej kości. Dostępnych jest także 24 MB pamięci podręcznej L2 (1 MB na rdzeń) i oddzielna pula pamięci podręcznej (32 MB na CCD). Należy pamiętać, że dyski GCD CDNA 3 również mają osobną pamięć podręczną L2.

Akceleratory AI AMD Instinct MI300X i MI300A Szczegółowe informacje: CDNA 3 i Zen 4 łączą się w zaawansowanym opakowaniu Marvel 5
Akcelerator AMD Instinct MI300A z matrycami CDNA 3 i Zen 4.

Podsumowując niektóre z wyróżnionych funkcji akceleratorów AMD Instinct MI300, mamy:

  • Pierwszy zintegrowany pakiet CPU+GPU
  • Cel w rynku superkomputerów eksaskalowych
  • AMD MI300A (zintegrowany procesor + karta graficzna)
  • AMD MI300X (tylko karta graficzna)
  • 153 miliardy tranzystorów
  • Do 24 rdzeni Zen 4
  • Architektura procesora graficznego CDNA 3
  • Do 192 GB pamięci HBM3
  • Do 8 chipletów + 8 stosów pamięci (proces 5 nm + 6 nm)

Łącząc to wszystko, AMD będzie współpracować ze swoimi podmiotami obsługującymi ekosystem i partnerami, aby zaoferować akceleratory MI300 AI w 8-kierunkowych konfiguracjach obejmujących konstrukcje SXM, które łączą się z płytą główną za pomocą złączy mezzanine. Ciekawie będzie zobaczyć, jakiego rodzaju konfiguracje będą one oferowane w ramach tej karty, i chociaż płyty SXM są oczywiste, możemy również spodziewać się kilku wariantów w formacie PCI-E.

amd-instinct-mi300-AI-accelerators-servers-_2amd-instinct-mi300-AI-accelerators-servers-_1amd-instinct-mi300-AI-accelerators-servers-_4amd-instinct-mi300-AI-accelerators-servers-_5amd-instinct-mi300-AI-accelerators-servers-_3

Na razie AMD powinno wiedzieć, że ich konkurenci również pełną parą rozwijają szaleństwo sztucznej inteligencji, ponieważ NVIDIA już drażni się z ogromnymi liczbami dotyczącymi procesorów graficznych Blackwell na rok 2024, a Intel przygotowuje procesory graficzne Guadi 3 i Falcon Shores do premiery w nadchodzących latach. Jedno jest w tej chwili pewne: klienci AI pochłoną prawie wszystko, co im się uda, i wszyscy na tym skorzystają. Jednak AMD ma bardzo imponujące rozwiązanie, które nie ma na celu jedynie być alternatywą dla NVIDIA, ale także liderem w segmencie sztucznej inteligencji i mamy nadzieję, że MI300 pomoże im osiągnąć ten sukces.

Akceleratory AMD Radeon Instinct

Nazwa akceleratora AMD Instinct MI400 AMD Instinct MI300 AMD Instinct MI250X AMD Instinct MI250 AMD Instinct MI210 AMD Instinct MI100 AMD Radeon Instinct MI60 AMD Radeon Instinct MI50 AMD Radeon Instinct MI25 AMD Radeon Instinct MI8 AMD Radeon Instinct MI6
Architektura procesora Zen 5 (eksaskalowy APU) Zen 4 (eksaskalowy APU) Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy Nie dotyczy
Architektura GPU CDNA 4 Aqua Vanjaram (CDNA 3) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Arktur (CDNA 1) Wega 20 Wega 20 Wega 10 Fidżi XT Polar 10
Węzeł procesowy GPU 4 nm 5 nm + 6 nm 6 nm 6 nm 6 nm 7-nanometrowy FinFET 7-nanometrowy FinFET 7-nanometrowy FinFET FinFET 14 nm 28 nm FinFET 14 nm
Chiplety GPU do ustalenia 8 (MCM) 2 (MCM)
1 (na kość)
2 (MCM)
1 (na kość)
2 (MCM)
1 (na kość)
1 (monolityczny) 1 (monolityczny) 1 (monolityczny) 1 (monolityczny) 1 (monolityczny) 1 (monolityczny)
Rdzenie GPU do ustalenia Do 19 456 14080 13312 6656 7680 4096 3840 4096 4096 2304
Szybkość zegara GPU do ustalenia TBA 1700 MHz 1700 MHz 1700 MHz 1500 MHz 1800 MHz 1725 MHz 1500 MHz 1000 MHz 1237 MHz
Obliczenia FP16 do ustalenia TBA 383 TOP 362 TOP 181 TOPów 185 TFLOPów 29,5 TFLOPów 26,5 TFLOPów 24,6 TFLOPów 8,2 TFLOPów 5,7 TFLOPów
Obliczenia FP32 do ustalenia TBA 95,7 TFLOPów 90,5 TFLOPów 45,3 TFLOPów 23,1 TFLOPów 14,7 TFLOPów 13,3 TFLOPów 12,3 TFLOPów 8,2 TFLOPów 5,7 TFLOPów
Obliczenia FP64 do ustalenia TBA 47,9 TFLOPów 45,3 TFLOPów 22,6 TFLOPów 11,5 TFLOPów 7,4 TFLOPów 6,6 TFLOPów 768 GFLOPów 512 GFLOPów 384 GFLOPów
VRAM do ustalenia 192GB HBM3 128GB HBM2e 128GB HBM2e 64GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16 GB GDDR5
Taktowanie pamięci do ustalenia 5,2 Gb/s 3,2 Gb/s 3,2 Gb/s 3,2 Gb/s 1200 MHz 1000 MHz 1000 MHz 945 MHz 500 MHz 1750 MHz
Autobus pamięci do ustalenia 8192-bitowy 8192-bitowy 8192-bitowy 4096-bitowy Magistrala 4096-bitowa Magistrala 4096-bitowa Magistrala 4096-bitowa Magistrala 2048-bitowa Magistrala 4096-bitowa Magistrala 256-bitowa
Przepustowość pamięci do ustalenia 5,2 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1 TB/s 1 TB/s 484 GB/s 512 GB/s 224 GB/s
Współczynnik kształtu do ustalenia OAM OAM OAM Karta z dwoma gniazdami Podwójne gniazdo, pełna długość Podwójne gniazdo, pełna długość Podwójne gniazdo, pełna długość Podwójne gniazdo, pełna długość Podwójne gniazdo, połowa długości Pojedyncze gniazdo, pełna długość
Chłodzenie do ustalenia Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne Chłodzenie pasywne
TDP (maks.) do ustalenia 750 W 560 W 500 W 300 W 300 W 300 W 300 W 300 W 175 W 150 W

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *