AMD wprowadza na rynek akcelerator graficzny AI Instinct MI300X, do 60% szybszy niż NVIDIA H100

2023/12/06

AMD ogłosiło oficjalną premierę swojego flagowego akceleratora GPU AI, MI300X, który oferuje do 60% lepszą wydajność niż NVIDIA H100.

AMD wreszcie ma procesor graficzny, który może stawić czoła NVIDIA w segmencie sztucznej inteligencji, MI300X do 60% szybszy niż H100

Akceleratory AI klasy AMD Instinct MI300 będą kolejnym potężnym chipletem wykorzystującym zaawansowane technologie pakowania opracowane przez TSMC. Dzisiaj AMD nie tylko ogłosiło wprowadzenie na rynek tych układów, ale udostępniło pierwsze testy wydajności MI300X, które wyglądają świetnie. AMD najpierw użyło ogólnych specyfikacji do porównania i ofert akceleratorów CDNA 3 (w porównaniu z NVIDIA H100):

2,4 razy większa pojemność pamięci
1,6X większa przepustowość pamięci
1,3X TFLOPS FP8
1,3X TFLOPS FP16

Ogólnie rzecz biorąc, LLM Kernel TFLOP, MI300X oferuje do 20% wyższą wydajność w FlashAttention-2 i Llama 2 70B. Patrząc z perspektywy platformy, która porównuje rozwiązanie 8x MI300X z rozwiązaniem 8X H100, widzimy znacznie większy 40% wzrost w Llama 2 70B & wzrost o 60% w Bloom 176B. AMD wspomina, że pod względem wydajności treningowej MI300X dorównuje konkurencji (H100) i oferuje konkurencyjny stosunek ceny do wydajności, a jednocześnie doskonale radzi sobie z wnioskowaniem o obciążeniach.

AMD Instinct MI300X – rzuca wyzwanie dominacji sztucznej inteligencji firmy NVIDIA dzięki CDNA 3 i amp; Ogromna pamięć

AMD Instinct MI300X to układ, który będzie najbardziej podkreślany, ponieważ jest przeznaczony dla akceleratorów Hopper firmy NVIDIA i akceleratorów Gaudi firmy Intel w segmencie sztucznej inteligencji. Układ ten został zaprojektowany wyłącznie w oparciu o architekturę CDNA 3 i sporo się w nim dzieje. Chip będzie obsługiwał mieszankę adresów IP 5 nm i 6 nm, a wszystkie łącznie dostarczą do 153 miliardów tranzystorów (MI300X).

AMD Instinct MI300X & Akceleratory AI MI300A Szczegółowe: CDNA 3 i amp; Zen 4 w zaawansowanym opakowaniu Marvel 2 — Akcelerator AMD Instinct MI300X.

Zaczynając od projektu, główny przekładka jest układany za pomocą pasywnej matrycy, w której mieści się warstwa łącząca, wykorzystując rozwiązanie Infinity Fabric czwartej generacji. Przekładka zawiera w sumie 28 matryc, w tym osiem pakietów HBM3, 16 fikcyjnych matryc pomiędzy pakietami HBM. cztery aktywne kości, a każda z tych aktywnych kości otrzymuje dwie kości obliczeniowe.

Każdy GCD oparty na architekturze GPU CDNA 3 zawiera łącznie 40 jednostek obliczeniowych, co równa się 2560 rdzeniom. W sumie jest osiem kości obliczeniowych (GCD), co daje nam w sumie 320 mocy obliczeniowych i amp; 20 480 jednostek podstawowych. Jeśli chodzi o wydajność, AMD będzie ograniczać niewielką część tych rdzeni, a więcej szczegółów na temat dokładnych konfiguracji otrzymamy za miesiąc.

AMD Instinct MI300X & Akceleratory AI MI300A Szczegółowe: CDNA 3 i amp; Zen 4 łączy się w zaawansowanym opakowaniu Marvel 4 — Akcelerator AMD Instinct MI300X z matrycami CDNA 3.

Pamięć to kolejny obszar, w którym nastąpi ogromna modernizacja dzięki MI300X, który może pochwalić się o 50% większą pojemnością HBM3 niż jego poprzednik, MI250X (128 GB). Aby osiągnąć pulę pamięci wynoszącą 192 GB, AMD wyposaża MI300X w 8 stosów HBM3, każdy stos ma wielkość 12-Hi, jednocześnie włączając układy scalone 16 Gb, które dają nam pojemność 2 GB na układ scalony lub 24 GB na stos.

Pamięć będzie oferować przepustowość do 5,3 TB/s i przepustowość Infinity Fabric wynoszącą 896 GB/s. Dla porównania, nadchodzący akcelerator AI H200 firmy NVIDIA oferuje pojemność 141 GB, podczas gdy Gaudi 3 firmy Intel będzie oferować 144 GB < /span>pojemności. Duże pule pamięci mają duże znaczenie w LLM, które są w większości powiązane z pamięcią, a AMD może pokazać swoje umiejętności w zakresie sztucznej inteligencji, przodując w dziale pamięci. Dla porównania:

Instinct MI300X – 192 GB HBM3
Gaudi 3 – 144 GB HBM3
H200 – 141 GB HBM3e
MI300A – 128 GB HBM3
MI250X – 128 GB HBM2e
H100 – 96 GB HBM3
Gaudi 2 – 96 GB HBM2e

232328650_instinct_mi300a_exploded_view_01-niestandardowe

232328650_instinct_mi300x_exploded_view_01-niestandardowe

Jeśli chodzi o zużycie energii, AMD Instinct MI300X ma moc znamionową 750 W, co stanowi wzrost o 50% w porównaniu z 500 W Instinct MI250X i 50 W więcej niż NVIDIA H200.

amd-instinct-mi300-AI-accelerators-servers-_2

amd-instinct-mi300-AI-accelerators-servers-_1

Jedna konfiguracja zaprezentowała serwery G593-ZX1/ZX2 z maksymalnie 8 akceleratorami graficznymi MI300X i dwoma procesorami AMD EPYC 9004. Systemy te będą wyposażone w maksymalnie osiem zasilaczy o mocy 3000 W, co daje łączną moc 18 000 W.

Na razie AMD powinno wiedzieć, że ich konkurenci również idą pełną parą w szaleństwie AI, a NVIDIA już drażni się z ogromnymi liczbami dotyczącymi procesorów graficznych Hopper H100 na rok 2024. Procesory graficzne Blackwell B100 i Intel przygotowują także procesory graficzne Guadi 3 i Falcon Shores do premiery w nadchodzących latach.

Jedno jest w tej chwili pewne: klienci AI pochłoną prawie wszystko, co im się uda, i wszyscy na tym skorzystają. Jednak AMD ma bardzo imponujące rozwiązanie, które nie tylko ma być alternatywą dla NVIDIA, ale także liderem w segmencie sztucznej inteligencji.

Akceleratory AMD Radeon Instinct

Nazwa akceleratora	AMD Instinct MI400	AMD Instinct MI300	AMD Instinct MI250X	AMD Instinct MI250	AMD Instinct MI210	AMD Instinct MI100	AMD Radeon Instinct MI60	AMD Radeon Instinct MI50	AMD Radeon Instinct MI25	AMD Radeon Instinct MI8	AMD Radeon Instinct MI6
Architektura procesora	Zen 5 (eksaskalowy APU)	Zen 4 (eksaskalowy APU)	Nie dotyczy	Nie dotyczy	Nie dotyczy	Nie dotyczy	Nie dotyczy	Nie dotyczy	Nie dotyczy	Nie dotyczy	Nie dotyczy
Architektura GPU	CDNA 4	Aqua Vanjaram (CDNA 3)	Aldebaran (CDNA 2)	Aldebaran (CDNA 2)	Aldebaran (CDNA 2)	Arktur (CDNA 1)	Wega 20	Wega 20	Wega 10	Fidżi XT	Polar 10
Węzeł procesowy GPU	4 nm	5 nm + 6 nm	6 nm	6 nm	6 nm	7-nanometrowy FinFET	7-nanometrowy FinFET	7-nanometrowy FinFET	FinFET 14 nm	28 nm	FinFET 14 nm
Chiplety GPU	do ustalenia	8 (MCM)	2 (MCM) 1 (na kość)	2 (MCM) 1 (na kość)	2 (MCM) 1 (na kość)	1 (monolityczny)	1 (monolityczny)	1 (monolityczny)	1 (monolityczny)	1 (monolityczny)	1 (monolityczny)
Rdzenie GPU	do ustalenia	Do 19 456	14080	13312	6656	7680	4096	3840	4096	4096	2304
Szybkość zegara GPU	do ustalenia	TBA	1700 MHz	1700 MHz	1700 MHz	1500 MHz	1800 MHz	1725 MHz	1500 MHz	1000 MHz	1237 MHz
Obliczenia FP16	do ustalenia	TBA	383 TOP	362 TOP	181 TOPów	185 TFLOPów	29,5 TFLOPów	26,5 TFLOPów	24,6 TFLOPów	8,2 TFLOPów	5,7 TFLOPów
Obliczenia FP32	do ustalenia	TBA	95,7 TFLOPów	90,5 TFLOPów	45,3 TFLOPów	23,1 TFLOPów	14,7 TFLOPów	13,3 TFLOPów	12,3 TFLOPów	8,2 TFLOPów	5,7 TFLOPów
Obliczenia FP64	do ustalenia	TBA	47,9 TFLOPów	45,3 TFLOPów	22,6 TFLOPów	11,5 TFLOPów	7,4 TFLOPów	6,6 TFLOPów	768 GFLOPów	512 GFLOPów	384 GFLOPów
VRAM	do ustalenia	192 GB HBM3	128GB HBM2e	128GB HBM2e	64GB HBM2e	32GB HBM2	32GB HBM2	16GB HBM2	16GB HBM2	4GB HBM1	16 GB pamięci GDDR5
Taktowanie pamięci	do ustalenia	5,2 Gb/s	3,2 Gb/s	3,2 Gb/s	3,2 Gb/s	1200 MHz	1000 MHz	1000 MHz	945 MHz	500 MHz	1750 MHz
Autobus pamięci	do ustalenia	8192-bitowy	8192-bitowy	8192-bitowy	4096-bitowy	Magistrala 4096-bitowa	Magistrala 4096-bitowa	Magistrala 4096-bitowa	Magistrala 2048-bitowa	Magistrala 4096-bitowa	Magistrala 256-bitowa
Przepustowość pamięci	do ustalenia	5,2 TB/s	3,2 TB/s	3,2 TB/s	1,6 TB/s	1,23 TB/s	1 TB/s	1 TB/s	484 GB/s	512 GB/s	224 GB/s
Współczynnik kształtu	do ustalenia	OAM	OAM	OAM	Karta z dwoma gniazdami	Podwójne gniazdo, pełna długość	Podwójne gniazdo, pełna długość	Podwójne gniazdo, pełna długość	Podwójne gniazdo, pełna długość	Podwójne gniazdo, połowa długości	Pojedyncze gniazdo, pełna długość
Chłodzenie	do ustalenia	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne	Chłodzenie pasywne
TDP (maks.)	do ustalenia	750 W	560 W	500 W	300 W	300 W	300 W	300 W	300 W	175 W	150 W

AMD wreszcie ma procesor graficzny, który może stawić czoła NVIDIA w segmencie sztucznej inteligencji, MI300X do 60% szybszy niż H100

AMD Instinct MI300X – rzuca wyzwanie dominacji sztucznej inteligencji firmy NVIDIA dzięki CDNA 3 i amp; Ogromna pamięć

Akceleratory AMD Radeon Instinct

Dodaj komentarz Anuluj pisanie odpowiedzi