Poznaj Biren BR100, najszybszy procesor graficzny w Chinach, prawie 3 razy szybszy niż NVIDIA A100
Chiny dążą do wejścia na rynek półprzewodników iw tym roku wykazały niezwykłe wyniki. Hot Chips 34 wydaje się być tematem dnia, gdy nVIDIA przedstawia nadchodzące procesory graficzne Hopper . Więcej na ten temat możesz przeczytać tutaj . Birentech z Chin skorzystał z okazji, aby zaprezentować swój nadchodzący procesor graficzny BR100, który podobno jest szybszy niż A100 oparty na Ampere firmy NVIDIA.
Dane techniczne BR100
Ten procesor graficzny jest oparty na węźle procesowym 7 nm z 77 miliardami tranzystorów (tylko 3 miliardy mniej niż NVIDIA H100). W tym węźle procesu zastosowano projekt TSMC 2.5D CoWoS. Pod względem pamięci ten behemot jest zasilany przez 64 GB HBM2e o przepustowości około 2,3 TB/s. Wielkość chipa wynosi około 1074mm².
Zasobnik H100 | Byren BR100 |
PCIe Gen5.0 | PCIe Gen5.0 |
Pamięć HBM3 | Pamięć HBM2e |
Przepustowość pamięci 2,3 TB/s | Przepustowość pamięci 3TB/s |
TSMS 4n | CoWoS 2.5D TSMC dla 7 nm |
80 GB pamięci | 64 GB pamięci |
NVLink (Die-to-Die) 900 GB/s | Szybka pamięć 896 GB/s |
Konstrukcja monolityczna | Konstrukcja MCM (moduł wielochipowy) |
700W | 550W |
przegląd architektoniczny
Jak wspomniano powyżej, procesor graficzny ma konstrukcję 2-chipletowego MCM, gdzie każdy chiplet jest zasilany przez 16 SPC (klastrów przetwarzania strumieniowego). Każdy SPC składa się z 16 EU (jednostek wykonawczych) i 4 EU tworzą jednostkę obliczeniową (CU).
- Chiplety: 2
- SPC: 2 x 16 = 32
- UE = 32 × 16 = 512
- KU = 512/4 = 128
Wewnątrz SPC możemy znaleźć 16 EU. Bliższe zrozumienie pokazuje, że każda UE składa się z 16 rdzeni przetwarzania strumieniowego (rdzeń V) i rdzenia T lub Tensor. Rdzenie przetwarzające strumienie x16 (lub 1 V-Core) zapewniają obliczenia FP32, FP16, INT32, INT16.
BR100 kontra A100
W porównaniu do najnowszej generacji A100 opartego na Ampere, BR100 jest w niektórych testach około 2,6 razy szybszy. To pokazuje, jak szybko Chiny przyspieszają w dziale GPU. Jednak przepraszam, że to irytujące, ale oparty na Hopperze H100 jest około 2-3 razy szybszy w tych samych testach. Te rdzenie tensorowe mogą zwiększyć tę przewagę około 30 razy w różnych testach porównawczych.
Ogólny użytek
GPU jest przeznaczony dla chińskiego działu sztucznej inteligencji i mówi się, że naśladuje ludzkie zachowanie, zwiększając wydajność sztucznej inteligencji. Odbywa się to po to, aby Chiny mogły polegać na własnej technologii.
Dodaj komentarz