Scopri Biren BR100, la GPU più veloce della Cina, quasi 3 volte più veloce di NVIDIA A100
La Cina punta ad entrare nel mercato dei semiconduttori e quest’anno ha mostrato risultati notevoli. Hot Chips 34 sembra essere il discorso del giorno poiché NVIDIA svela le sue imminenti GPU Hopper . Puoi leggere di più a riguardo qui . Birentech dalla Cina ha colto l’occasione per mostrare la sua prossima GPU BR100, che secondo quanto riferito è più veloce dell’A100 basato su Ampere di NVIDIA.
Specifiche BR100
Questa GPU si basa su un nodo di processo a 7 nm con 77 miliardi di transistor (solo 3 miliardi in meno rispetto a NVIDIA H100). Per questo nodo di processo è stato utilizzato il design TSMC 2.5D CoWoS. In termini di memoria, questo colosso è alimentato da 64 GB HBM2e con una larghezza di banda di circa 2,3 TB/s. La dimensione del chip è di circa 1074 mm².
Tramoggia H100 | Byren BR100 |
PCIe Gen5.0 | PCIe Gen5.0 |
Memoria HBM3 | Memoria HBM2e |
Larghezza di banda della memoria 2,3 TB/s | Larghezza di banda della memoria 3 TB/s |
STMS 4n | CoWoS 2.5D di TSMC per 7 nm |
80 GB di memoria | 64 GB di memoria |
NVLink (Die-to-Die) 900 GB/s | Memoria veloce 896 GB/s |
Design monolitico | Design MCM (modulo multichip). |
700 W | 550 W |
panoramica architettonica
Come affermato in precedenza, la GPU ha un design MCM a 2 chiplet, in cui ogni chiplet è alimentato da 16 SPC (Stream Processing Clusters). Ogni SPC è composto da 16 EU (unità di esecuzione) e 4 EU formano un’unità di calcolo (CU).
- Chiplet: 2
- SPC: 2 x 16 = 32
- UE = 32 × 16 = 512
- KU = 512/4 = 128
All’interno dell’SPC possiamo trovare 16 EU. Una comprensione più approfondita rivela che ogni UE è composta da 16 core di elaborazione del flusso (V-core) e un nucleo T o Tensor core. I core di elaborazione del flusso x16 (o 1 V-Core) forniscono calcoli FP32, FP16, INT32, INT16.
BR100 vs A100
Rispetto all’A100 basato su Ampere di ultima generazione, il BR100 è circa 2,6 volte più veloce in alcuni test. Questo mostra quanto velocemente la Cina stia accelerando nel reparto GPU. Tuttavia, mi dispiace essere fastidioso, ma l’H100 basato su Hopper è circa 2-3 volte più veloce negli stessi test. Questi core tensor possono aumentare questo vantaggio di circa 30 volte in vari benchmark.
Uso generale
La GPU è dedicata al dipartimento di intelligenza artificiale cinese e si dice che imiti il comportamento umano migliorando le prestazioni dell’intelligenza artificiale. Questo viene fatto in modo che la Cina possa fare affidamento sulla propria tecnologia.
Lascia un commento