Acceleratori AI AMD Instinct MI300X e MI300A in dettaglio: CDNA 3 e Zen 4 si uniscono in un packaging avanzato Marvel
AMD Instinct MI300X e MI300A sono alcuni degli acceleratori più attesi nel segmento AI che verranno lanciati il prossimo mese. C’è molta attesa attorno al primo vero capolavoro dell’intelligenza artificiale di AMD e oggi abbiamo pensato di darti un riepilogo di cosa aspettarti da questa meraviglia tecnica.
AMD Instinct MI300X è progettato per carichi di lavoro AI accelerati da GPU mentre MI300A affronta l’HPC con il pacchetto APU tecnicamente più avanzato
Il 6 dicembre, AMD terrà il suo keynote “Advancing AI” , in cui uno dei principali impegni sarà la presentazione completa della famiglia di acceleratori Instinct di prossima generazione, nome in codice MI300. Questa nuova famiglia di GPU e CPU accelerate sarà il prodotto di punta del segmento AI, che è il numero 1 di AMD e la priorità strategica più importante in questo momento poiché finalmente lancia sul mercato un prodotto che non è solo avanzato ma è anche progettato per soddisfare le esigenze critiche Requisiti di intelligenza artificiale nel settore. La classe MI300 di acceleratori IA sarà un altro potente chiplet, che farà uso delle tecnologie di packaging avanzate di TSMC, quindi vediamo cosa c’è sotto il cofano di questi mostri IA.
AMD Instinct MI300X: sfida la supremazia dell’intelligenza artificiale di NVIDIA con CDNA 3 e un’enorme memoria
L’AMD Instinct MI300X è sicuramente il chip che verrà messo maggiormente in risalto poiché è chiaramente mirato agli acceleratori Hopper di NVIDIA e Gaudi di Intel nel segmento AI. Questo chip è stato progettato esclusivamente sull’architettura CDNA 3 e ci sono molte cose da fare. Il chip ospiterà un mix di IP da 5 nm e 6 nm, tutti combinati per fornire fino a 153 miliardi di transistor (MI300X).
A partire dalla progettazione, l’interpositore principale è dotato di un die passivo che ospita lo strato di interconnessione utilizzando una soluzione Infinity Fabric di nuova generazione. L’interpositore include un totale di 28 matrici che includono otto pacchetti HBM3, 16 matrici fittizie tra i pacchetti HBM e quattro matrici attive e ciascuna di queste matrici attive riceve due matrici di calcolo.
Ogni GCD basato sull’architettura GPU CDNA 3 presenta un totale di 40 unità di calcolo che equivalgono a 2560 core. Ci sono otto compute dies (GCD) in totale, per un totale di 320 compute e 20.480 unità core. Per quanto riguarda i rendimenti, AMD ridurrà una piccola parte di questi core e tra un mese riceveremo maggiori dettagli sulle configurazioni esatte.
La memoria è un’altra area in cui vedrai un enorme aggiornamento con l’MI300X che vanta il 50% in più di capacità HBM3 rispetto al suo predecessore, l’MI250X (128 GB). Per ottenere un pool di memoria di 192 GB, AMD sta equipaggiando l’MI300X con 8 stack HBM3 e ogni stack è 12-Hi incorporando al contempo circuiti integrati da 16 Gb che ci danno 2 GB di capacità per circuito integrato o 24 GB per stack. La memoria offrirà fino a 5,2 TB/s di larghezza di banda e 896 GB/s di larghezza di banda Infinity Fabric. Per fare un confronto, il prossimo acceleratore AI H200 di NVIDIA offre capacità di 141 GB mentre Gaudi 3 di Intel offrirà capacità di 144 GB. I pool di memoria di grandi dimensioni contano molto nei LLM che sono per lo più legati alla memoria e AMD può sicuramente dimostrare la sua abilità nell’intelligenza artificiale essendo leader nel reparto memoria.
In termini di consumo energetico, l’AMD Instinct MI300X ha una potenza nominale di 750 W, ovvero un aumento del 50% rispetto ai 500 W dell’Instinct MI250X e 50 W in più rispetto alla NVIDIA H200.
AMD Instinct MI300A – APU Exascale ad alta densità ora una realtà
Abbiamo aspettato per anni che AMD mantenga finalmente la promessa di un’APU di classe Exascale e il giorno si avvicina mentre ci avviciniamo al lancio dell’Instinct MI300A. La confezione dell’MI300A è molto simile a quella dell’MI300X, tranne per il fatto che utilizza capacità di memoria ottimizzate per il TCO e 4 core Zen.
Uno dei die attivi ha due GCD CDNA 3 tagliati e sostituiti con tre CCD Zen 4 che offrono il proprio pool separato di cache e IP core. Ottieni 8 core e 16 thread per CCD, quindi un totale di 24 core e 48 thread sul die attivo. Ci sono anche 24 MB di cache L2 (1 MB per core) e un pool separato di cache (32 MB per CCD). Ricordiamo che i GCD CDNA 3 hanno anche la cache L2 separata.
Riepilogando alcune delle caratteristiche evidenziate degli acceleratori AMD Instinct MI300, abbiamo:
- Primo pacchetto CPU+GPU integrato
- Mirare al mercato dei supercomputer Exascale
- AMD MI300A (CPU + GPU integrate)
- AMD MI300X (solo GPU)
- 153 miliardi di transistor
- Fino a 24 Zen 4 core
- Architettura GPU CDNA 3
- Fino a 192 GB di memoria HBM3
- Fino a 8 chiplet + 8 stack di memoria (processo da 5 nm + 6 nm)
Riunendo tutti questi aspetti, AMD lavorerà con i suoi partner e abilitatori dell’ecosistema per offrire acceleratori AI MI300 in configurazioni a 8 vie con design SXM che si collegano alla scheda madre con connettori mezzanino. Sarà interessante vedere che tipo di configurazioni saranno offerte e, sebbene le schede SXM siano un dato di fatto, possiamo anche aspettarci alcune varianti nei fattori di forma PCI-E.
Per ora, AMD dovrebbe sapere che anche i suoi concorrenti stanno andando avanti a tutto vapore con la mania dell’intelligenza artificiale con NVIDIA che già anticipa alcune cifre enormi per le sue GPU Blackwell del 2024 e Intel che prepara le sue GPU Guadi 3 e Falcon Shores per il lancio anche nei prossimi anni. Una cosa è certa al momento attuale, i clienti dell’intelligenza artificiale divoreranno quasi tutto ciò che possono ottenere e tutti ne trarranno vantaggio. Ma AMD ha una soluzione davvero formidabile che non punta solo a essere un’alternativa a NVIDIA ma anche un leader nel segmento dell’intelligenza artificiale e speriamo che MI300 possa aiutarli a raggiungere questo successo.
Acceleratori AMD Radeon Instinct
Nome dell’acceleratore | AMD Instinct MI400 | AMD Instinct MI300 | AMD Istinto MI250X | AMD Istinto MI250 | AMD Instinct MI210 | AMD Instinct MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|
Architettura della CPU | Zen 5 (APU Exascale) | Zen 4 (APU Exascale) | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A |
Architettura della GPU | CDNA4 | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Arturo (CDNA 1) | Vega20 | Vega20 | Vega 10 | Figi XT | Polare 10 |
Nodo di processo GPU | 4nm | 5nm+6nm | 6 miglia nautiche | 6 miglia nautiche | 6 miglia nautiche | FinFET da 7 nm | FinFET da 7 nm | FinFET da 7 nm | FinFET da 14 nm | 28nm | FinFET da 14 nm |
Chiplet GPU | Da definire | 8 (MCM) | 2 (MCM) 1 (per dado) |
2 (MCM) 1 (per dado) |
2 (MCM) 1 (per dado) |
1 (monolitico) | 1 (monolitico) | 1 (monolitico) | 1 (monolitico) | 1 (monolitico) | 1 (monolitico) |
Core GPU | Da definire | Fino a 19.456 | 14.080 | 13.312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
Velocità di clock della GPU | Da definire | Da definire | 1700 MHz | 1700 MHz | 1700 MHz | 1500 MHz | 1800 MHz | 1725 MHz | 1500 MHz | 1000 MHz | 1237 MHz |
Calcolo FP16 | Da definire | Da definire | 383 TOP | 362 TOP | 181 TOP | 185 TFLOP | 29,5 TFLOP | 26,5 TFLOP | 24.6 TFLOP | 8.2 TFLOP | 5.7 TFLOP |
Calcolo FP32 | Da definire | Da definire | 95,7 TFLOP | 90,5 TFLOP | 45.3 TFLOP | 23.1 TFLOP | 14.7 TFLOP | 13.3 TFLOP | 12.3 TFLOP | 8.2 TFLOP | 5.7 TFLOP |
Calcolo FP64 | Da definire | Da definire | 47,9 TFLOP | 45.3 TFLOP | 22,6 TFLOP | 11,5 TFLOP | 7.4 TFLOP | 6.6 TFLOP | 768 GFLOP | 512 GFLOP | 384 GFLOP |
VRAM | Da definire | 192GBHBM3 | HBM2e da 128GB | HBM2e da 128GB | HBM2e da 64GB | 32GBHBM2 | 32GBHBM2 | 16GBHBM2 | 16GBHBM2 | 4GBHBM1 | DDR5 da 16 GB |
Orologio con memoria | Da definire | 5,2 Gbps | 3,2 Gbps | 3,2 Gbps | 3,2 Gbps | 1200 MHz | 1000 MHz | 1000 MHz | 945 MHz | 500 MHz | 1750 MHz |
Bus della memoria | Da definire | 8192 bit | 8192 bit | 8192 bit | 4096 bit | Bus a 4096 bit | Bus a 4096 bit | Bus a 4096 bit | Autobus a 2048 bit | Bus a 4096 bit | Autobus a 256 bit |
Banda di memoria | Da definire | 5,2 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/sec | 1,23 TB/s | 1TB/s | 1TB/s | 484 GB/sec | 512 GB/sec | 224 GB/sec |
Fattore di forma | Da definire | OAM | OAM | OAM | Scheda a doppio slot | Doppio slot, lunghezza intera | Doppio slot, lunghezza intera | Doppio slot, lunghezza intera | Doppio slot, lunghezza intera | Doppio slot, mezza lunghezza | Slot singolo, lunghezza intera |
Raffreddamento | Da definire | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo | Raffreddamento passivo |
TDP (massimo) | Da definire | 750W | 560 W | 500W | 300W | 300W | 300W | 300W | 300W | 175 W | 150 W |
Lascia un commento