Il supercomputer Frontier basato su AMD ha subito diversi guasti hardware

Il supercomputer Frontier basato su AMD ha subito diversi guasti hardware

Costruire un supercomputer richiede sempre molto impegno, ma creare hardware di prima classe exaflop per il settore è molto difficile e richiede lo sviluppo di molto hardware e software. Sfortunatamente, questo potrebbe essere il caso del supercomputer Frontier dell’Oak Ridge National Laboratory , che riesce a malapena a superare la giornata senza una serie di problemi hardware.

Con i processori AMD EPYC Trento a 64 core , le GPU di elaborazione Instinct MI250X e l’ interconnessione HPE Slingshot , il sistema Frontier di ORNL è il primo sistema del settore in grado di raggiungere prestazioni massime fino a 1.685 FP64 ExaFLOPS con un consumo energetico di 21 MW . Il sistema è stato realizzato da HPE utilizzando l’ architettura Cray EX , realizzata per applicazioni scalabili, in particolare per supercomputer eccezionalmente veloci.

Sebbene i componenti hardware del supercomputer Frontier siano stati consegnati e sulla carta la macchina sembri avere un potenziale notevole, i problemi hardware sembrano impedirgli di andare online e di essere disponibile per i ricercatori che richiedono prestazioni di circa 1 FP64 ExaFLOPS. .

Justin Witt , direttore del programma dell’Oak Ridge Leadership Computing Facility (OLCF), ha commentato la situazione, menzionando:

Lavoriamo su problemi hardware e ci assicuriamo di capire (cosa sono). Avrai fallimenti di questa portata. Il tempo medio tra i guasti in un sistema di queste dimensioni è di ore, non di giorni”.

Per un po’, ci sono state voci su possibili guasti hardware di Frontier. Secondo un altro articolo di InsideHPC , alcuni hanno affermato che il connettore Slingshot sta causando problemi nel sistema. Secondo altri rapporti, le GPU di calcolo Instinct MI250X di AMD non sono state così affidabili quest’anno. È importante tenere presente che solo un numero limitato di consumatori può acquistare la versione X, che ha più processori di flusso e velocità più elevate.

Il signor Witt ha insistito sul fatto che il computer avesse diversi problemi hardware, ma non ha indicato che il sistema avesse problemi specifici con Instinct o Slingshot.

Molti problemi sono legati a queste [GPU], ma questi non sono la maggior parte dei problemi che vediamo. Questa è una buona diffusione tra i soliti colpevoli di errori di parte che ne erano una parte importante. Non credo che al momento siamo troppo preoccupati per i prodotti AMD”.

Il supercomputer Frontier dell’Oak Ridge National Laboratory non è affatto l’unico che utilizza processori AMD EPYC, interconnessioni Slingshot e l’architettura Cray EX di HPE. Ad esempio, il supercomputer Lumi dalla Finlandia , ufficialmente riconosciuto come il terzo supercomputer più potente al mondo, ha un picco di prestazioni di 550 petaflop quando si utilizzano componenti simili. Le dimensioni della macchina, che richiede un totale di 60 milioni di pezzi , possono rendere percorribile il problema.

Dato che il supercomputer Frontier deve ancora essere distribuito ufficialmente, non è ancora chiaro se sarà disponibile per gli scienziati a partire dal 2023 , come originariamente previsto, nel 2022 .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *