Erdsimulator - Earth Simulator

Erdsimulator (ES), Originalversion
Erdsimulator-Verbindungsgestell
Earth Simulator-Verarbeitungs-Rack
Arithmetisches Verarbeitungsmodul des Erdsimulators
Erdsimulator 2 (ES2)
Erdsimulator 3 (ES3)

Der Earth Simulator ( ES ) (地球シミュレータ, Chikyū Shimyurēta ) , entwickelt von der japanischen Regierungsinitiative "Earth Simulator Project", war ein hochparalleles Vektor- Supercomputersystem zum Ausführen globaler Klimamodelle zur Bewertung der Auswirkungen der globalen Erwärmung und von Problemen in fester Erde Geophysik. Das System wurde 1997 für die Japan Aerospace Exploration Agency , das Japan Atomic Energy Research Institute und das Japan Marine Science and Technology Center (JAMSTEC) entwickelt. Der Bau begann im Oktober 1999 und der Standort wurde am 11. März 2002 offiziell eröffnet. Das Projekt kostete 60 Milliarden yen .

ES wurde von NEC gebaut und basierte auf ihrer SX-6- Architektur. Es bestand aus 640 Knoten mit acht Vektorprozessoren und 16 Gigabyte von Computerspeicher an jedem Knoten, für insgesamt 5120 Prozessoren und 10 Terabytes an Speicher. Pro Schrank von 1 m × 1,4 m × 2 m wurden zwei Knoten installiert. Jeder Schrank verbrauchte 20 kW Leistung. Das System hatte 700 Terabytes von Plattenspeichern (450 für das System und 250 für den Benutzer) und 1,6 petabytes des Massenspeichers in Bandlaufwerken . Es war in der Lage, ganzheitliche Simulationen des globalen Klimas sowohl in der Atmosphäre als auch in den Ozeanen bis zu einer Auflösung von 10 km durchzuführen. Seine Leistung im LINPACK- Benchmark betrug 35,86 TFLOPS , was fast fünfmal schneller war als der bisher schnellste Supercomputer ASCI White . Ab 2020 kann eine vergleichbare Leistung durch den Einsatz von 4 Nvidia A100 GPUs mit jeweils 9.746 FP64 TFlops erreicht werden.

ES war der schnellste Supercomputer der Welt von 2002 bis 2004 seine Kapazität wurde von übertraf IBM ‚s Blue Gene / L am 29. September 2004 Prototyp.

ES wurde im März 2009 durch den Earth Simulator 2 (ES2) ersetzt. ES2 ist ein NEC SX-9/E- System und verfügt über eine viertel so viele Knoten mit jeweils 12,8-facher Leistung (3,2-facher Takt, vierfacher Verarbeitungsressourcen). pro Knoten) für eine Spitzenleistung von 131 TFLOPS. Mit einer gelieferten LINPACK-Leistung von 122,4 TFLOPS war ES2 zu diesem Zeitpunkt der effizienteste Supercomputer der Welt. Im November 2010 gab NEC bekannt, dass ES2 den Global FFT, eine der Maßnahmen der HPC Challenge Awards , mit der Leistungszahl von 11.876 TFLOPS anführt.

ES2 wurde im März 2015 durch den Earth Simulator 3 (ES3) ersetzt. ES3 ist ein NEC SX-ACE- System mit 5120 Knoten und einer Leistung von 1,3 PFLOPS.

ES3 lief von 2017 bis 2018 zusammen mit Gyoukou , einem Supercomputer mit Tauchkühlung , der bis zu 19 PFLOPS erreichen kann.

Systemübersicht

Hardware

Der Earth Simulator (kurz ES) wurde als nationales Projekt von drei Regierungsbehörden entwickelt: der National Space Development Agency of Japan (NASDA), dem Japan Atomic Energy Research Institute (JAERI) und dem Japan Marine Science and Technology Center (JAMSTEC .). ). Der ES ist im Erdsimulator-Gebäude (ca. 50 m × 65 m × 17 m) untergebracht. Der Earth Simulator 2 (ES2) verwendet 160 Knoten des SX-9E von NEC. Das Upgrade des Earth Simulators wurde im März 2015 abgeschlossen. Das Earth Simulator 3(ES3)-System verwendet 5120 Knoten von NECs SX-ACE.

Systemkonfiguration

Das ES ist ein hochparalleles Vektor-Supercomputersystem des Typs mit verteiltem Speicher und bestand aus 160 Prozessorknoten, die über das Fat-Tree-Netzwerk verbunden sind. Jeder Prozessorknoten ist ein System mit einem gemeinsamen Speicher, bestehend aus 8 vektorartigen arithmetischen Prozessoren, einem 128-GB-Hauptspeichersystem. Die Spitzenleistung jedes arithmetischen Prozessors beträgt 102,4 Gflops. Die ES insgesamt besteht somit aus 1280 Rechenprozessoren mit 20 TB Hauptspeicher und der theoretischen Leistung von 131Tflops.

Aufbau der CPU

Jede CPU besteht aus einer 4-Wege-Superskalareinheit (SU), einer Vektoreinheit (VU) und einer Hauptspeicherzugriffssteuereinheit auf einem einzigen LSI-Chip. Die CPU arbeitet mit einer Taktfrequenz von 3,2 GHz. Jede VU hat 72 Vektorregister, von denen jedes 256 Vektorelemente hat, zusammen mit 8 Sätzen von sechs verschiedenen Arten von Vektorpipelines: Addition/Verschiebung, Multiplikation, Division, logische Operationen, Maskierung und Laden/Speichern. Derselbe Typ von Vektorpipelines arbeitet durch einen einzigen Vektorbefehl zusammen, und Pipelines unterschiedlicher Typen können gleichzeitig arbeiten.

Prozessorknoten (PN)

Der Prozessorknoten besteht aus 8 CPU- und 10 Speichermodulen.

Verbindungsnetz (IN)

Die RCU ist direkt mit den Crossbar-Switches verbunden und steuert die Datenkommunikation zwischen Knoten mit einer bidirektionalen Übertragungsrate von 64 GB/s für das Senden und Empfangen von Daten. Somit beträgt die Gesamtbandbreite des Inter-Knoten-Netzwerks etwa 10 TB/s.

Prozessorknoten (PN)-Schrank

Der Prozessorknoten besteht aus zwei Knoten eines Schranks und besteht aus einem Netzteilteil, 8 Speichermodulen und einer PCI-Box mit 8 CPU-Modulen.

Software

Nachfolgend finden Sie die Beschreibung der Softwaretechnologien, die im Betriebssystem, der Jobplanung und der Programmierumgebung von ES2 verwendet werden.

Betriebssystem

Das auf ES laufende Betriebssystem, "Earth Simulator Operating System", ist eine benutzerdefinierte Version von NECs SUPER-UX, das für die NEC SX- Supercomputer verwendet wird, aus denen ES besteht.

Massenspeicher-Dateisystem

Wenn ein großer paralleler Job, der auf 640 PNs ausgeführt wird, von einer in einem PN installierten Festplatte liest/schreibt, greift jeder PN nacheinander auf die Festplatte zu und die Leistung verschlechtert sich schrecklich. Obwohl lokale I/Os, bei denen jeder PN von seiner eigenen Festplatte liest oder darauf schreibt, das Problem lösen, ist es sehr mühsam, eine so große Anzahl von Teildateien zu verwalten. Dann verwendet ES Staging und Global File System (GFS), das eine Hochgeschwindigkeits-I/O-Leistung bietet.

Arbeit planen

ES ist im Grunde ein Batch-Job-System. Network Queuing System II (NQSII) wird eingeführt, um den Batch-Job zu verwalten. Warteschlangenkonfiguration des Earth Simulators. ES hat zwei Warteschlangen. S-Batch-Warteschlange ist für Einzelknoten-Batch-Jobs und L-Batch-Warteschlange ist für Multi-Knoten-Batch-Warteschlange ausgelegt. Es gibt zwei Arten von Warteschlangen. Eine ist die L-Batch-Warteschlange und die andere ist die S-Batch-Warteschlange. S-Batch-Warteschlange ist für einen Vorlauf oder Nachlauf für umfangreiche Batch-Jobs (Erzeugung von Anfangsdaten, Verarbeitungsergebnisse einer Simulation und andere Prozesse) und L-Batch-Warteschlange für einen Produktionslauf gedacht. Benutzer wählen die entsprechende Warteschlange für ihren Job aus.

  1. Die einem Batch-Job zugeordneten Knoten werden ausschließlich für diesen Batch-Job verwendet.
  2. Der Batch-Job wird basierend auf der verstrichenen Zeit anstelle der CPU-Zeit geplant.

Strategie (1) ermöglicht die Schätzung der Job-Beendigungszeit und die einfache Zuweisung von Knoten für die nächsten Batch-Jobs im Voraus. Strategie (2) trägt zu einer effizienten Auftragsausführung bei. Der Job kann ausschließlich die Knoten verwenden und die Prozesse in jedem Knoten können gleichzeitig ausgeführt werden. Als Ergebnis kann das groß angelegte Parallelprogramm effizient ausgeführt werden. PNs des L-Systems ist der Zugriff auf die Benutzerfestplatte untersagt, um eine ausreichende Festplatten-E/A-Leistung sicherzustellen. Daher werden die vom Batchjob verwendeten Dateien vor der Jobausführung von der Benutzerdiskette auf die Arbeitsdiskette kopiert. Dieser Vorgang wird als "Stage-in" bezeichnet. Es ist wichtig, diese Bereitstellungszeit für die Jobeinplanung auszublenden. Die Hauptschritte der Jobplanung werden wie folgt zusammengefasst;

  1. Knotenzuordnung
  2. Stage-in (kopiert Dateien automatisch vom Benutzerdatenträger auf den Arbeitsdatenträger)
  3. Job-Eskalation (wenn möglich auf die früher geschätzte Startzeit umplanen)
  4. Auftragsausführung
  5. Stage-out (kopiert Dateien automatisch vom Arbeitsdatenträger auf den Benutzerdatenträger)

Wenn ein neuer Batch-Job übergeben wird, sucht der Scheduler nach verfügbaren Knoten (Schritt 1). Nachdem die Knoten und die geschätzte Startzeit dem Batch-Job zugewiesen wurden, startet der Stage-In-Prozess (Schritt 2). Der Job wartet, bis die geschätzte Startzeit nach Abschluss des Stage-In-Prozesses erreicht ist. Wenn der Scheduler eine frühere Startzeit als die geschätzte Startzeit findet, weist er dem Batch-Job die neue Startzeit zu. Dieser Vorgang wird als "Job-Eskalation" (Schritt.3) bezeichnet. Wenn die geschätzte Startzeit erreicht ist, führt der Scheduler den Batch-Job aus (Schritt 4). Der Scheduler beendet den Batch-Job und startet den Stage-Out-Prozess, nachdem die Job-Ausführung abgeschlossen ist oder die angegebene verstrichene Zeit abgelaufen ist (Schritt.5). Um den Batch-Job auszuführen, loggt sich der Benutzer beim Login-Server ein und sendet das Batch-Skript an ES. Und der Benutzer wartet, bis die Jobausführung abgeschlossen ist. Während dieser Zeit kann der Benutzer den Status des Batch-Jobs mit dem herkömmlichen Webbrowser oder Benutzerbefehlen sehen. Das Node-Scheduling, das File-Staging und andere Verarbeitungen werden vom System automatisch gemäß dem Batch-Skript verarbeitet.

Programmierumgebung

Programmiermodell in ES

Die ES-Hardware hat eine 3-Ebenen-Hierarchie der Parallelität: Vektorverarbeitung in einem AP, Parallelverarbeitung mit gemeinsam genutztem Speicher in einem PN und Parallelverarbeitung zwischen PNs über IN. Um die Höchstleistung von ES voll zur Geltung zu bringen, müssen Sie parallele Programme entwickeln, die diese Parallelität optimal nutzen. die 3-Ebenen-Hierarchie der Parallelität von ES kann auf zwei Arten verwendet werden, die als hybride bzw. flache Parallelisierung bezeichnet werden. Bei der Hybrid-Parallelisierung wird die Parallelität zwischen Knoten durch HPF oder MPI und die Intra-Knoten durch Microtasking oder OpenMP ausgedrückt, und Sie müssen daher die hierarchische Parallelität beim Schreiben Ihrer Programme berücksichtigen. Bei der flachen Parallelisierung kann sowohl die Inter- als auch die Intra-Knoten-Parallelität durch HPF oder MPI ausgedrückt werden, und es ist nicht notwendig, dass Sie eine solch komplizierte Parallelität berücksichtigen. Generell ist die hybride Parallelisierung der Flat in der Performance überlegen und umgekehrt in der Programmierfreundlichkeit. Beachten Sie, dass die MPI-Bibliotheken und die HPF-Laufzeiten optimiert sind, um sowohl in der hybriden als auch in der flachen Parallelisierung eine bestmögliche Leistung zu erzielen.

Sprachen

Compiler für Fortran 90, C und C++ sind verfügbar. Alle verfügen über eine erweiterte Fähigkeit zur automatischen Vektorisierung und Mikrotasking. Microtasking ist eine Art Multitasking, das gleichzeitig für den Supercomputer von Cray bereitgestellt wird und auch für die knoteninterne Parallelisierung auf ES verwendet wird. Microtasking kann durch das Einfügen von Direktiven in Quellprogramme oder die automatische Parallelisierung des Compilers gesteuert werden. (Beachten Sie, dass OpenMP auch in Fortran 90 und C++ für die knoteninterne Parallelisierung verfügbar ist.)

Parallelisierung

Message Passing Interface (MPI)

MPI ist eine Message-Passing-Bibliothek, die auf den Standards MPI-1 und MPI-2 basiert und eine Hochgeschwindigkeitskommunikationsfähigkeit bietet, die die Funktionen von IXS und Shared Memory voll ausnutzt. Es kann sowohl für die Intra- als auch für die Inter-Knoten-Parallelisierung verwendet werden. Ein MPI-Prozess wird bei der flachen Parallelisierung einem AP oder bei der hybriden Parallelisierung einem PN zugewiesen, der Microtasks oder OpenMP-Threads enthält. MPI-Bibliotheken wurden sorgfältig entwickelt und optimiert, um höchste Kommunikationsleistung auf der ES-Architektur in beiden Parallelisierungsarten zu erreichen.

Hochleistungs-Fortrans (HPF)

Als Hauptnutzer von ES gelten Naturwissenschaftler, die mit der parallelen Programmierung nicht unbedingt vertraut sind oder diese eher nicht mögen. Dementsprechend ist eine parallele Sprache auf höherer Ebene sehr gefragt. HPF/SX bietet eine einfache und effiziente parallele Programmierung auf ES, um den Bedarf zu decken. Es unterstützt die Spezifikationen von HPF2.0, seine zugelassenen Erweiterungen, HPF/JA und einige einzigartige Erweiterungen für ES

Werkzeuge

-Integrierte Entwicklungsumgebung (PSUITE)

Integrierte Entwicklungsumgebung (PSUITE) ist die Integration verschiedener Tools zur Entwicklung des Programms, das von SUPER-UX betrieben wird. Da PSUITE davon ausgeht, dass verschiedene Tools von der GUI verwendet werden können, und die koordinierte Funktion zwischen den Tools hat, ist es in der Lage, das Programm effizienter und einfacher als die bisherige Methode der Entwicklung des Programms zu entwickeln.

-Debug-Unterstützung

In SUPER-UX sind die folgenden Funktionen als starke Debug-Unterstützungsfunktionen vorbereitet, um die Programmentwicklung zu unterstützen.

Anlagen

Funktionen des Earth Simulator-Gebäudes

Schutz vor Naturkatastrophen

Das Earth Simulator Center verfügt über mehrere spezielle Funktionen, die dazu beitragen, den Computer vor Naturkatastrophen oder Ereignissen zu schützen. Über dem Gebäude hängt ein Drahtnest, das vor Blitzeinschlag schützt. Das Nest selbst verwendet abgeschirmte Hochspannungskabel, um Blitzstrom in den Boden abzuleiten. Ein spezielles Lichtausbreitungssystem verwendet Halogenlampen, die außerhalb der abgeschirmten Maschinenraumwände installiert sind, um zu verhindern, dass magnetische Störungen die Computer erreichen. Das Gebäude ist auf einem seismischen Isolationssystem aufgebaut, das aus Gummistützen besteht, die das Gebäude bei Erdbeben schützen.

Blitzschutzsystem

Drei grundlegende Funktionen:

  • Vier Masten an beiden Seiten des Earth Simulator Building bilden ein Drahtnest, um das Gebäude vor Blitzeinschlägen zu schützen.
  • Für induktive Drähte wird ein spezielles abgeschirmtes Hochspannungskabel verwendet, das einen Blitzstrom zur Erde ableitet.
  • Bodenplatten werden verlegt, indem man etwa 10 Meter vom Gebäude entfernt hält.

Erleuchtung

Beleuchtung: Lichtausbreitungssystem in einer Röhre (255 mm Durchmesser, 44 m (49 yd) Länge, 19 Röhren) Lichtquelle: Halogenlampen von 1 kW Beleuchtung: 300 lx am Boden im Durchschnitt Die Lichtquellen sind aus den abgeschirmten Maschinenraumwänden installiert.

Seismisches Isolationssystem

11 Isolatoren (1 Fuß Höhe, 3,3 Fuß Durchmesser, 20-lagige Gummis, die den Boden des ES-Gebäudes stützen)

Leistung

LINPACK

Das neue Earth Simulator-System (ES2), das im März 2009 in Betrieb genommen wurde, erreichte beim LINPACK Benchmark (*1) eine nachhaltige Leistung von 122,4 TFLOPS und eine Recheneffizienz (*2) von 93,38 %.

  • 1. LINPACK-Benchmark

Der LINPACK-Benchmark ist ein Maß für die Leistung eines Computers und wird als Standard-Benchmark verwendet, um Computersysteme im TOP500-Projekt einzustufen. LINPACK ist ein Programm zur Durchführung von numerischer linearer Algebra auf Computern.

  • 2. Recheneffizienz

Die Recheneffizienz ist das Verhältnis von anhaltender Leistung zu einer Spitzenrechenleistung. Hier ist es das Verhältnis von 122.4TFLOPS zu 131.072TFLOPS.

Rechenleistung von WRF im Erdsimulator

WRF (Weather Research and Forecasting Model) ist ein mesoskaliger meteorologischer Simulationscode, der in Zusammenarbeit zwischen US-Institutionen, darunter NCAR (National Center for Atmospheric Research) und NCEP (National Centers for Environmental Prediction), entwickelt wurde. JAMSTEC hat WRFV2 auf dem 2009 erneuerten Earth Simulator (ES2) mit der Messung der Rechenleistung optimiert. Als Ergebnis wurde erfolgreich demonstriert, dass WRFV2 auf dem ES2 mit hervorragender und anhaltender Leistung ausgeführt werden kann.

Die numerische meteorologische Simulation wurde unter Verwendung von WRF auf dem Earth Simulator für die Erdhalbkugel mit der Modellbedingung Nature Run durchgeführt. Die räumliche Auflösung des Modells beträgt 4486 x 4486 horizontal mit einem Rasterabstand von 5 km und 101 Ebenen vertikal. Meist wurden adiabatische Bedingungen mit einem Zeitintegrationsschritt von 6 Sekunden angewendet. Für hochauflösendes WRF wurde eine sehr hohe Performance auf dem Earth Simulator erreicht. Während die Anzahl der verwendeten CPU-Kerne im Vergleich zum weltweit schnellsten Klassensystem Jaguar (CRAY XT5) im Oak Ridge National Laboratory nur 1% beträgt, beträgt die vom Earth Simulator erzielte anhaltende Leistung fast 50% der auf dem Jaguar-System gemessenen. Auch die Spitzenleistung des Earth Simulators liegt bei rekordhohen 22,2 %.

Siehe auch

Verweise

Externe Links

Aufzeichnungen
Vorangegangen von
ASCI White
7,226 Teraflops
Leistungsstärkster Supercomputer der Welt
März 2002 – November 2004
Nachgefolgt von
Blue Gene/L
70,72 Teraflops

Koordinaten : 35°22′51″N 139°37′34.8″E / 35,38083°N 139,626333°O / 35.38083; 139.626333