6.3 Diskussion mit Schlußfolgerungen



next up previous contents
Next: Literaturverzeichnis Up: 6 Vektor- und Parallelrechner-Implementationen Previous: 6.2 Resultate auf der

6.3 Diskussion mit Schlußfolgerungen

 

,,This clearly indicates that the problem of adequate linear solver
algorithms is far from being solved.``
Claude Pommerell et al. [45]

Bei der Implementation von MINIMOS-5 auf der CM-2 wurde massiv-paralleles Arbeiten der Prozessoren für die linearen Gleichungslöser des dreidimensionalen Teils von MINIMOS erreicht. Der zweidimensionale Programmteil, der zur Aufbereitung der Anfangsdaten des nachfolgenden dreidimensionalen Programmteils notwendig ist, sowie die Matrixassemblierung und andere zwischen den nichtlinearen Iterationen des dreidimensionalen Programmteils notwendige Berechnungen wurden durch den Host-Computer, auch Frontend-Computer genannt, besorgt. Der Transport der Daten zwischen dem Host-Computer und den Tausenden Prozessoren der CM-2 erfolgt durch schnelle Bibliotheksroutinen des Frontend-Computers.
Die folgenden Ergebnisse sind erzielt worden:

Massiv-parallele Gleichungslöser wurden auf der CM-2 implementiert und lauffähig gemacht. Zur Beurteilung der Leistungsfähigkeit dieser Algorithmen werden vergleichbare Meßergebnisse von Vektorcomputern herangezogen ([43][112] bzw. Abschnitt 6.1). Sehr grob kann gesagt werden, daß die erreichten Geschwindigkeiten etwa 100 Megaflops auf der Fujitsu VP200, und etwas weniger als die Hälfte davon auf der Cray-2 ausmachten. Diese Geschwindigkeiten konnten bei der vorliegenden Implementation auf der CM-2 aufgrund eines starken Konvergenzverlustes der Gleichungslöser nicht erreicht werden. Zwar ist jede lineare Iteration auf der CM-2 wesentlich schneller als auf den Vektorcomputern, in der Gesamtbeurteilung stellt sich heraus, daß die arithmetischen Operationen der Vektorcomputer effektiver sind. Der tatsächliche Konvergenzverlust des nichtsymmetrischen Gleichungslösers rangiert im Bereich eines Faktors - und stellt sich als stark vom Rechengitter beeinflußt heraus. Ein schlüssiger Vergleich zu den Vektorcomputern wird durch die Breite dieser Streuung erschwert.

Demgegenüber steht die Tatsache, daß die CM-2 in ihren großen Konfigurationen (32k bzw. 64k Prozessoren) eine extrem große Kapazität an Prozessorleistung und Speichervermögen darstellt. Die iterative Lösung eines linearen Gleichungssystems der Dimension nimmt auf einer 32k-Prozessormaschine etwa die gleiche Zeit in Anspruch wie die Lösung eines Problems mit Punkten. In dieser Skalierbarkeit der Prozessorleistung liegt das große Potential der CM-2, die die Lösung sehr großer Probleme favorisiert.

Unbedingte Notwendigkeit zur Installation eines Simulationsprogramms für Halbleiterbauelemente ist die Verfügbarkeit von Hardware für die Beschleunigung der Arithmetik in doppelter Genauigkeit. Nicht alle CMs verfügen darüber.

Die Trennung des Programms in Teile, die auf dem Frontend-Computer laufen (Matrix-Assemblierung und ähnlicher Operationen), und in die Gleichungslöser, die auf der CM-2 rechnen, ist für eine praktische Nutzung des Programms z.B. in einer industriellen Umgebung nicht brauchbar. Grund dafür sind die langen Transportzeiten der Matrixkoeffizienten vom Frontend-Computer zur CM-2 und des Lösungsvektors von der CM-2 zum Frontend-Computer. Eine Produktions-Implementierung müßte vollständig auf der CM-2 laufen. Für eine solche ist eine Neuprogrammierung eines großen Teiles von MINIMOS nötig.

Eine beträchtliche Steigerung der Megaflop-Rate der linearen Gleichungslöser wäre durch den Einsatz des Slicewise-Datenformates möglich, bei gleichzeitiger Nutzung der optimierten Stencil-Routinen. Leider war dies zur Zeit der Untersuchungen nicht möglich. Eine zehnfache Beschleunigung liegt durchaus im Bereich des möglichen (man vergleiche Tabelle 6.4 mit Tabelle 6.5).

Die folgenden Argumente sind in ihrer Natur spekulativ und der Versuch, eine Perspektive massiv-parallelen Rechnens in der Bauelement-Simulation zu geben:

Die starke Konvergenz-Degradation durch die Verwendung parallelisierbarer Vorkonditionierer ist tatsächlich unbefriedigend. Weitere Forschungen in diesem Gebiet sind notwendig. Desgleichen ist die Parallelisierung auf dem Niveau der Gleichungslöser womöglich nicht der richtige Weg. Eine Parallelisierung des Randwertproblems in einem früheren Stadium - etwa nach der Methode der Bereichsaufteilung (Domain Decomposition) - hat diesbezüglich ein großes Forschungspotential. Neue Resultate dieser Methoden auf dem Halbleitersimulations-Sektor sind zu erwarten.

Die Entwicklung von Computergenerationen, die in Forschungslabors Verwendung finden, ist zunehmend geprägt von sehr leistungsfähigen Workstations. Der numerische Durchsatz in modernen Workstations dringt in Bereiche vor, die vor nicht allzu langer Zeit Vektor-Supercomputern vorbehalten waren. Eine Sättigung dieses Trends ist noch nicht absehbar. Eine kritische Komponente für den Einsatz der CM in Forschungsumgebungen - und eine Voraussetzung für die Akzeptanz einer solchen Architektur bei den Ingenieuren - ist die feste Einbindung der CM in schnelle Datenkommunikationsnetze. Sehr große Matrizenprobleme oder Echtzeit-Visualisierung in hoher Auflösung, Aufgaben für die eine CM gut geeignet ist, können dann im Zusammenspiel mit Hochleistungs-Workstations gelöst bzw. realisiert werden. Solche Systeme werden in Kürze zur Verfügung stehen.

Die nächste Generation von CMs wird über eine Teraflop-Rechenleistung verfügen. Ein arithmetischer Rechendurchsatz dieser Größenordnung verkleinert das Problem der hohen Iterationszahlen.

Wünschenswert sind weitere Implementationen von Simulationswerkzeugen auf der CM. Einige diesbezügliche Aktivitäten sind bereits im Gange [35][98].



next up previous contents
Next: Literaturverzeichnis Up: 6 Vektor- und Parallelrechner-Implementationen Previous: 6.2 Resultate auf der



Martin Stiftinger
Fri Oct 14 21:33:54 MET 1994