ARMs Kampf um das Rechenzentrum: Die Konkurrenten

Als die ersten unternehmensfähigen, ARM-basierten Server näher an die Veröffentlichung heranrücken, werden weitere Details darüber bekannt, wozu diese energiesparenden Systeme in der Lage sein werden.

Die kommenden 64-Bit-Computer sind für ein weitaus breiteres Aufgabenspektrum ausgelegt als die wenigen 32-Bit-ARM-basierten Server, die in diesem Jahr von einer Handvoll Unternehmen getestet wurden.

Diese Systeme werden nicht nur für das Web-Serving entwickelt, sondern auch für die Datenanalyse in Hadoop-Clustern, das Abrufen und Speichern von Daten in NoSQL-Datenspeichern, Streaming-Medien und Hochleistungsrechnern sowie die gemeinsame Nutzung von Verarbeitungsaufgaben mit GPUs, FPGAs oder ASICs.

Jobs wie diese können in rechenintensive Workloads aufgeteilt und von Clustern von Tausenden von Wimpy-Core-Prozessoren parallel verarbeitet werden. Diese dichten Cluster von Servern mit geringem Stromverbrauch können diese parallelisierbaren Aufgaben effizienter erledigen als eine geringere Anzahl leistungsstarker Chips. Sie bieten eine bessere Leistung pro Watt und pro Quadratfuß Rechenzentrumsfläche. Dies sind wichtige Maßnahmen, um die Kosten für den Betrieb eines großen Server-Standorts zu senken.

Daher das Interesse, kleine, energiesparende ARM-basierte Chipsätze, die heutzutage häufiger in Mobiltelefonen und Tablets zu finden sind, in dicht gepackten Serverclustern zu verwenden.

Ein angemessener Teil der Software, die für diese Web-Serving-, Datenanalyse-, Streaming-Media- und andere Aufträge benötigt wird, ist auf dem richtigen Weg, um auf ARM-basierten Servern für die Produktion bereit zu sein. Aber was ist mit der Hardware?

Die Stromversorgung dieser Server erfolgt über Chipsätze verschiedener Unternehmen. Die Hauptakteure im aufstrebenden ARM-basierten Serverbereich dürften jedoch Applied Micro mit seinen X-Gene-Boards und AMD sein, das mit seinem Opteron A1100-Prozessor über x86 hinaus verzweigt.

Diese bevorstehenden Chips basieren auf der ARM v8-Architektur, die Unterstützung für Funktionen bietet, die von Unternehmen als kritisch angesehen werden. V8 ist nicht nur die erste ARM-Architektur, die 64-Bit-Kerne unterstützt, sondern bietet auch zusätzliche Funktionen der Enterprise-Klasse, z. B. ECC-Speicher (Error Correction Code).

Die Unternehmen, die hinter diesen Server-Chipsätzen stehen, waren diese Woche auf der Hot Chips-Konferenz in Cupertino, um die Fähigkeiten ihrer Chips und die Server, die sie mit Strom versorgen werden, zu erläutern.

Angewandtes Micro X-Gene

Wann ist es raus?

Drei Generationen von X-Gene-Systemen auf Chips sind geplant. Der erste Server, der auf den Markt kommt, wird der X-Gene1-Prozessor sein, der voraussichtlich im Herbst in Produktionssystemen verfügbar sein wird. Der X-Gene-Prozessor wird bereits auf HP Moonshot-Servern getestet und in HPC- und unternehmensorientierten Systemen von Eurotech, E4 und Mitac vorgeführt.

Sein Nachfolger, das X-Gene 2, steht ab sofort zur Probenahme zur Verfügung, und X-Gene 3 soll 2015 zur Probenahme freigegeben werden.

Die Spezifikationen

Das X-Gene 1 verfügt über acht Kerne mit 2, 4 GHz. Es ist ein 40-nm-Prozess - je kleiner der Prozess, desto mehr Transistoren können auf die Oberfläche der Chips gepackt werden, was eine bessere Verarbeitungsleistung pro Watt ermöglicht. Die superskalare Architektur des Chips ermöglicht die Verarbeitung von mehr als einem Befehl pro Prozessorzyklus mit einer vier Befehle umfassenden Verarbeitungspipeline, die eine Ausführung außerhalb der Reihenfolge ermöglicht. Diese Optimierung reduziert Verzögerungen bei der Verarbeitung von Befehlen. Laut Applied Micro kann der Chip "mehr als 100 Anweisungen im Flug" verarbeiten.

Jedes Paar von Prozessorkernen teilt sich den L1-Befehls- und Datencache sowie den L2-Cache. Über eine Netzwerkverbindung, die die Daten zwischen den Caches kohärent hält, sind 8 MB L3-Cache und zwei Zweikanal-DDR3-Speichercontroller mit den Kernen verbunden. Der Chipsatz unterstützt bis zu 128 GB DDR-Speicher mit einer Kapazität von 1.600 MT / s.

Der Chipsatz integriert Netzwerkhardware, sodass keine diskreten Karten wie E / A-Controller-Hub, Netzwerkkarte und Baseboard-Management-Controller erforderlich sind, wodurch zusätzliche Kosten und Stromverbrauch reduziert werden.

Für E / A unterstützt der Chipsatz vier 10-Gigabit-Ethernet-Verbindungen und sechs PCI-E 3.0-Steckplätze sowie mehrere Sata 3-Ports.

Zukünftige Versionen des X-Gene werden weitere Leistungsverbesserungen bringen und es Servern auf der Basis des Boards ermöglichen, Workloads zu bewältigen, bei denen eine geringe Anwendungslatenz erforderlich ist. Das X-Gene 2 fügt RDMA über Converged Ethernet oder RoCE hinzu. RoCE ist eine wichtige Funktion in verteilten Systemen, da es die Latenz zwischen Servern im Cluster verringert. Mit dieser Funktion kann ein Serverknoten in einem X-Gene-Cluster Daten über 10-Gbit / s-Ethernet direkt zum und vom Speicher eines anderen Knotens übertragen, wodurch die Arbeit der CPU jedes Knotens reduziert und die Datenübertragungsgeschwindigkeit verbessert wird. Mit Roce hat sich das X-Gene 2 als in der Lage erwiesen, die Anwendungslatenz auf etwa 5 Mikrosekunden zu reduzieren, was laut Applied Micro bis zu zehnmal schneller ist als das X-Gene 1.

X-Gene 2 wird auf einen 28-nm-Prozess eingestellt, hat bis zu 16 Kerne, die mit maximal 2, 8 GHz getaktet sind, und unterstützt vier Speicherkanäle. Am Prozessorkern werden architektonische Änderungen vorgenommen, um die Leistung zu steigern.

Performance

Was für die Arten von Workloads wichtig ist, die für die parallele Verarbeitung auf einem Cluster energiesparender Server geeignet sind - wie Web-Frontends, Suchmaschinen, NoSQL-Datenspeicher, Datenanalyse-Funktionen wie Hadoop und Media Serving -, sind darüber hinausgehende Faktoren Taktfrequenz. Applied Micro ist der Ansicht, dass das X-Gene Kernmetriken für diese Workloads liefert, z. B. die Breite der Befehlsausgabe, die Anzahl der Ebenen in der Prozessor-Cache-Hierarchie, die Größe des Caches pro CPU und die Speicherbandbreite des Prozessors.

Die Grafik zeigt, wie sich das X-Gene 2 bei diesen Maßnahmen im Vergleich zu Mitbewerbern schlägt - von links nach rechts ist das ThunderX Arm SoC von Cavium, Intels auf Mikroserver ausgerichteter Achtkern-C2000-Atom-Prozessor, und in Grün das X-Gene 2. Ganz rechts befindet sich der Intel Xeon E5-2600 v2-Prozessor, der bei höherer Leistung mehr kostet.

In den SPEC2006_rate-Prozessor-Benchmarks liefert das X-Gene 2 eine um 55 Prozent bessere Leistung pro Watt als das X-Gene 1 und eine 25-prozentige Leistungssteigerung des ApacheBench-Web-Serving-Scores.

Im Vergleich zu Intel-Servern, mit denen das X-Gene konkurrieren wird, behauptet Applied Micro, dass der Chipsatz der ersten Generation die Leistung einer Ivy Bridge oder eines Haswell Xeon liefern kann, während das X-Gene 2 eine höhere Leistung bei geringerer Leistung bietet und für die Latenz geeignet ist -empfindliche Clusteranwendungen.

Laut Applied Micro wird ein Rack mit X-Gene 2-Systemen etwa 30 Kilowatt verbrauchen und 6.480 Threads mit 2, 8 GHz packen. Der Cluster bietet 50 TB Speicher und 48 TBps Speicherbandbreite. Beim Memcached-Test werden 750 Millionen Transaktionen pro Sekunde verarbeitet, wobei 95 Prozent der Transaktionen in weniger als 40 Millisekunden eingehen. Ein Cluster von 80 Zwei-Socket-Computern, die auf Intels Xeon E5-2630 v2-Prozessoren basieren, mit sechs Kernen und zwölf Threads pro Socket, liefert 1.920 Threads und liefert rund 400 Millionen Transaktionen pro Sekunde auf demselben Memcached-Test in derselben Leistungshülle von ungefähr 30 KW. Diese Benchmarks werden jedoch von Applied Micro bereitgestellt und müssen daher bis zur Überprüfung mit der entsprechenden Skepsis behandelt werden.

Intel sagte, dass die Leistungsschätzungen von Applied Micro nicht überprüft werden können, da "noch niemand ein X-Gene 1-basiertes System gesehen hat, das mit Industriestandard-Anwendungen verglichen wurde", und dass das im Vergleich verwendete Xeon-Setup zugunsten des X-Gene gewichtet werden könnte.

Intel verfügt über eine eigene Reihe energiesparender, weniger leistungsfähiger SoCs für den Servermarkt, die Avoton-Serie in seiner Intel Atom-Familie, und Intel behauptet, diese seien energieeffizienter.

"X-Gene 1 basiert auf einem 40-nm-Prozess und hat 8 Kerne und ungefähr 35 - 40 W TDP was den maximalen Stromverbrauch der Maschine widerspiegelt. Zum Vergleich: Atom C2000 (Avoton) hat auch 8 Kerne mit 20 W TDP." sagte eine Intel-Sprecherin.

"X-Gene wird voraussichtlich eine TDP von 35 bis 40 W für 8 Kerne, eine Knotenleistung von 59 W gegenüber 8 Kernen, 20 W Avoton und eine Knotenleistung von 28 bis 35 W haben. Best-Case-Szenario für sie - gleiche Leistung für doppelt so viel Leistung."

Bis das X-Gene 2 auf Produktionsserver kommt, hat Intel wahrscheinlich auch seine Serverchip-Palette mit seinen Broadwell-EP- und Broadwell-EX Xeon-Chips aktualisiert - was die Leistung pro Watt weiter verbessert.

X-Gene 3 erhöht die Kernanzahl auf maximal 64, erhöht die Taktrate auf 3 GHz und führt RoCE der 2. Generation ein. Das X-Gene wird in einen 16-nm-Herstellungsprozess mit FinFET-Transistoren versetzt.

Wofür können Sie sie verwenden?

Laut Applied Micro kann die X-Gene-Familie für "so ziemlich alles verwendet werden, was heute im Rechenzentrum läuft".

Dazu gehört das Hosten umfangreicher Websites und Dienste. Websuchdienste wie Datenbereitstellung und -ernte; NoSQL-Datenspeicherung und -abruf; Datenanalysedienste wie Klassifizierung und Filterung und Extraktion von Informationen; und Hosting und Streaming von Medien.

Das X-Gene 2 eignet sich aufgrund seiner von Roce ermöglichten Datenübertragung zwischen Servern mit geringer Latenz für eine größere Bandbreite von Cloud- und HPC-Anwendungen als sein Vorgänger.

Das X-Gene One wurde bereits vorgeführt, um HPC- und andere Workloads im Rechenzentrum in Verbindung mit Nvidia Tesla GPU K20-Beschleunigern zu bewältigen. Das X-Gene / Nvidia Tesla-Beschleunigerpaar wird in Servern von Cirrascale, E4 und Eurotech verwendet. Jeder Server ist darauf ausgelegt, sich auf unterschiedliche Workloads zu spezialisieren, den Cirrascale auf HPC- und Enterprise-Workloads, während sich der E4 auf die seismische Verarbeitung, Signal- und Bildverarbeitung sowie das Ausführen von Jobs für große Datenmengen mithilfe von Map-Reduce konzentriert.

AMD "Seattle" Opteron 1100

Wann ist es raus?

Aufgrund des Versandvolumens bis zum vierten Quartal 2014

Die Spezifikationen

System auf einem Chip basierend auf acht ARM Cortex A57-Prozessorkernen, getaktet mit über 2 GHz. Jedes Paar von Prozessorkernen teilt sich 48 KB L1-Befehl und 32 KB L2-Datencache sowie 1 MB L2-Cache, wodurch bis zu 4 MB L2-Cache für den gesamten Chip bereitgestellt werden. Insgesamt 8 MB einheitlicher L3-Cache werden von den Kernen gemeinsam genutzt.

Unterstützung für bis zu 128 GB DDR3- oder DDR4-ECC-Speicher als ungepufferte DIMMs, registrierte DIMMS oder SODIMMs.

Der Chipsatz verwendet die System Memory Management Unit von ARM, mit der verschiedene Hypervisoren Gastbetriebssysteme in separaten RAM-Pools aufbewahren können.

Der SoC, der mit einem 28-nm-Prozess hergestellt wird, unterstützt auch eine Vielzahl von Daten-E / A-Vorgängen, darunter einen achtspurigen PCI Express 3-Controller, zwei Ethernet-Verbindungen mit 10 GB / s und acht SATA 3-Ports. Es verfügt außerdem über einen dedizierten 1GbE-Systemverwaltungsport (RGMII).

Ein Systemsteuerungsprozessor, ein ARM Cortex A5-basierter Chip, wird verwendet, um die Stromversorgung zu steuern, das System zu konfigurieren, das Booten zu initiieren und als Serviceprozessor für Systemverwaltungsfunktionen zu fungieren.

Ein kryptografischer Co-Prozessor fungiert als dedizierter Beschleuniger für Verschlüsselungs- und Entschlüsselungsalgorithmen sowie für Komprimierungs- und Dekomprimierungsalgorithmen. Beschleunigte Algorithmen sind Advanced Encryption Standard, Elliptic Curve Cryptography, RSA, Secure Hash-Algorithmus, Zlib-Komprimierung, Zlib-Dekomprimierung und True Hardware Random Number Generator.

AMD arbeitet auch an einer Pin-kompatiblen Version von ARM- und x86-Chips, die es ihnen ermöglichen, sie an denselben Sockel anzuschließen und bei Bedarf auszutauschen.

Performance

Basierend auf Kommentaren von AMD hat die Technologie-Site AnandTech auch geschätzt, dass die Acht-Kern-Variante im SPECint_rate-Benchmark eine Punktzahl von 80 erreichen könnte, insgesamt 10 pro Kern.

Der Stromverbrauch ist nicht bestätigt, aber Anandtech schätzt die TDP auf 25 W.

Wofür können Sie sie verwenden?

AMD erwartet, dass der Opteron A1100 für Workloads geeignet ist, deren Rechenanforderungen gering sind und bei denen Daten schnell auf dem Prozessor ein- und ausgeschaltet werden müssen.

"Für solche Workloads können Prozessoren wie 'Seattle' mit kleineren Kernen und Caches die gleiche Leistung liefern wie herkömmliche Serverprozessoren mit großen Kernen und Caches, verbrauchen jedoch viel weniger Strom und Fläche", sagte AMD in einer Präsentation auf den Hot Chips Konferenz.

Mögliche Verwendungszwecke könnten LAMP-Stack-Webserver sowie Memcached- und Cold-Storage-Server sein. Facebook hat bereits mit der Verwendung eines ARM-basierten Systems als Grundlage für ein OCP Open Vault-Speicherarray experimentiert.

Sean White, ein Ingenieur bei AMD, wurde auch auf der Hot Chip-Konferenz in Cupertino zitiert, dass das Unternehmen erwägen würde, den Prozessor an die spezifischen Anforderungen der Branche anzupassen. Intel hat kürzlich die Optionen für Großkunden erweitert, die kundenspezifisches Silizium wünschen.

Welche anderen Arm-Server-Boards kommen heraus?

In diesem Jahr sollen mehrere andere ARM-basierte System-on-a-Chip-Prozessoren (SoC) gestartet werden, die eine Reihe von Aufgaben im Rechenzentrum ausführen sollen - von der Bearbeitung von Server-Workloads über die Ausführung von Speicher-Arrays bis hin zu virtualisierten Netzwerkfunktionen.

Um diesen Anforderungen gerecht zu werden, sind ARM-basierte SoCs von verschiedenen Unternehmen in Arbeit, darunter Broadcom, Cavium und Texas Instruments.

© Copyright 2020 | mobilegn.com