home *** CD-ROM | disk | FTP | other *** search
- Micro-Ops in den Ausf├╝hrungseinheiten be-
- --- RECORDSEPARATOR ---
- rechnen. Bei der Core-Architektur erweitert
- --- RECORDSEPARATOR ---
- Intel zudem die Anzahl von fusionierbaren
- --- RECORDSEPARATOR ---
- Micro-Ops.
- --- RECORDSEPARATOR ---
- Um die Zahl der MicroOps weiter zu verrin-
- --- RECORDSEPARATOR ---
- gern, gibt es seit der Pentium-M-Architektur
- --- RECORDSEPARATOR ---
- ŒBanias einen dedizierten Ablaufmanager.
- --- RECORDSEPARATOR ---
- Programm-Overhead wie die Stack-Befehle
- --- RECORDSEPARATOR ---
- push, pop, call und ret f├╝hrt der Prozessor in
- --- RECORDSEPARATOR ---
- einer dedizierten Hardware durch. Die CPU
- --- RECORDSEPARATOR ---
- kann das eigentliche Programm in den Ausf├╝h-
- --- RECORDSEPARATOR ---
- rungseinheiten damit ohne Unterbrechung
- --- RECORDSEPARATOR ---
- abarbeiten. Die Zahl der Micro-Ops verringert
- --- RECORDSEPARATOR ---
- sich durch den Stack Manager laut Intel um
- --- RECORDSEPARATOR ---
- f├╝nf Prozent.
- --- RECORDSEPARATOR ---
-
- --- RECORDSEPARATOR ---
- Macro-Fusion
- --- RECORDSEPARATOR ---
-
- --- RECORDSEPARATOR ---
- Neben der vom Pentium M bekannten Micro-
- --- RECORDSEPARATOR ---
- Ops-Fusion f├╝hrt Intel bei der Core-Architektur
- --- RECORDSEPARATOR ---
- die neue Macro-Fusion ein. Bei der Macro-Fusi-
- --- RECORDSEPARATOR ---
- on geht Intel im Vergleich zur Micro-Ops-Fusion
- --- RECORDSEPARATOR ---
- einen anderen Weg. In der Pre-Dekodierphase
- --- RECORDSEPARATOR ---
- analysiert das Frontend der Core-Architektur,
- --- RECORDSEPARATOR ---
- ob sich zwei in der Regel aufeinander folgende
- --- RECORDSEPARATOR ---
- Macro-Ops zusammenfassen lassen. So folgt
- --- RECORDSEPARATOR ---
- auf den Assembler-Befehl Œcmp (Compare)
- --- RECORDSEPARATOR ---
- oder Œtest typischerweise ein Sprungbefehl
- --- RECORDSEPARATOR ---
- Œjcc, wie Intel angibt.
- --- RECORDSEPARATOR ---
- Die komplexe Dekodiereinheit der vier Deko-
- --- RECORDSEPARATOR ---
- der f├╝gt diese beiden Macro-Ops zu einer ein-
- --- RECORDSEPARATOR ---
- zigen Micro-Op zusammen. Diese Micro-Op
- --- RECORDSEPARATOR ---
- f├╝hren die Execution-Units der Core-Architek-
- --- RECORDSEPARATOR ---
- tur dann in einem Taktzyklus durch.
- --- RECORDSEPARATOR ---
- Durch die Macro-Fusion kann das Frontend
- --- RECORDSEPARATOR ---
- der Core-Architektur aus dem Befehlspuffer
- --- RECORDSEPARATOR ---
- (L1-Befehls-Cache) bis zu f├╝nf Instruktionen
- --- RECORDSEPARATOR ---
- pro Taktzyklus holen. Drei Macro-Ops dekodie-
- --- RECORDSEPARATOR ---
- ren die drei einfachen Dekoder-Units. Sind von
- --- RECORDSEPARATOR ---
- den f├╝nf Macro-Ops zwei fusionierbar, werden
- --- RECORDSEPARATOR ---
- sie ├╝ber die komplexe Dekodiereinheit per Ma-
- --- RECORDSEPARATOR ---
- cro-Fusion in eine Micro-Op umgewandelt.
- --- RECORDSEPARATOR ---
- Ohne Macro-Fusion wären für das Dekodieren
- --- RECORDSEPARATOR ---
- von f├╝nf Assembler-Befehlen zwei Taktzyklen
- --- RECORDSEPARATOR ---
- notwendig. Pro Taktzyklus ist bei der Core-Ar-
- --- RECORDSEPARATOR ---
- chitektur allerdings nur eine Macro-Fusion
- --- RECORDSEPARATOR ---
- m├╢glich. F├╝r das Ausf├╝hren der aus Macro-Fu-
- --- RECORDSEPARATOR ---
- sion entstandenen neuen Micro-Ops verf├╝gt
- --- RECORDSEPARATOR ---
- die Core-Architektur ├╝ber eine speziell ange-
- --- RECORDSEPARATOR ---
- passte ALU.
- --- RECORDSEPARATOR ---
- Durch die Macro-Fusion reduziert sich wie
- --- RECORDSEPARATOR ---
- schon bei der Micro-Ops-Fusion die Zahl der
- --- RECORDSEPARATOR ---
- auszuf├╝hrenden Micro-Ops. Dadurch wird zum
- --- RECORDSEPARATOR ---
- einem die Performance weiter gesteigert. Au-
- --- RECORDSEPARATOR ---
- ßerdem erhöht sich die Effizient des Out-of-Or-
- --- RECORDSEPARATOR ---
- der-Schedulers, weil durch die reduzierte
- --- RECORDSEPARATOR ---
- Micro-Ops-Anzahl mehr Programm-Code auf
- --- RECORDSEPARATOR ---
- einmal analysiert und parallelisiert werden
- --- RECORDSEPARATOR ---
- kann.
- --- RECORDSEPARATOR ---
-
- --- RECORDSEPARATOR ---
- Advanced Digital Media Boost
- --- RECORDSEPARATOR ---
-
- --- RECORDSEPARATOR ---
- Mit ŒAdvanced Digital Media Boost will Intel
- --- RECORDSEPARATOR ---
- bei der Core-Architektur f├╝r eine signifikante
- --- RECORDSEPARATOR ---
- Beschleunigung von SSE-Instruktionen sorgen.
- --- RECORDSEPARATOR ---
- Bei NetBurst und dem Core-Duo-Design wird
- --- RECORDSEPARATOR ---
- eine 128 Bit breite SSE-Instruktion beim Deko-
- --- RECORDSEPARATOR ---
- dieren in zwei 64-Bit-Micro-Ops aufgeteilt. Der
- --- RECORDSEPARATOR ---
- Datenpfad in die SSE-Execution-Unit besitzt
- --- RECORDSEPARATOR ---
- ebenfalls eine Datenbreite von nur 64 Bit. So-
- --- RECORDSEPARATOR ---
- mit werden f├╝r die Ausf├╝hrung eines 128-Bit-
- --- RECORDSEPARATOR ---
- SSE-Befehls zwei Taktzyklen ben├╢tigt: Zuerst
- --- RECORDSEPARATOR ---
- findet die Berechnung der minderwertigen 64
- --- RECORDSEPARATOR ---
- Bit statt, es folgen im zweiten Taktzyklus die
- --- RECORDSEPARATOR ---
- h├╢herwertigen 64 Bit.
- --- RECORDSEPARATOR ---
- Die Core-Architektur besitzt dagegen einen
- --- RECORDSEPARATOR ---
- durchgehenden 128-Bit-Ausf├╝hrungspfad. In-
- --- RECORDSEPARATOR ---
- tel legt die internen Datenbusse hierf├╝r 128 Bit
- --- RECORDSEPARATOR ---
- breit aus. Damit muss nur ein einziger Micro-
- --- RECORDSEPARATOR ---
- Op erzeugt, geordnet und ausgef├╝hrt werden.
- --- RECORDSEPARATOR ---
- Die Berechnung eines SSE-Befehls in der ent-
- --- RECORDSEPARATOR ---
- sprechenden Ausf├╝hrungseinheit erfolgt in
- --- RECORDSEPARATOR ---
- einem Taktzyklus. Damit verdoppelt sich die
- --- RECORDSEPARATOR ---
- SSE-Performance. Beispielsweise kann Core
- --- RECORDSEPARATOR ---
- auch einen 128-Bit Packet Multiply, 128-Bit
- --- RECORDSEPARATOR ---
- Packed Add, 128-Bit Packet Load, 128-Bit Pa-
- --- RECORDSEPARATOR ---
- cked Store und einen Macro-Fusion-Befehl
- --- RECORDSEPARATOR ---
- Œcmp & jcc zusammen in einem Taktzyklus
- --- RECORDSEPARATOR ---
- berechnen.
- --- RECORDSEPARATOR ---
- Durch die SSE-Ausf├╝hrung in einem Taktzyklus
- --- RECORDSEPARATOR ---
- entlastet die Core-Architektur zudem die Load-
- --- RECORDSEPARATOR ---
- Pipeline. Bei Mikroarchitekturen, wo der inter-
- --- RECORDSEPARATOR ---
- ne 128-Bit-Pfad bei den SSE-Ausf├╝hrungsein-
- --- RECORDSEPARATOR ---
- heiten nur noch 64 Bit breit ist, kann es hier zu
- --- RECORDSEPARATOR ---
- Engpässen kommen.
- --- RECORDSEPARATOR ---
- Die Core-Architektur beherrscht neben MMX,
- --- RECORDSEPARATOR ---
- SSE, SSE2 und SSE3 zusätzlich 16 neue Multi-
- --- RECORDSEPARATOR ---
- media-Befehle. Die mancherorts als SSE4 be-
- --- RECORDSEPARATOR ---
- zeichneten Instruktionen sind vor allem f├╝r
- --- RECORDSEPARATOR ---
- Berechnungen mit doppelter Genauigkeit hilf-
- --- RECORDSEPARATOR ---
- reich. Ob die Zusatzbefehle einen neuen Na-
- --- RECORDSEPARATOR ---
- men erhalten, oder sie in der Bezeichnung
- --- RECORDSEPARATOR ---
- ŒAdvanced Digital Media Boost eingehen,
- --- RECORDSEPARATOR ---
- lässt Intel noch offen. Ursprünglich waren die
- --- RECORDSEPARATOR ---
- neuen Multimedia-Befehle f├╝r den eingestell-
- --- RECORDSEPARATOR ---
- ten NetBurst-Nachfolger mit Code-Namen Te-
- --- RECORDSEPARATOR ---
- jas vorgesehen.
- --- RECORDSEPARATOR ---
-
- --- RECORDSEPARATOR ---
- Advanced Smart Cache
- --- RECORDSEPARATOR ---
-
- --- RECORDSEPARATOR ---
- Der ŒSmart Cache ist bereits aus dem Core
- --- RECORDSEPARATOR ---
- Duo bekannt. Beide Prozessorkerne teilen sich
- --- RECORDSEPARATOR ---
- dynamisch einen gemeinsamen L2-Cache. Bei
- --- RECORDSEPARATOR ---
- der Core-Architektur verdoppelte Intel aller-
- --- RECORDSEPARATOR ---
- dings die Bandbreite zum L1-Cache.
- --- RECORDSEPARATOR ---
- Dieser ŒAdvanced Smart Cache des Core be-
- --- RECORDSEPARATOR ---
- steht aus einer 2 oder 4 MByte großen zweiten
- --- RECORDSEPARATOR ---
- Pufferstufe - je nach Prozessortyp. Der Vorteil
- --- RECORDSEPARATOR ---
- von einem Shared Cache ist unter anderem ei-
- --- RECORDSEPARATOR ---
- ne bessere Auslastung. Arbeitet beispielsweise
- --- RECORDSEPARATOR ---
- nur ein Prozessorkern, so steht diesem der ge-
- --- RECORDSEPARATOR ---
- samte Cache zur Verf├╝gung. Bei der Dual-Core-
- --- RECORDSEPARATOR ---
- Technologie des Pentium D und des Xeons
- --- RECORDSEPARATOR ---
- besitzt jeder Kern seinen eigenen L2-Cache.
- --- RECORDSEPARATOR ---
- Die Cache-Auslastung ist bei diesen CPU inef-
- --- RECORDSEPARATOR ---
- fektiver, wenn nicht beide Cores unter Last
- --- RECORDSEPARATOR ---
- sind.
- --- RECORDSEPARATOR ---
- Ein weiterer Vorteil des Advanced Smart Cache
- --- RECORDSEPARATOR ---
- ist das Data-Sharing zwischen den CPU-Ker-
- --- RECORDSEPARATOR ---
- nen. Ben├╢tigt der zweite Kern die Daten, die
- --- RECORDSEPARATOR ---
- der erste schon aus dem Speicher geholt hat,
- --- RECORDSEPARATOR ---
- so findet er diese bereits im L2-Cache vor. Da-
- --- RECORDSEPARATOR ---
- durch wird die Prozessorbus-Auslastung mini-
- --- RECORDSEPARATOR ---
- miert. Auch die zu bewerkstelligende Cache-
- --- RECORDSEPARATOR ---
- Kohärenz bei eigenen L2-Caches pro Prozes-
- --- RECORDSEPARATOR ---
- sorkern ist mit dem Smart Cache obsolet.
- --- RECORDSEPARATOR ---
- Weiterhin kann Intel bei der Core-Architektur