PC Welt 2006 October (DVD)

home *** CD-ROM | disk | FTP | other *** search

/ PC Welt 2006 October (DVD) / PCWELT_10_2006.ISO / fscommand / papers / 180.swf / texts / 320.txt < prev next >

Wrap

Text File | 2006-08-11 | 7.7 KB | 237 lines

Gek├╝rzte Pipeline --- RECORDSEPARATOR --- --- RECORDSEPARATOR --- K├╝rzere Pipelines zeugen meist von einem ef- --- RECORDSEPARATOR --- fizienteren CPU-Design. Beispielsweise kosten --- RECORDSEPARATOR --- falsche spekulative Sprungvorhersagen weni- --- RECORDSEPARATOR --- ger Taktzyklen f├╝r das erneute ┬îrichtige┬ì Aus- --- RECORDSEPARATOR --- f├╝hren. Allerdings erm├╢glichen l├ñngere Pipe- --- RECORDSEPARATOR --- lines auch h├╢here Taktfrequenzen und ein da- --- RECORDSEPARATOR --- mit besseres Skalieren der Performance. Denn --- RECORDSEPARATOR --- mit mehr Stufen kann eine CPU auch mehr Be- --- RECORDSEPARATOR --- fehle gleichzeitig ┬îin flight┬ì halten - abh├ñngig --- RECORDSEPARATOR --- nat├╝rlich von der superskalaren Auslegung. --- RECORDSEPARATOR --- Entscheidend f├╝r ein superskalares Design ist --- RECORDSEPARATOR --- die Anzahl der Ausf├╝hrungseinheiten. Core be- --- RECORDSEPARATOR --- sitzt drei 64-Bit-ALUs f├╝r Integer-Operationen, --- RECORDSEPARATOR --- drei 128-Bit-SSE-Units sowie zwei 128-Bit- --- RECORDSEPARATOR --- Floating-Point-Rechenwerke. Au├ƒerdem gibt --- RECORDSEPARATOR --- es noch eine Load- und Store-Unit. Damit --- RECORDSEPARATOR --- macht Intel die Core-Architektur fit f├╝r eine --- RECORDSEPARATOR --- massive Parallelisierung. --- RECORDSEPARATOR --- Doch besonders bei der SSE-Befehlsabarbei- --- RECORDSEPARATOR --- tung zeigt die Core-Architektur deutliche Fort- --- RECORDSEPARATOR --- schritte, wie Sie im Abschnitt ┬îDigital Media --- RECORDSEPARATOR --- Boost┬ì nachlesen k├╢nnen. Zur ┬îWide Dynamic --- RECORDSEPARATOR --- Execution┬ì z├ñhlen zudem Verbesserungen im --- RECORDSEPARATOR --- Frontend sowie die neue Macro-Fusion, wie --- RECORDSEPARATOR --- wir auf den folgenden Seiten erl├ñutern. --- RECORDSEPARATOR --- --- RECORDSEPARATOR --- Erweitertes Frontend --- RECORDSEPARATOR --- --- RECORDSEPARATOR --- Um das vierfach superskalare Design und die --- RECORDSEPARATOR --- vielen Ausf├╝hrungseinheiten der Core-Archi- --- RECORDSEPARATOR --- tektur bei Laune zu halten, bedarf es effektiver --- RECORDSEPARATOR --- Befehlsdekoder sowie einer guten Sprungvor- --- RECORDSEPARATOR --- hersage (Branch Prediction). In beiden F├ñllen --- RECORDSEPARATOR --- wartet die Core-Architektur mit Verbesse- --- RECORDSEPARATOR --- rungen auf. Au├ƒerdem verf├╝gen beide Prozes- --- RECORDSEPARATOR --- sorkerne des Core jeweils ├╝ber drei individuelle --- RECORDSEPARATOR --- Prefetcher: zwei f├╝r Daten, einer f├╝r Befehle. --- RECORDSEPARATOR --- Die Prefetcher holen basierend auf einer Work- --- RECORDSEPARATOR --- flow-Analyse Daten und Befehle in die CPU, die --- RECORDSEPARATOR --- voraussichtlich als n├ñchstes ben├╢tigt werden. --- RECORDSEPARATOR --- Die Ausf├╝hrungseinheiten aktueller Prozes- --- RECORDSEPARATOR --- soren sind ├╝ber ein Viertel ihrer Zeit mit Be- --- RECORDSEPARATOR --- fehlswiederholungen durch falsche Sprungvor- --- RECORDSEPARATOR --- hersagen besch├ñftigt. Dies kostet nicht nur --- RECORDSEPARATOR --- Performance, weil die CPU die korrekte Sprun- --- RECORDSEPARATOR --- gadresse aus dem Speicher holen muss. --- RECORDSEPARATOR --- Gleichzeitig steigt durch die Befehlswiederho- --- RECORDSEPARATOR --- lung der Stromverbrauch. Deshalb hat Intel bei --- RECORDSEPARATOR --- der Core-Architektur viel Wert auf optimierte --- RECORDSEPARATOR --- Sprungvorhersagen gelegt. --- RECORDSEPARATOR --- Die Sprungvorhersage des Core-Prozessors --- RECORDSEPARATOR --- analysiert die vergangene Programmausf├╝h- --- RECORDSEPARATOR --- rung und sagt darauf basierend voraus, welche --- RECORDSEPARATOR --- Operationen nach einem Sprung wahrschein- --- RECORDSEPARATOR --- lich als n├ñchstes ausgef├╝hrt und welche Daten --- RECORDSEPARATOR --- ben├╢tigt werden. Intel hat bei der Core-Archi- --- RECORDSEPARATOR --- tektur drei verschiedene Logiken zur Sprung- --- RECORDSEPARATOR --- vorhersage kombiniert: bimodal, local und --- RECORDSEPARATOR --- global. Diese Triple-Logik f├╝hrte Intel bereits --- RECORDSEPARATOR --- beim ersten Pentium M ┬îBanias┬ì ein. --- RECORDSEPARATOR --- Core verwendet zus├ñtzlich mit dem Loop De- --- RECORDSEPARATOR --- tector LD sowie dem Indirect Branch Predictor --- RECORDSEPARATOR --- IBP zwei weitere Vorhersagelogiken. W├ñhrend --- RECORDSEPARATOR --- der LD den Aussprung aus Programmschleifen --- RECORDSEPARATOR --- vorhersagt, speichert der IBP in einer Tabelle --- RECORDSEPARATOR --- bevorzugte Zieladressen von indirekten Spr├╝n- --- RECORDSEPARATOR --- gen. Wenn somit das Frontend der CPU einen --- RECORDSEPARATOR --- indirekten Sprung vorhersagt und ausf├╝hrt, --- RECORDSEPARATOR --- kann aus der IBP-Tabelle die Adresse entnom- --- RECORDSEPARATOR --- men werden. --- RECORDSEPARATOR --- Neben der verbesserten Sprungvorhersage --- RECORDSEPARATOR --- wartet die Core-Architektur mit neuen Befehls- --- RECORDSEPARATOR --- dekodern auf. Die Dekoder wandeln die her- --- RECORDSEPARATOR --- k├╢mmlichen x86-Befehle (Macro-Ops) in f├╝r --- RECORDSEPARATOR --- den Prozessor verst├ñndliche Micro-Ops um. --- RECORDSEPARATOR --- Insgesamt besitzt Core vier Dekoder-Einheiten. --- RECORDSEPARATOR --- Damit dekodiert die CPU mindestens vier In- --- RECORDSEPARATOR --- struktionen pro Taktzyklus, was der vierfach --- RECORDSEPARATOR --- superskalaren Auslegung der Core-Architektur --- RECORDSEPARATOR --- entspricht. ┬îMindestens┬ì vier St├╝ck, weil sich --- RECORDSEPARATOR --- die vier Dekoder aus drei einfachen und einer --- RECORDSEPARATOR --- komplexen Einheit zusammensetzen. --- RECORDSEPARATOR --- Die komplexe Dekodiereinheit erl├ñutern wir --- RECORDSEPARATOR --- ausf├╝hrlicher im Abschnitt ┬îMacro-Fusion┬ì, --- RECORDSEPARATOR --- welche eine weitere Neuerung der Core-Archi- --- RECORDSEPARATOR --- tektur darstellt. --- RECORDSEPARATOR --- --- RECORDSEPARATOR --- Micro-Ops-Fusion --- RECORDSEPARATOR --- --- RECORDSEPARATOR --- Ein superskalares Prozessor-Design zum paral- --- RECORDSEPARATOR --- lelen Abarbeiten von Befehlen ist nicht neu. --- RECORDSEPARATOR --- Hierzu bedarf es vereinfacht ausgedr├╝ckt ┬înur┬ì --- RECORDSEPARATOR --- der bereits erw├ñhnten parallelen Ausf├╝hrungs- --- RECORDSEPARATOR --- einheiten. So erlaubt die Core-Architektur be- --- RECORDSEPARATOR --- reits vier Instruktionen pro Taktzyklus. Um --- RECORDSEPARATOR --- aber die Performance pro Taktzyklus weiter zu --- RECORDSEPARATOR --- steigern, verwendet Intel Techniken zur Redu- --- RECORDSEPARATOR --- zierung von Micro-Ops. --- RECORDSEPARATOR --- Die Core-Architektur vereinfacht die kompli- --- RECORDSEPARATOR --- zierte Verwaltung der Micro-Ops im Re-Order- --- RECORDSEPARATOR --- Buffer und den Schedulern durch die Micro- --- RECORDSEPARATOR --- Ops-Fusion. Die erstmals beim Pentium M --- RECORDSEPARATOR --- ┬îBanias┬ì verwendete Micro-Ops-Fusion-Tech- --- RECORDSEPARATOR --- nologie analysiert die Instruktionen des Pro- --- RECORDSEPARATOR --- grammablaufs. Wenn sich mehrere aus einer --- RECORDSEPARATOR --- Macro-Op dekodierte Micro-Ops zusammen- --- RECORDSEPARATOR --- fassen lassen, werden sie zu einer neuen --- RECORDSEPARATOR --- Micro-Op verschmolzen. --- RECORDSEPARATOR --- Die Effizienz der Befehlsabarbeitung erh├╢ht --- RECORDSEPARATOR --- sich durch dieses Verfahren, weil der Schedu- --- RECORDSEPARATOR --- ler weniger Eintr├ñge verwalten muss. Diese --- RECORDSEPARATOR --- ┬îBefehlsreduzierung┬ì vor den Ausf├╝hrungsein- --- RECORDSEPARATOR --- heiten steigert aber nicht nur die Performance, --- RECORDSEPARATOR --- sondern reduziert gleichzeitig den Energiebe- --- RECORDSEPARATOR --- darf der Scheduler-Einheit. Durch die Micro- --- RECORDSEPARATOR --- Ops-Fusion-Technologie muss der Core-Pro- --- RECORDSEPARATOR --- zessor laut Intel mehr als zehn Prozent weniger