Bemutatkozik az Intel Sandy Bridge platform – GIGABYTE alapokon
A Nehalem-alapú processzorokra a mai napig nagy a kereslet, ezek a központi egységek napjainkban is kellő teljesítményt és technikai fejlettséget biztosítanak. Ráadásul az AMD érdemben nem tud ellenfél lenni, a jelenlegi termékskálájuk kedvező/ár teljesítmény aránnyal tudja magát értékesíteni, kíváncsian várjuk, mit tud majd a Bulldozer, de annak érkezésére még jópár hónapot várni kell. Látszólag az Intelt nem hajtja a tatár, mégis kemény szigorral és önfegyelemmel ragaszkodik a több, mint 4 éve lefektetett alapkőhöz, a “Tick-Tock” elvhez. Bár a Core i7/i5/i3 termékek jelenleg is sikeresek, van néhány probléma, amelyet csak egy új architektúra bevezetésével lehetett orvosolni, így a a Sandy Bridge érkezése nem csak a dátum alapján volt időszerű.
A Bloomfield felépítése
A legfontosabb probléma az volt, hogy bár a CPU magok és az egyéb részegységek 32 nm-en gyártott szilíciumostyából keltek életre, addig a grafikus mag 45 nm-en készült. Ezért az IGP valójában nem a processzorba, hanem a processzor mellé került, és az Intel ide tolta ki az integrált memóriavezérlőt (IMC) is, a GPU mellé. Ha valaki volt olyan bátor, hogy lefeszítse egy ilyen CPU kupakját, akkor a PCB-n két lapkát láthatott, egy négyzet alakút — ez volt a 32 nm-es CPU-mag rész — és egy téglalap alakút — ez pedig a 45 nm-es GPU és IMC, valamint a PCI Express vezérlő. Ez nem túl szerencsés kivitelezés, pláne a gyártási költségeket tekintve, ezért itt mindenképpen változtatni kellett az Intelnek.
Két lapka a kupak alatt
A második probléma, hogy a Nehalem architektúra az elérhető frekvenciatartományok közelében járt, az órajelet illetően nem maradt sok potenciál. Ez persze csak abban a formában igaz, hogy a komolyabb frekvencianövelés gyakran magasabb feszültséget vont maga után, a teljesítmény növelése ezáltal a fogyasztás és a hőtermelés növekedésével is együtt járt. A Sandy Bridge megalkotásánál kellő figyelmet fordítottak a skálázhatóságra, az új architektúrával magasabb órajelek érhetőek el, alacsonyabb fogyasztással párosítva.
A Clarkdale felépítése
Lássuk a konkrétumokat!
Az Intel az első Core i7 modellek (Bloomfield) óta elkötelezte magát a nagymértékű integrálás mellett. Először az IMC került a CPU-ba, aztán a PCI Express vezérlő, végül egy GPU is bekerült a kupak alá, ennek problémáiról néhány bekezdéssel feljebb beszéltünk. Az Intel az egyetlen, és egyben a legjobb megoldást választotta a problémára. A mai korszerű 32 nm-es gyártási technológia már lehetőséget ad arra, hogy ez a rendkívül komplex rendszer már egyetlen szilíciumlapkából kerüljön kialakításra, és ezt a mérnökök meg is tudták oldani. A Sandy Bridge egy kerek egész. Az egyetlen lapka mérete mindössze 225 mm2, ez jóval kisebb, mint a Bloomfield és a Lynnfield modellek. Pedig a chip aztán zsúfolásig tele van.
A Sandy Bridge felépítése
A Sandy Bridge “die” tartalmaz 2 vagy 4 processzormagot — adott esetben Hyper-Threading technológiával –, típustól függően 6 vagy 8 MB L3 gyorsítótárat, integrált DDR3 kétcsatornás memóriavezérlőt, 16 PCI Express 2.0 vezetéket, valamint egy modern, DirectX 10.1-et támogató grafikus magot. A termékben tehát minden benne van, ami csak kellhet ahhoz, hogy a piac minden szegmensében sikeres legyen, beleértve a felsőkategóriát is.
A magasfokú integráltság más, nagyon fontos fejlesztéseket is magával hozott. A számításokra használt magokat jelentősen átdolgozták, mely a fogyasztás csökkenésével is együtt járt. Ez azt jelenti, hogy azonos órajelen a Sandy Bridge jóval kevesebbet fogyaszt, mint a Nehalem, hasonló fogyasztás mellett viszont sokkal nagyobb működési frekvencia érhető el, mint az elődnél.
Az új processzorok támogatják az úgynevezett AVX (Advanced Vector Extensions) utasításkészletet. Ez a csomag számos multimédiás, pénzügyi vagy tudományos számítás és feladat elvégzésére alkalmas, illetve jelentősen gyorsítja az ilyen jellegű adatfeldolgozást, természetesen abban az esetben, ha a szoftveres oldalon is rendelkezésre áll a támogatottság. Az AVX ráadásul jelentősen eltér a korábbi vektoros SSE utasításkészletektől, ugyanis magasabb operációs szélességgel bír, pontosan dupla akkorával, 128 helyett 256 bittel. Ez egyszerre nagyobb mennyiségű adat feldolgozását teszi lehetővé alacsonyabb erőforrásigény mellett.
A felépítést ábrázoló fotón jobb oldalt található és System Agent & Memory Controller nevű terület. Ez szinte egy komplett “északi hídnak lenne tekinthető”, ha az alaplapon lenne. A System Agent az összes külső vezérlőt tartalmazza: DMI, PCI Expressz, kijelző és memória interfész. Hasonlít ahhoz, amit eddig Uncore-nak neveztünk, de nem ugyanolyan. Nem része az L3 cache, az processzormagokkal, a grafikus maggal és a gyorsítótárral való adatcserére a ring bust használja.
A Sandy Bridge PCI Express vezérlője ugyanaz, mint ami az LGA1156 modellekben található. 2.0 szabványú, összesen 16 vezetéket tartalmaz, melyek 1×16 vagy 2×8 felállásban használhatóak. A 2×16-os felépítés tehát továbbra is X58-ra épülő rendszerek kiváltsága marad — hivatalosan.
A memóriavezérlő is teljesen megújult, fizikailag is visszakerült a processzormagok mellé, illetve a System Agent területen helyezkedik el. Az új IMC kétcsatornás, hivatalosan a DDR3 1066 MHz-es és az 1333 MHz-es modulokat támogatja, de a szorzónak köszönhetően az 1600, 1866 és 2133 MHz-es memóriák használatára is lehetőség nyílik.
A System Agenthez kapcsolódik a Nehelemből már ismert PCU (Power Control Unit), magyarán az erőforrás-szabályzó rendszer. Ez egy programozható mikrokontroller, amely figyeli a hőmérsékleti értékeket és az áramerősséget a processzor egyes részein, és ha kell, ezeket feszültség- és/vagy órajel módosítással tudja szabályozni, interaktívan kordában tartani. Így nem meglepő, hogy a PCU felel az energiatakarékos funkcióért (például EIST), és az automatikus túlhajtásért, a Turbo Módért (Turbo Boost), melyet a Sandy Bridge-ben ugyancsak továbbfejlesztettek.
A Sandy Bridge funkcionális egységei három területre bonthatóak fel, melyek saját órajellel és energiaellátási algoritmussal rendelkeznek. Az elsődleges terület a processzormagokat és az egyesített L3 gyorsítótárat tartalmazza, ezek mindig azonos feszültségen és órajelen működnek. A másodlagos terület a grafikus mag, ez saját frekvencián dolgozik. A harmadik terület maga a System Agent. Ez a strukturális felépítés lehetővé teszi, hogy az Enhanced SpeedStep technológia és Turbo Boost egyszerre, egymástól függetlenül is működhessen az elsődleges és a másodlagos területen, azaz a processzormagokon és a grafikus magon. Ez egy teljesen hardveres megoldás, amely külön-külön képes szabályozni az órajelet az egyes területeken az aktuális energiafogyasztási és terhelési adatok alapján. A processzormagok órajele például jelentősen megnövelhető, ha az IGP terhelése alacsony, de a fordított eljárás is működik. A CPU magok órajelei négy léptékben, míg a GPU órajele 6-7 léptékben módosítható. A PCU immár nem csak a fogyasztás alapján, hanem a magok hőmérsékletadatinak alapján is képes szabályozni azokat.
Sandy Bridge és a tuning
A helyzet a következő. A Sandy Bridge processzorok órajel-generátorának frekvenciája — a Nehalemnél ezt base clocknak (BCLK) neveztük, és az érthetőség kedvéért továbbra is így teszünk — 100 MHz-re van beállítva. Ez az órajel széles skálán, 0,1 MHz-es lépésekben változtatható. A probléma az, hogy a rendszer már alacsony mértékű BCLK növelésre is rendkívül érzékenyen reagál. Addig amíg például egy Core i7-920 BCLK-ja könnyen 200 MHz fölé volt húzható, addig a Sandy Bridge-nél jelen állás szerint már a 110 MHz-es órajel is elképzelhetetlen, általában 105 MHz-et bírnak ki a processzorok. Ilyen mértékű BLCK-tuning természetesen semmilyen észrevehető teljesítménynövekedést nem okoz, így a másik paraméterhez kell nyúlni, a szorzóhoz. Az ideális az lenne, ha minden Sandy Bridge CPU szorzózár-mentesen kerülne forgalomba, de ez sajnos nem így lesz.
Jelenleg két ilyen modellről tudunk, melyek a típusszámuk mögött “K” jelzést viselnek. Ezeknek az egységeknek a szorzója egészen 57-ig növelhető, így a maximális órajel 100 MHz-es BLCK-val számolva elvileg 5700 MHz, 106-os BLCK-val és egy kis szerencsével túlléphető a 6 GHz. Ez — bár első olvasásra soknak tűnik — jelentősen elmarad az előző szériától, ugyanis a profi tuningosok folyékony nitrogén használatával például a 32 nm-es, hatmagos Gulftownnal 7 GHz közelébe jutottak. Ráadásul a K-s modellek drágábban lesznek elérhetőek, bár a szorzózár-mentesség mellett egyéb funkciókban is többet fognak nyújtani a “sima” modelleknél. De akkor mi a helyzet a tuninggal, ha nem K-s egységgel rendelkezünk? Marad a minimális BLCK növelés, és a szorzó növelése, de korlátolva. A szorzó módosítását illetően annyi mozgásterünk van, amennyit Turbo Boost megenged, hiszen a tuninghoz ez a technológia is a szorzó növelését használja. Ez az alap szorzóhoz képest néhány fokkal nagyobbat jelent, például egy Core i5-2300 esetén a 2,8 GHz frekvencia 100 MHz (BLCK) × 28 (szorzó) képletből alakul ki. A BIOS-ban kiválasztható és még működő szorzó a 33, így BLCK növelés nélkül maximum 3,3 GHz-ig juthatunk. A szorzózár nem vonatkozik a memóriára és a grafikus alrendszerre.
Az Intel a januári villámrajt után gyors és tömeges elterjedésre számít a felsőkategóriában és a középkategóriában egyaránt, ezt 100-300 dollárig árazott termékekkel kívánja elérni. Az belépőszintű Sandy Bridge CPU-k később várhatóak. Az útitervből kiolvasható, hogy érdekes módon a Sandy Bridge mellett az Intel a Bloomfielddel és a Lynnfielddel is számol a felsőkategóriában. Ennek oka lehet, hogy bizonyos esetekben van létjogosultsága a háromcsatornás memóriavezérlőnek, illetve nem akarja a vásárlókat minden körülmények között rákényszeríteni új alaplap vásárlására. Ezt a felső, gyakorlatilag (fél)profi szegmenst a gyártó csak 2011 végén váltja majd le, akkor debütál az LGA2011, szerver kategóriából asztalira átdolgozott Sandy Bridge-EN termékcsalád. Ez asztali vonalon a prémium kategória lesz, akár 8 darab natív CPU maggal, HT-vel, 1× QPI busszal, maximum 20 MB L3 gyorsítótárral, 24 darab PCI Express 3.0 vezetékkel, négycsatornás DDR3 memóriavezérlővel. Ilyen paraméterek láttán bizonyára sokaknak összefut a nyál a szájában, de egyelőre maradjunk meg a jelenlegi Sandy Bridge kínálatnál!
A folytatásban érintőlegesen áttekintünk néhány újítást, melyek szintén hozzájárultak a Sandy Bridge sebességéhez:
Decoded Uop cache
A dekódolt Uop gyorsítótár gyakorlatilag egy L0 szinű cache-nek felel meg, melyet a NetBurstből hoz vissza az Intel. A L0 utasítás-gyorsítótár a mikro-utasítások feldolgozását segíti az instrukciós bájtok helyett. Ez az alkalmazások körülbelül 80 %-ban teljesítménynövekedést von maga után. Körülbelül 6 KB kapacitású, 1500 mikro-ops tárolására képes, emellett magasabb feldolgozási sávszélességet és alacsonyabb késleltetést biztosít. Ha a processzor tétlen, a gyorsítótár kikapcsolható, így a fogyasztás ezzel is csökkenthető.
New Branch Prediction Unit
Az új elágazás-becslő egység szorosan kapcsolódik az L0 gyorsítótárhoz. A Sandy Bridge puffere tárolt elágazási címeket és előrejelzési naplót használ az adatsűrűség növelésére. Ennek eredményeképp az Intel a elágazásbecslési címeket tovább képes tárolni, anélkül, hogy az adatstruktúra növekedne.
Sandy Bridge Out-of-Order (OOO) Cluster
Ez az a terület, ahol a Sandy Bridge legjobban hasonlít a NetBurstre. Ennek kapcsán az Intel visszahozta a fizikai regiszter fájlt. A Core és a Nehalem egységek központosított öregségi regiszter fájlt használtak. A fizikai rendszer átdolgozása és újra életre keltése azt eredményezi, hogy a túlzott adatátvitel lecsökken, emellett megakadályozza, hogy a register duplán tartalmazzon adatot, ezzel helyet takarít meg.
A Sandy Bridge ezen fejlesztéseit sokkal bővebben is ki lehetne vesézni az Execution Clusterrel és a Memory Clusterrel egyetemben, ezek viszont eléggé hardcore mélységű témák, mi sem vagyunk tökéletesen biztosak megértésükben, pláne elmagyarázásukban. Annak, akit érdekel a téma és szakértője ennek, rendelkezésre állnak az Intel által közzétett prezentációs diák.
A következő oldalon végigvesszük a várható kínálatot, a grafikus magot érintő technológiai változásokat és az új PCH-kat. Kéretik lapozni!