Tesztünk mai főszereplőin az oldal berkein belül eleddig nem ismertetett grafikus chipek teljesítenek szolgálatot. A GF114 és a GF110 egyfajta reinkarnáció, az AMD Cayman viszont egy gyökeresen új megközelítéséből született.
Nincs könnyű feladata a GeForce GTX 560 Ti (GF114) grafikus kártyának. A közvetlen ellenfele a Barts, amely egy végletekig optimalizált, játékra tervezett, középkategóriás grafikus processzor, alias ATI Radeon HD 6850 és CFX — nevében zavar, magjában erő. A gyártási kihozatal javulása mostanra lehetővé tette a GF104 letiltott részegységeinek feloldását – de vajon ez elég lesz?
GTX 560 Ti dióhéjban
Az újdonság a már említett teljes értékű GF104-es lapkára épül, vagyis nem tartalmaz letiltott funkcionális egységeket, – mint a GTX 460. Mondhatni, az már csak hab a tortán, hogy ennek ellenére még magasabb órajelekre is képes. A GTX 560 Ti grafikus magjának órajele 822 MHz, a stream processzorok 1644 MHz-en ketyegnek, a GDDR5-ös memóriák effektív órajele pedig 4 GHz. A TSMC 40 nanométeres gyártósorainak egyre javuló kiforrottsága és a szivárgási áram csökkenése okán a GTX 560 Ti fogyasztása elődjéhez hasonló, csak elenyésző mértékben emelkedett.
Mivel a GF114 paraméterei érdemben nem változtak, ebből kifolyólag itt most csak egy vázlatos áttekintésbe bocsátkozunk. A grafikus chip természetesen a TSMC 40 nanométeres gyártósorairól kerül le és 1,95 milliárd tranzisztorból épül fel. A GF114 nyolc SM-et (Shader Multiprocessor) és 384 CUDA magot rejt magában. Az egyes SM tömbök 8 textúrázót tartalmaznak, amiből könnyen kiszámolható, hogy a GPU 64 textúrázóval gazdálkodhat. A GeForce GTX 560 Ti 32 ROP-pal és 256-bites memóriavezérlővel rendelkezik, tehát itt sem történt érdembeli változás.
Bemutatkozik a GF110:
A GeForce GTX 580/570 kártyák a GF110-es, 40 nm-es technológiával gyártott lapkára épülnek. A megközelítőleg 3 milliárd tranzisztorból álló chip egy ráncfelvarrott GF100-nak tekinthető. A 512 stream processzoros GTX 580 grafikus magjának (GF110) órajele 772/1544 MHz, a memóriák órajele 4 GHz.
GF110
A valódi teljesítménynövekedést a GF100 letiltott részegységeinek “feltámasztása” és az órajel-emelés eszközölte, de két újdonságról mindenképp érdemes említést tenni. A GF110 teljes órajelen képes FP16-os (16 bites lebegőpontos) precizitású textúrákat szűrni, ezen túlmenően javult a Z-culling hatékonysága. Optimális esetben azonos órajelen a GF110 akár 15 %-kal gyorsabb lehet, mint elődje (3D Mark Vantage).
A fogyasztás és a szivárgási áram csökkentése érdekében az NVIDIA lecserélte az eddig alkalmazott tranzisztorokat. A GF110 tranzisztorai a GF100-hoz képest lassabban kapcsolnak annak érdekében, hogy még kisebb legyen az energiafelhasználás.
Felfokozott várakozás előzte meg a HD 6900-as sorozat (Cayman) megjelenését, hiszen a végső specifikációk csak az utolsó napokban derültek ki. Olaj volt a tűzre amikor kiderült, hogy a széria egy alapjaiban megreformált architektúrára fog épülni.
Régóta köztudott, hogy a TSMC törölte a 32 nm-es terveket, így a Cayman továbbra is 40 nm-es csíkszélességgel készül. A 2,64 milliárd tranzisztorból felépülő „RV970” GPU alapterülete míg barátságosnak mondható (389 négyzetmilliméter), de Sweet Spot stratégia ennél nagyobb chipméretet már nehezen “tolerálna”.
Shader egységek:
A legnagyobb előrelépés a shader architektúra kapcsán történt. Cayman 24 shader tömbbel és 96 textúrázóval bír, de az eddigi 5 utas szuperskalár processzorok helyét 4 utas feldolgozók (VLIW4) vették át. A magyarázat egyszerű és logikus. Az AMD a 40 nm-es gyártástechnológiáról a 32 nm-es csíkszélesség alkalmazására szeretett volna átállni, de tajvani félvezetőgyártó óriás váratlan lépésre szánta el magát és törölte ezt a lépcsőfokot. A mérnökök “hirtelen” azzal szembesültek, hogy a miniatürizáció adta előnyök elvesztek, így az aritmetikai logikai egységek (ALU) számának növelése rögös útnak bizonyult, más megoldást kellett találni. A VLIW4 alkalmazásával egy négyzetméternyi felületre vetítve 10 százalékol javult a teljesítmény, de az sem utolsó szempont, hogy nagymértékben megemelkedett az architektúra általános kihasználtsága. További újdonság a speciális végrehajtó egység kivétele. Mostantól egy SIMD négy azonos képességű skalár ALU-ból áll.
A Cayman és a GPGPU:
A Cayman az első chip, amely képes több független utasításfolyam kezelésére. A gyakorlatban ez azt jelenti, hogy egy grafikus processzor egyszerre több GPGPU alkalmazást is futtathat. A Cypress esetében 1/5-e a dupla pontosságú számítás az egyszeres pontosságú lebegőpontos feldolgozásnak, Cayman-nál már 1/4-e, ami számszerűsítve a HD 6970 esetében 2700/675 GFLOPS elméleti számítási teljesítményt jelent.
A frontend és a tesszellátor:
A második nagy újítás a két „grafikus motor”, ami megduplázta a triangle setup kapacitást és néhány elem (Rasterizer, Hierarchical Z, Tessellator) számát. Az előző generáció esetében a háromszög-feldolgozás sebessége egy korlátozó tényezőnek bizonyulhatott, ebből kifolyólag ez már egy halaszthatatlan lépés volt. A nyolcadik generációs tesszellációs egységek mellett a Cayman ideális esetben háromszor gyorsabb lehet ezen a területen, mint a Cypress. A puding próbája az evés, a tesszellátoré pedig az Unigine Heaven. Az AMD mérései alapján az említett mérőprogramban a HD 6970 közel 70 százalékkal felülmúlja a vállalat előző generációs, egy GPU-s csúcskártyáját.
A központi feldolgozó egységtől beérkező adatok a grafikus motorhoz, majd az Ultra-Threading Dispatch Processzorhoz kerülnek, ami szétosztja az adatokat az egyes SIMD tömböknek. Ezen a ponton nem történt változás.
A backend:
A ROP-ok sem maradtak érintetlenül. A 16-bites integer műveletek elvégzése kétszer, a 32-bites lebegőpontos műveletek pedig kétszer/négyszer gyorsabban futnak le. A változtatások révén az élsimítás még kisebb teljesítménycsökkenést okozhat.
A memóriainterfész és a gyorsítótárak kapcsán nem történtek jelentősebb fejlesztések (legalábbis az AMD erről nem tesz említést), vagyis megmaradt a négy darab 64 bites csatorna.
PowerTune:
Az órajelek és a feszültség módosításával befolyásolja a videokártyák fogyasztását azért, hogy a grafikus processzor fogyasztása ne haladja meg az előre meghatározott fogyasztási keretet. Az eljárás leginkább a “power virus”-ként elhíresült alkalmazások (Furmark, OCCT) esetén aktivizálódik. A PowerTune a részegységek terheltségéből számítja ki a határértékeket, így a meghajtó megfelelő menüpontját felkeresve lehetőség nyílik a beavatkozásra. A HD 6900-as sorozatú kártyáknál a TDP-limit pozitív vagy negatív irányba 20%-al módosítható.
Dual BIOS:
A Cayman kártyákon két BIOS található. Az elsődleges, amit a grafikus vezérlő normál körülmények között használ (a felhasználó frissítheti, modifikálhatja) és egy másodlagos, úgynevezett védett BIOS. Ha valamilyen oknál fogva megsérül az elsődleges BIOS egy kapcsoló átállításával máris használhatóvá válik a videokártya.
EQAA (Enhanced Quality Anti Aliasing):
Az EQAA a hagyományos élsimításnál jobb képminőséget garantál, voltaképpen az NVIDIA CSAA eljárásához hasonlítható. Mint az a lenti ábrán látható, a 2X EQAA kettő színminta mellett négy lefedettséget szerez, amit fel is használ a számításba.
Piros: színminta
Sárga: lefedettség
A Cayman HDMI 1.4a, Eyefinity (maximum hat monitor) DisplayPort 1.2, UVD3 – MVC, MPEG-2 DivX / XviD formátum – támogatással rendelkezik, tehát ebből a szempontból hasonlít a Barts-ra. Az UVD3 képes a VP8-as kodek hardveres gyorsítására, ami a WebM videók kapcsán fontos tényező.