Kipróbáltuk: AMD GCN - bemutatkozik a Radeon HD 7970 és a HD 7950

Elérkezett az idő, végre nálunk is bemutatkozik az AMD GCN (Graphics Core Next – következő generációs grafikus mag) architektúra, és annak két legerősebb képviselője, a Radeon HD 7970 és a Radeon HD 7950.

HD 7950-ből mindjárt kétféle is tiszteletét tette nálunk, így CrossFireX tesztelésére is lehetőségünk nyílt, emellett mindkét kártyával végeztünk tuningolt méréseket is. Természetesen a két új nagyágyú ellen számos versenyzőt is hadba küldtünk, hogy lássuk, mennyit gyorsultak a kártyák az előző generációs GeForce-okhoz és Radeonokhoz képest.

Mielőtt a résztvevőkre és a tesztekre rátérnénk, megismerkedünk a GCN architektúrával közelebbről is, valamint a HD 7970 és HD 7950 jellemzőit is átvesszük.

„Graphics Core Next“

2007 májusában az AMD bemutatta a Radeon HD 2900 XT grafikus kártyát, amely már egységes shaderarchitektúrára épült. Mint utólag bebizonyosodott, a felépítés számos hibát hordozott magában, azonban a problémákat a Radeon HD 4000 sorozat idejére szinte teljesen felszámolták, minek köszönhetően a vállalat teret nyert az asztali grafikus kártyák piacán. Ezen a ponton látni lehetett, hogy most már radikális változásokra van szükség. A HD 6900 „Cayman” széria tekinthető az első lépcsőfoknak. Itt az eddigi 5 utas szuperskalár processzorok (VLIW5) helyét 4 utas feldolgozók (VLIW4) vették át, és a Cayman volt az első chip, amely több független utasításfolyam kezelésével is elboldogult. A másik nagy újítás a két „grafikus motor” bevetése volt, ami megduplázta a triangle setup kapacitást – növekvő tesszellációs teljesítmény – és néhány elem (Rasterizer, Hierarchical Z, Tessellator) számát is. A következő szint tesztünk mai alanya lett. A Graphics Core Next (GCN) névre keresztelt architektúra révén az eddig alkalmazott VLIW utasításokkal dolgozó shader tömbök az enyészetté váltak, helyét az úgynevezett Compute Unit-ok (CU) vették át. A GCN elsőként a Radeon HD 7900 „Tahiti” családnál debütált.

Érdekes, de nem meglepő adat, hogy Tahiti GPU-k a TSMC 28 nm-es csíkszélességű gyártástechnológiájának köszönhetően kimagasló tranzisztorsűrűséget értek el – 365 négyzetmilliméteren 4,3 milliárd tranzisztort tartalmaznak. Egy Compute Unit négy SIMD és egy skalár egységet tartalmaz. Az AMD zászlóshajója, a Radeon HD 7970 „Tahiti XT” 32 aktív CU-val dolgozik, ami összesen 2048 shader processzor meglétét feltételezi (négy darab 16 utas SIMD, 64 ALU). Tekintve az eddigi generációk előrelépéseit, ez első pillantásra nem tűnik kiemelkedő értéknek, viszont a jobb hatékonyság és kihasználtság miatt már most leszögeznénk, hogy véletlenül sem érdemes ebből az egy technikai mutatóból messzemenő következtetéseket levonni. Elméletileg egy CU akkora teljesítményre képes, mint egy darab Cayman SIMD egység. A korábbi generációk nagy problémája az adatfüggőség (egymást követő utasítások adatokon függenek egymástól), minek köszönhetően a kihasználtság erősen ingadozott. A GCN felépítés ezen a téren is előrelépést jelent, mert az adatfolyam feldolgozással megszünteti a korábban tapasztalt függőségeket. Az előnyök csak címszavakban: az ütemezés, a hibakeresés, a várható teljesítmény megbecslése és a meghajtófejlesztés is gyökeresen egyszerűbbé, átláthatóbbá vált.

Egy CU nem csak négy SIMD egységet tartalmaz, hanem saját ütemezővel, 340 KB átmeneti tárolóval és egy textúrázó klaszterrel is rendelkezik. Ez a 4 × 64 KB-os vektor regiszter, a szintén 64 KB méretű Local Data Share, a 4 KB-os skalár regiszter és a 16 KB kapacitású elsősszintű gyorsítótár összegéből adódik. A fenti képen még egy komponens látható, ami mindenképp említést érdemel, ez pedig az úgynevezett “Branch & Message Unit”, mely a programok hatékonyabb vezérlésében játszik szerepet.
Az eddigi információk birtokában ismét tekintsük át a „Tahiti XT” grafikus processzor főbb paramétereit: 32 CU (2048 shader feldolgozó, 128 SIMD), 128 textúrázó egység, 512 Load-Store Unit és összesen 8,2 MB gyorsítótár. Így már rögtön más a leányzó fekvése, pedig még csak most kezdtük el „vetkőztetni”.

Front-end

A frontend terén jelentős különbségeket láthatunk az NVIDIA GF110 architektúrájához mérten. Az irányítás alapjaiban véve nem a CU-k szintjén történik. Ezt a feladatot a Parancs Processzor (Command Processor) és az Asynchronous Compute Engine (ACE) látja el. A chip két geometriai motort kapott, mely a Geometry-Assembler, a Vertex-Assembler mellett a kilencedik generációs tesszellátor egységeknek is helyet ad. A CU-kkal történő kommunikációt a Global Data Share (GDS) segíti, amin keresztül ezek az egységek adatokat is megoszthatnak egymás között. A frontend szekció két raszterizálót tartalmaz – lent láthatjuk az elrendezést.

A ROP-ok és memória interfész
Az AMD Tahiti 8 ROP klasztert tartalmaz – ezen a ponton egyezést találtunk a Cayman chippel. Egy-egy ilyen „tömb” négy ROP egységet és 16 Z mintavételezőt tartalmaz. Fontos megemlíteni, hogy minden klaszter saját gyorsítótárat kapott. Még egy komoly változás történt: már nincs közvetlen kapcsolat a memóriavezérlővel. A lépés a rugalmasságot és a felhasználhatóságot hivatott javítani, amit majd talán a Pitcairn kapcsán láthatunk is… A ROP-ok a 768 KB-os L2 gyorsítótárba tudnak írni, amit viszont több egység is tud olvasni. A memória interfész kapcsán örömteli kép fogad. A hat darab 64 bites memória vezérlő összkapacitása 384 bit. Ehhez csupán egy szót fűznénk hozzá. Végre! A videomemória alapértelmezett mérete 3072 MB, de elméletileg megvalósítható az 1536 MB-os és a 6 GB-os kiszerelés is.

Reméljük, olvasóink nem veszik rossz néven, de ezen a ponton kifejtenénk személyes véleményünket a backend területről. Az igazán jól sikerült Barts és az ahhoz mérten szerényebb eredményeket felmutató Cayman chip viszonya arra enged következtetni, hogy az AMD chipek „általános problémája” a szűkre szabott ROP-kapacitás. A Tahiti kapcsán sem történt előrelépés itt, miközben a chip egyéb újdonságairól némi túlzással még oldalakat lehetne írni. A ROP-ok szerepe főként a játékok során kiemelkedő, a GPGPU feladatok, alkalmazások alatt már másodhegedűs szerepkörbe kerülnek. Az is bizonyos, hogy ez a szekció rengeteg tranzisztort emészt fel, ami természetesen a lapka méretében is megmutatkozik.

Az AMD fejlesztései eddig nagyrészt a játékosok igényeit szolgálták ki. Most legalább 90 fokos fordulat történt és erősen célkeresztbe került a professzionális igények kielégítése, a GPU szélesebb körű alkalmazása. Ez persze nem baj, hiszen alapjában véve igencsak durva teljesítményszintről beszélünk, ami pár évig biztosan kiállja a modern játékok megpróbáltatásait. A pletykák alapján nem csak az AMD, hanem a Kepler lapkánál az NVIDIA is szűkmarkúan bánik a ROP-okkal.

A memóriabusz kiszélesítése dicséretes lépés volt. Tulajdonképpen nem is nagyon volt más választása a tervezőknek. Az órajelek jelentős mértékben már nem növelhetőek, a chip viszont éhezik az adatokra. Véleményünk szerint csak ez a lépés akár 15 százalékkal is megnövelhette a játékok alatt mért teljesítményt.

DirectX 11.1 és PCI Express 3.0
A PCI-Express 3.0 szabvány a sebességet 16 GB/másodpercről 32 GB/másodpercre emeli, azaz megduplázza a PCIe 2.0 adatátviteli sebességét. Az alaplapgyártók rögtön „ráharaptak a témára”, csakhogy bármennyire is szeretnék, a váltás jelen pillanatban nem nyújt jelentős előnyt. A PCIe 3.0 marketinges szemszögből fontos fegyvertény, az AMD és az NVIDIA szempontjából kötelezően implementálandó szabvány, a felhasználók számára pedig egy újabb „pénzcsapda”.
A DirectX 11.1 a következő Windows operációs rendszerrel indulhat hódító útjára, mely összességében kisebb javításokat, optimalizációkat tartalmaz. A hivatalos anyag szerint natív sztereó 3D támogatást és hatékonyabb raszterizációt várhatunk az új API-tól. Sajnos nem került részletezésre a talán legérdekesebb pont, mely azt taglalja, hogy javulhat a rugalmasság és a grafikus hardver széles körben történő felhasználhatósága.

A Graphics-Core-Next architektúra nagy vonalakban így fest. Természetesen a chip nem csak a játékosok igényeit szolgálja ki, hanem professzionális feladatokban is hely áll. A Tahiti elméleti számítási csúcsteljesítménye (dupla pontosságú számítások esetén) 947 GFLOP, az egyszeres pontosságú lebegőpontos műveleteknél ez az érték négyszer nagyobb. Ezen túlmenően a memóriák ECC támogatással bírnak, a GPU pedig jó ismeretséget ápol a DirectCompute 11.1, OpenCL 1.2 C + + AMP API-kkal. Új funkciók: Zero-Core
Általában a Radeon HD 7900 szintű csúcsragadozóknál megszokott, hogy a fogyasztás tabu téma, viszont az AMD mérnökei nincsenek híján a leleményességnek. Az ötlet egyszerű, de nagyszerű, ám nem új keletű. Amennyiben hosszú időre hagyjuk magára a számítógépet, azonban valami oknál fogva nem szeretnénk azt kikapcsolni, akkor érdemes lehet csak a monitort készenléti állapotba helyezni. A ZeroCore Power technológiának köszönhetően kikapcsolt kijelző mellett a teljes grafikus vezérlőt áramtalanítani lehet, és ebben a formában még aktív hűtésre sincs szükség. Az előnyök meggyőzőek: zéró zajszint, 3 wattos fogyasztás. Sokak számára jelentéktelen tényező lesz, de az eljárás a négyutas Crossfire rendszereknél lekapcsolja az épp nem elsődleges videokártyákat, amivel jelentős mértékben csökkenti a villanyszámlát – bár aki ilyen összeállításon gondolkozik, az nemigen foglalkozik az energiahatékonysággal.

Eyefinity 2.0
Az új verzió egyik érdekessége, hogy lehetőséget nyújt több monitoros konferencia beszélgetések többsávos hanggal történő lebonyolítására. Az eljárás hivatalos neve Discrete Digital Multi-Point (DDM) Audio. A Radeon HD 7970 kártyára egyszerre három megjelenítőt is ráköthetünk, melyek nyolccsatornás hangfolyamot kaphatnak. Nem kifejezetten az otthoni felhasználók számára lehet ez érdekes, de jól példázza azt, hogy mennyi területen alkalmazható az új nagyágyú. A Catalyst meghajtó is fejlődik, így például egyszerűbb lett a tálca pozicionálása, és már egyéni felbontásokat is összeállíthatunk. Érdemes megemlíteni, hogy a Full HD sztereó 3D tartalmakat Eyefinity módban is megtekinthetjük.

UVD és VCE
Az UVD 3.0 már hardveres gyorsítást kínál az DivX/Xvid, MPEG-4 Part 2 MVC tartalmakhoz is, a Video Code Engine (VCE) gyakorlatilag az Intel Quick Sync Video AMD-s megfelelője. A VCE egy önálló hardver és csak a H.264-es videók transzkódolásának felgyorsítására hivatott. A motor lassabb, mint a shader feldolgozók a grafikus processzorban, ellenben sokkal energiahatékonyabb. Kétféle üzemmód áll a felhasználók rendelkezésére. Az elsőben csak a VCE dolgozik, ami önmagában is gyorsabb, mint a legtöbb CPU. Ebben az esetben nem fogunk lassulást tapasztalni, gond nélkül terhelhetjük a videokártyát vagy a központi egységet. A második opció a hibrid mód. A VCE és a GPU aritmetikai-logikai egységei közösen ugranak a feladatnak. Ez a „házasság” nyilván jó hatással van a kódolás sebességére, de ilyenkor ne lepődjünk meg, ha kedvenc játékunk „diavetítés” üzemmódba kapcsol át.