Bemutatkozik a Fermi architektúra a GeForce GTX 480-nal

A Fermi architektúrára épülő GF100 nevű lapka technológiai ismertetése bizony nem könnyű feladat, hiszen a rendkívül komplex mag számos területen előre, néhány helyen pedig visszafelé lépett, de a változások sora igen hosszú.

Talán kezdjük a számokkal, hiszen azok ritkán hazudnak, illetve az előző sorozat alapjával, a GT200 mag ilyen szempontból történő összehasonításával. A fontosabb részegységeket tekintve mostanában sokszor a "2-es számmal" találkozunk, mint szorzó, ennek a jellemzőnek most is fog jutni szerep, de kezdjük az elején. A GT200 mag gyártása 65 nm-en indult, később ez modernizálásra került, és a GT200b már 55 nm-en készült. A GF100 minden egyes példánya a jelenlegi elvárásoknak megfelelően természetesen 40 nm-es csíkszélességgel készül. A GT200 legerősebb, faragásmentes változata 240 darab árnyalóegységet tartalmazott, és bár a GF100-nál az NVIDIA eredetileg 512 darabbal kalkulált, ez feltehetőleg a gyártási nehézségek és a költségek miatt végül 480 darab shader processzor lett, melyről könnyen észrevehető, hogy a GT200-ban dolgozó 240 egység duplája.

Már az imént említett modell 1,4 milliárd tranzisztora is félelmetesen nagy szám volt, a GF100 3,2(!) milliárdja mellett viszont elbújhat. A dupla mennyiségű SP — mostmár CUDA mag — miatt valamivel 3 milliárd alá lehetett becsülni a kérdést, de az egyéb egységek alkalmazásának eredményeképp ez a szám még magasabb lett. Annyi bizonyos, hogy ennek a 3,2 milliárd tranzisztornak értelem szerűen energiára van szüksége, és ez a fogyasztás szempontjából semmiképp sem jó előjel. Érdekesség, hogy míg a GT200 területe 576 mm2 volt, addig a GF100 valamivel kisebb: 530 mm2. Felmerül a kérdés, hogyan lehetséges hogy a több mint dupla annyi tranzisztor kisebb méretű magba is "belefért".

Ebben a 40 nm-es csíkszélességnek nyilván kulcsfontosságú szerepe van, a gyártási folyamatok modernizálása hozzájárul a dologhoz, illetve ehhez a tényhez olyan szerkezeti változások is hozzájárulhatnak, mint például a memóriavezérlő. A GT200 512 bit szélességű busza nem tudott fennmaradni az utódban, a GTX 480-ban 384 bites crossbar vezérlő dolgozik, mely 6 darab 64 bites egységből jön létre (szálanként két ROP-blokkal), darabonként 256 MB GDDR5 RAM-mal, így a memória összmérete 1536 MB. Az NVIDIA a 480 darab CUDA magot úgynevezett Shader Multiprocesszor egységekre osztotta, és mivel minden ilyen blokk 32 darab CUDA core-t tartalmaz, így az előzetes információkkal ellentétben a GF100 nem 16, hanem 15 darab Shader Multiprocesszort (SM) foglal magában jelenleg.

A SM blokkok száma határozza meg a Texture Units, azaz a textúrázóegységek számát is, blokkonként négy darab teljesít szolgálatot, így a textúrázók összes mennyisége 60 darab. Mindazonáltal nem lenne a világ legnagyobb meglepetése, ha később — ahogy javul a kihozatali arány és tökéletesítik a gyártást — megjelenne egy, az eredeti terveknek megfelelő, 512 SP-s, 16 SM-es, 64 TU-s modell például GTX 485 néven.

Előnyös technológiai változtatások:

Dupla pontos számítási teljesítmény jelentős növelése: átlag PC-s felhasználási szempontból nem, de professzionális oldalról fontos és vonzó jellemző
Az architektúra elsőként kínálja a szimpla pontosságú számítási teljesítmény csaknem felét dupla pontosság esetén – fontos megjegyezni, hogy ez csak az architektúrára igaz, ugyanis a GeForce kínálat ilyen tekintetben korlátozásra került, és esetében ez a képesség nem a felére, hanem a nyolcadára csökken. Ez viszont a GeForce esetében azért nem kritikus kurtítás, mivel játékokban gyakorlatilag nem befolyásolja a kártya erejét
A fix és lebegőpontos számítások külön egységekkel történnek az ADD és MUL utasítások támogatásával kiegészítve, a lebegőpontos feldolgozó IEEE754-2008 szabványú, és birtokában van a MAD és az FMA instrukciók ismeretének
Az egyes SM-ekben található CUDA magok egyesített cache-t használnak
Megjelent az accelerated jittered sampling
A 768 KB méretű egyesített L2 gyorsítótár ECC-korrekciós képességekkel is rendelkezik, ez szintén a HPC-s versenyképességet növeli
Ray-tracinghez idomuló gyorsítótár felépítés és OptiX motor — HPC-s előny
A Z mintavételezők megduplázása miatt nagyobb sebesség nyolcsoros élsimítás mellett
16 fixfunkciós feldolgozó – tesszellálásban fontos szerepkörrel
Transparency supersampling (TrSS) élsimítási technika API-tól független támogatása
32×CSAA
Négy setup motort tartalmaz a chip, aminek köszönhetően a háromszög feldolgozási sebesség 4 tri/sec-re nőtt. Ez roppant előnyös magasabb szintű tesszelláció esetében

Hátrányos – kevésbé előnyös technológiai változások:

Streaming multiprocesszoronként egy textúrázó blokk, melyben négy szűrő és címző dolgozik, vezetékenként négy mintavételezővel — ez visszalépés a GT200-hoz képest, de az NVIDIA szerint az új egységek fejlettebbek lettek
A minden SM számára elérhető 768 KB méretű egyesített L2 cache-sel kapcsolatban esetenként felmerülhetnek felülírási problémák
A ROP blokkok hatékonysága nem fejlődött elegendő mértékben, ami nagyon magas felbontásokon teljesítménycsökkenést eredményezhet
A GF100 textúrázó kapacitása kisebb, mint a GT200-é
Anizotropikus szűrés tekintetében nem történt fejlődés

Érdemes rendbe tenni a dolgokat az órajelek tekintetében is. Régebben egyszerű volt a képlet, adott volt a grafikus mag és a memória órajele, tisztán, egyszerűen. Aztán megjelentek az egyesített shader architektúrájú vezérlők, és egy úgynevezett shader frekvencia is belépett a képbe. A GF100 esetén a "core" jelentős része ezen a frekvencián üzemel (GPC clock), mely a GTX 480 tekintetében 1400 MHz. A CUDA magok és a speciális feladatkörrel ellátott végrehajtók minden egyes órajelcikluson végeznek munkát, a fennmaradó elemek — raszter, textúrázók — viszont csak minden második órajelen. A GPU mag frekvenciája ezentúl csak a ROP-blokkok és a másodlagos gyorsítótár sebességéről informál. A GPU clock a GTX 480 modellnél 700 MHz. A harmadik érték a memórialapkák tempója, melyek fajtája mostmár az új GeForce-okon GDDR5, a GTX 480-on 3700 MHz-es effektív értéken dolgoznak. Néhány olvasónknak talán szemet szúrhat a működési frekvenciák viszonylag alacsony értéke, erre feltehetőleg főként a hatalmas fogyasztás és hőtermelés miatt van szükség.

Akad még egy fontos dolog, amiről eddig nem beszéltünk, de annyira egyértelmű, hogy mindenki tisztában van vele. A GF100 az NVIDIA első olyan architektúrája, amely teljeskörű támogatást nyújt a DirectX 11 változatú API-hoz, és birtokában az ahhoz kapcsolódó fejlesztéseknek:

Shader model 5.0
Multi-threading – többszálú adatfeldolgozás
DirectCompute 11 – fizika és mesterséges intelligencia
Hardware Tessellation – hardveres tesszelláció
Better Shadows – jobb árnyékok
HDR Texture compression – HDR textúratömörítés

NVIDIA VP4 Video processzor

A Fermiben újdonságot könyvelhetünk a video processzor tekintetében is, melynek természetesen a videolejátszásban van fontos szerepe. A GF100 a VP4 kiadású egységet tartalmazza, amely egyébként nem teljesen új, már a GeForce GT 220 / GT 240 / ION2 modellekben találkozhattunk vele. A VP4 motor támogatja a MPEG-4 ASP (MPEG-4 Part 2) (DivX, Xvid) hardveres dekódolását, mely fejlődésen ment keresztül az előző generációs VP3 motorhoz képest, amely a első szériás ION-alapú rendszerekben tesz szolgálatot.

A lényeg, hogy az MPEG-1 formátumon kívül bármilyen MPEG formátummal megbirkózik az NVIDIA.

Nagyszerű hír, hogy végre a HDMI audio problémája is megoldódott, végre nem kell S/PDIF kábellel szórakozni, a HDMI-vel orvosolva vannak gondjaink. Ez azt jelenti, nem kell többet lemondanunk a két csatornás LPCM-ről vagy az 5.1-es DD/DTS-ről. Azzal, hogy PCIe közvetíti a hangot, rengeteg egyéb formátum támogatására van lehetőség. A VP4 most már DD+, 6 csatornás AAC és 8 csatornás LPCM formátumokkal is megbirkózik. Igaz, maximalista olvasóink csalódottak lehetnek, a Dolby TrueHD és DTS Master Audio még nem támogatott.

NVIDIA 3D Vision Surround

Az új GPU-val új technológia is érkezett, az NVIDIA 3D Surround. A 3D Vision Surround lehetővé teszi, hogy három kijelzőn 3D-ben játsszunk. Eléggé hajaz ez a megoldás az ATI Eyefinity-jére, csak itt egy kis pluszként megkapjuk a 3D hatást, ami azért valljuk be, igen fontos tényező napjaink térhatású mániájában. Persze használhatjuk 2D-s módban is a funkciót, ám ami még jobb hír, egy egyszerű driverfrissítéssel a GTX 260, 275, 280, 285 és 295 tulajdonosok is alkalmazhatják a technológiát. Mindehhez szükségünk lesz két kártyára és három monitorra, és persze egy 3D Vision csomagra. Két kártyára, amely értelemszerűen darabonként rendelkezik két darab DVI kimenettel, különben nehézkes lenne három monitorra képet varázsolni, és ez igaz a GTX 470 és 480-ra is. Nem olcsó móka ez, de minden egyedülálló élményért súlyosan a zsebünkbe kell nyúlni, ezt megszokhattuk.

Forrás: Guru3D

A lényeg tehát, hogy az ATI Eyefinity NVIDIA-s megfelelője három monitoron jeleníti meg a képet, akár 3D-ben, de nem szükséges hozzá sem 3D monitor (ekkor persze 2D-ben működik) sem a legújabb kártyák, akár GT200 vagy GF100 kártyák SLI-vel összekötve is elegendőek.