填充率測試結果
幾何著色引擎
Nvidia前代Direct3D 10繪圖處理器的幾何著色引擎效能並不特別出色,原因是內部緩衝區大小不足。必須注意的是,根據Direct3D 10規格,針對每個輸入的頂點,幾何著色引擎最多可產生1,024個單精度浮點值。因此在形狀明顯複雜時,緩衝區很快就會被資料塞滿,讓單元無法繼續運算。在GT200中,緩衝區的大小擴充到6倍,在某些狀況下可大幅提昇效能,就如我們看到的結果。為了充分運用擴大的緩衝區空間,Nvidia還必須處理幾何著色執行緒的排程問題。

在第一個著色引擎Galaxy上,效能提升幅度相當有限,只有4%。另一方面,Hyperlight的提升幅度則高達158%以上,充分顯示這種著色引擎的可能改進,各項表現都跟製作方式及電能消耗有關(也就是針對每個輸入頂點可產生的浮點值數目)。因此GTX 280在這個著色引擎方面已經拉近了差距,相當接近3870 X2。
接下來請看Rightmark 3D Point Sprites測試(使用Vertex Shading 2.0)。

我們為什麼要在幾何著色引擎的部分談到這項測試呢?這是因為從Direct3D 10開始,point sprite是由幾何著色引擎處理,這也說明了9800 GTX和GTX 280兩者的效能為什麼差了一倍!
各種各樣的改進
Nvidia也從幾方面對架構進行了最佳化。轉換後快取記憶體的容量增加了。這個快取記憶體的功能是避免在儲存頂點著色引擎的結果時,必須以有索引的原始資料或三角形條紋重複轉換同一頂點好幾次。由於像素管線數目增加,Early-Z rejection中的效能也有所改進。。GT200在套用到像素著色引擎之前,每個循環最多可排除32個有遮罩的像素。Nvidia同時還發表,他們改良了驅動程式與繪圖處理器前端之間的資料與指令交流。
Google 廣告