區域與全域資料共享

在 RV770 上,AMD 工程師不僅優化架構以小幅增加裸晶上的空間-同時也借用了競爭者的幾個不錯概念。G80 為每個多處理器 (multiprocessor) 導入一個 16-KB 的小記憶體區域可供程式設計師完全控制-不同於快取。可在 CUDA 應用程式中取用的這個記憶體區域,可在執行緒之間共享資料。AMD 也以 RV770 導入自身版本的這個概念,它稱為 Local Data Share (區域資料共享),大小與競爭者的 Shared Memory 一模一樣。它也可讓 GPGPU 應用程式在數個執行緒之間共享資料,扮演類似的角色。RV770 則更進一步,提供稱為 Global Data Share (全域資料共享) 的記憶體區域 (也是 16 KB) 以利 SIMD 陣列之間的溝通。

紋理單元

雖然 ALU 並未經歷重大修改,紋理單元則是完全重新設計。這樣做的目的很明顯-就像 GPU 的其他部分,用意在於大幅提升效能的同時,又能儘可能維持裸晶的體積。AMD 工程師設定了野心勃勃的目標,以類似的裸晶體積增加 70% 的效能。為此,他們將心力著重在紋理快取上。L1 紋理快取的頻寬已增加到 480 GB/s。

但還不僅止於此,由所有 SIMD 陣列共享的 L1 快取拆解成 10 個快取記憶體,每個 SIMD 陣列分到一個,每一個記憶體區只儲存對應 SIMD 陣列的資料。現在共享資料儲存於於一 L2 快取內,這個完全重新設計的區域和 L1 快取之間是以 384 GB/s 頻寬溝通。為了降低延遲,這個 L2 快取置於接近記憶體控制器的地方,讓我們看看這些改良點在實際上的表現:

較之其直接競爭對手 9800 GTX,Radeon HD 4850 在單與雙紋理處理上顯現第一流的效能,同時也未犧牲原始填充率的效能-由於 16 ROP 擁有 40 個紋理單元,這是可以預期的 (簡而言之,過去他們稱之為「每個像素 2.5 個紋理單元」)。在另一方面,在三倍與四倍紋理處理上,RV770 很合理地無法與 G92 的 64 個紋理單元競爭 (等於「每個像素 4 個紋理單元」),但在所有層面上,RV770 證明比競爭對手更接近其理論效能值。


Google 廣告
廣告
Ads
的文章和評比
smartad