RTX2080/RTX2080Ti顯卡全面評測 RTX20系電腦顯卡怎么樣?(4)

2018-09-20 09:29:27 來源:快科技作者:佚名 人氣: 次閱讀 1782 條評論

作為GPU顯卡行業的領頭羊,NVIDIA的新產品發布節奏多年來一直非常穩,探析一下這個革命性的Turing架構,以及全新的RTX 2080 Ti、RTX 2080兩款高端型號到底表現如何。...

四、架構解析之Tensor核心、AI加速

NVIDIA在伏特架構上引入了全新的專用處理模塊Tensor Core,也就是張量計算核心,重點用來支持深度學習、高性能計算(也是晶體管大戶)。

圖靈架構則是在游戲卡上引入Tensor Core,同時針對游戲圖形應用做了大量的調整優化,尤其是浮點精度方面。

Tensor的意思是張量,不同于我們常見的標量(零維)、矢量(一維)、矩陣(三維),擁有三維或者更高維度,簡單地說就是一個數據容器,可以包含多個維度的數據。

S9bae77e1-7c30-4854-8b2c-8cf3d6562c1c.jpg

現在火熱的深度學習,就運用了超大規模的數據運算,其中就經常會用到矩陣融合乘加(FMA)運算,Tensor核心就是為這種矩陣數學運算專門服務的。

它可以對兩個4×4 FP16浮點矩陣進行相乘操作,然后將結果加入到另一個4×4 FP16/FP32浮點矩陣中,最終輸出新的4×4 FP16/FP32矩陣,這叫做混合精度數學運算,因為輸入矩陣是半精度,結果則可以達到全精度。

每個時鐘周期內,圖靈架構的Tensor核心可以執行64個FMA運算,從而大大加速矩陣運算,可用于新的神經實時圖形渲染、深度學習訓練和推理。

S41d06637-9820-49f3-b3f3-b13f8685d84b.jpg

圖靈架構每個SM陣列里有8個Tenor核心,總計576個,完整支持114TFlops FP16浮點運算(每秒114萬億次),同時支持228TOPS INT8、455TOPS INT4整數運算(每秒228億次、455億次),后者是伏特架構里沒有的。

NVIDIA把看起來高深莫測的Tensor核心放到游戲卡里,顯然不是做專業運算的,其深度學習能力也是為游戲服務的,結合新的神經圖形框架(Neural Graphics Framework),簡稱NGX,可以在游戲中實現DLSS深度學習超采樣抗鋸齒、AI Super Rez超級分辨率、AI Slow-Mo慢動作、AI InPainting等等。

這些計算繁瑣、資源消耗巨大的操作,在以往也可以實現,但會付出很大的代價,效果也不盡如人意,如今有了新的Tensor核心,就可以建立屬于GPU核心自己的DNN深度神經網絡,將AI融入游戲。

Sbc27fada-1fee-4456-b8ee-1f5436715ccb.jpg

NVIDIA已經向游戲引擎開放NGX API,將其融入其中,實現底層加速。

另外和很多AI應用類似,NVIDIA GeForce Experience軟件的作用也非常重要,它會自動匹配顯卡型號,從云端訓練的AI模型哪里下載相應的NGX軟件包,并定期更新,達到越用越好、甚至是因人而異的效果。

AI Super Rez:有點類似高清視頻中常見的Up Scaling,但是引入了人工智能和深度學習之后,可以實現近乎“無損放大”,原來的畫面分辨率放大2倍、4倍乃至8倍,仍然清晰銳利。

AI Slow-Mo:超級慢動作我們并不陌生,現在不少高端手機都支持240FPS、480FPS乃至是960FPS的慢動作視頻錄制。圖靈架構可以對普通的30FPS視頻進行智能插幀運算,得到240FPS/480FPS的慢動作視頻,也就是說你不需要專門的高幀率攝像頭,就可以獲得很流暢的慢動作視頻。

Sd022c22d-6862-4152-9b2d-fff1ef2ef2f3.jpg

AI InPainting:可以抹掉畫面中不需要的內容,也可以智能補全缺失的內容,完全超越PS摳圖的存在。它同樣來自現實中大量真實世界圖片的訓練推理。

其實,慢動作和修圖這兩項在之前就曾有相關報道,顯然NVIDIA在硬件、算法兩個方面都實現了真正的突破。

S7d2f6daa-91d4-40e5-99ef-926715628704.jpg

接下來就是重中之重的DLSS(深度學習超采樣抗鋸齒)。

我們知道,傳統的光柵化圖形渲染畫面會存在各總各樣的鋸齒(狗牙),所以GPU廠商都會在后期處理中加入各種各樣的AA抗鋸齒技術,但傳統抗鋸齒都是由GPU去運算的,效果參差不齊不說,最關鍵的是會消耗大量的GPU資源,開啟之后讓游戲卡得沒法玩再正常不過了。

DLSS深度采樣超采樣抗鋸齒則和傳統抗鋸齒技術走了一條完全不同的路,它是在NVIDIA超級計算機上進行訓練,而不再消耗GPU本身的資源。

針對每一款游戲,NVIDIA會在運算建立對應的訓練神經網絡,收集大量的64x超采樣數據,對像素點進行64次偏移著色合成輸出,理論上可以獲得近乎完美的抗鋸齒平滑效果,同時還會對比和普通渲染畫面之間的差異,調整網絡權重,反復迭代,最后獲得更合理的抗鋸齒畫面效果,還可以避免傳統TAA時間抗鋸齒的運動模糊等問題。

云端訓練完成后,NVIDIA會通過GFE軟件將成果分發給玩家,再用到游戲中,而且隨著游戲運行得越多,DLSS學習效果就會越來越優化,甚至每個玩家都可以得到屬于自己的不同效果。

當然了,這也意味著NVIDIA需要和每一款游戲或者每一個游戲引擎合作,去進行專門的優化,還是相當費時費力的,不過考慮到NVIDIA在游戲行業廣泛深入的合作關系,這方面倒不必擔心。

尤其是隨著合作優化的深入,NVIDIA完全可以建立起屬于自己的技術壁壘,讓對手望塵莫及,進一步帶動大量玩家忠實地跟隨NVIDIA。





更神奇的是,DLSS因為基本不需要消耗GPU本地資源,因此可以大大釋放GPU性能,讓其專心渲染游戲,提升性能。

比如根據官方數據,Epic的《滲透者》(Infiltrator)游戲里,4K分辨率下1080 Ti開啟TAA平均幀率還不到40FPS,2080 Ti開啟DLSS則能達到80FPS,提升了整整一倍!

游戲支持方面也不是啥大事兒,RTX 20系列發布之初就有16款游戲(PPT上寫錯了),現在產品還沒完全上市就已經增加到25款。

首發名單如下:

- 《方舟:生存進化》 (Ark: Survival Evolved)

- 《原子之心》 (Atomic Heart)

- 《無畏》 (Dauntless)

- 《最終幻想XV》 (Final Fantasy XV)

- 《破碎之地》 (Fractured Lands)

- 《殺手2》 (Hitman 2)

- 《奈恩群島》 (Islands of Nyne)

- 《逆水寒》 (Justice)

- 《劍網3》 (JX3)

- 《機甲戰士5:雇傭兵》 (Mechwarrior 5:Mercenaries)

- 《絕地求生》 (PlayerUnknown’s Battlegrounds)

- 《遺跡:灰燼重生》 (Remnant: From the Ashes)

- 《英雄薩姆4:星球惡棍》 (Serious Sam 4: PlanetBadass)

- 《古墓麗影:暗影》 (Shadow of the Tomb Raider)

- 《鍛造競技場》 (The Forge Arena)

- 《少數幸運兒》 (We Happy Few)

新增名單如下:

- 《暗黑血統3》(Darksiders 3)

- 《飛向月球:財富》(Deliver Us The Moon: Fortuna)

- 《恐懼群狼》(Fear the Wolves)

- 《地獄之刃:塞娜的獻祭》(Hellblade: Senua's Sacrifice)

- 《KINETIK》

- 《前哨零》(Outpost Zero)

- 《超殺:行尸走肉》(Overkill's The Walking Dead)

- 《人渣》(SCUM)

- 《風暴奇兵》(Stormdivers)

這其中有5款游戲同時支持RTX光線追蹤和DLSS抗鋸齒技術,分別是《原子之心》、《逆水寒》、《劍網3》、《機甲戰士5:雇傭兵》、《古墓麗影:暗影》。

您可能感興趣的文章

相關文章