您的位置:首页 >评测 >

RTX 3080 Ti诞生所经历的曲折 NVIDA GeForce RTX 3080 Ti首发评测

2021-06-04 14:32:20    来源:快科技

一、前言:它的使命就是干掉RX 6900 XT!

RTX 3080 Ti诞生所经历的曲折可谓一言难尽!在NVIDIA最初的计划中,RTX 3080 Ti拥有20GB的大容量GDDR6X显存,显存位宽和带宽与RTX 3080相同。不过谁也不曾料到AMD RDNA2构架的强悍远超出NVIDIA以及所有玩家的事先预料。

特别是RX 6900 XT的性能与NVIDIA顶级的RTX 3090相差无几,但是售价仅有7999元,而后者则是11999元。

很显然,按照原定计划,显存带宽被大幅阉割的RTX 3080 Ti对上RX 6900 XT时并无必胜的把握。为此,NVIDIA重新设计了RTX 3080 Ti核心,虽然显存容量减少到了12GB,但是完整的384Bit位宽得到了保留,显存带宽远超RTX 3080。

NVIDIA赋予RTX 3080 Ti的使命就是干掉RX 6900 XT!

完整的GA102共有7组GPC,每组GPC有6组TPC加16组ROP单元,总计是42组TPC、共计10752个流处理器、112个ROP单元、

同样的完整的GA102核心的每个TPC有2组SM单元、2个RT Core、8个Tensor Core、8个纹理单元。

而RTX 3080 Ti所使用的GA102-225-A1核心依旧保持了7组GPC,112个ROP得以全部保留。不过NVIDIA在其中的2组GPC中分别屏蔽掉了一组TPC。

因此它只有40组TPC、算下来就是10240个流处理器、320个纹理单元、320个Tensor Core。

RTX 3080 Ti GPU-Z参数

RTX 3080 Ti的详细规格如下:

关于安培GPU的构架此前我们已经有过详细的介绍,在这里我们化繁为简,将其做了简单的归纳如下:

1、整合INT32与FP32单元

图灵的INT32单元只能做整数运算,闲置率很高。为了解决这个问题,提升INT32单元的利用率,NVIDIA改进了INT32单元,使之不仅可以运行整数运算,也能进行单精度浮点运算,相当于整合了INT32和FP32单元,因而使得以FP32单元计数的GPU流处理器数量直接翻倍,单精度浮点性能也同样翻倍。

2、RTX IO技术

这项技术可以让游戏在加载时完全规避CPU,直接将游戏数据包从SSD写入到GPU的显存中,由GPU替代CPU进行数据解包。GPU的整数/浮点性能数十倍于CPU,可以瞬间完成数据的解包工作。

不过这项技术需要微软DirectStorage API的支持,预计2022年会正式开始应用。

3、NVIDIA DLSS:

从游戏内的物理和动画模拟到实时渲染和AI增强的直播功能,AI正在引发一场游戏革命。借助GeForce RTX GPU的专用AI处理器Tensor Cores,NVIDIA DLSS在提升帧率的同时,生成精美、清晰的游戏图像,为玩家提供更大的性能空间,以最大限度地提高光线追踪设置并提高输出分辨率。现在已有超25款游戏支持DLSS,并且数量还在逐月递增。

4、NVIDIA Reflex:降低输入延迟

NVIDIA Reflex技术可以降低系统延迟(或称输入延迟),使游戏的响应速度更快,使玩家在多人竞技游戏中占据优势。

在传统的PC体系中,虽然强力的显卡可以轻松渲染出足够高的帧率,但这些游戏画面都需要CPU进行调度分配,不合理的调度会使得CPU手忙脚乱,玩家鼠标发出的指令其实无法第一时间到达游戏世界,这个过程我们称之为延迟。

为了降低系统延迟,帮助GPU渲染的图像能够第一时间迅速呈现在屏幕,NVIDIA Reflex技术也随着RTX 30系列的发布而登场。NVIDIA Re flex SDK被直接植入到了游戏,

NVIDIA Reflex SDK能够更好的控制CPU的运行速度,允许及时向GPU提交例如点击鼠标的关键动作,同时还确保GPU没有间断运行,保证画面的流畅输出。

而最新发布的360Hz刷新率的电竞G-Sync显示器还内建了延迟分析器,可以让你更系统化的量化电竞游戏中的延迟数据。 NVIDIA Reflex技术是职业电竞选手和精英玩家唯一专业的选择。

5、第二代RT Core

光线追踪是一种在计算机世界中完美再现真实世界的渲染技术,它的算法符合物理规律,不会像传统光栅化渲染那样容易产生各种问题。比如一个典型的例子就是光栅化算法无法正确处理焦散这种光学现象,炎热的夏天阳光透过游泳池在水底投射得斑纹光影就是典型焦散,传统光栅化算法使用的是动态贴图,看起来虽然也像那么回事,但是无法和玩家互动,例如当角色进入泳池游泳就无法进行正确处理渲染,画面往往出现不合理渲染效果,或者游戏中的阳光位置变化,天气变化对泳池光影的影响也无法正确表现。而光线追踪技术可以实时自动的演算焦散效果,让画面更加真实。

但是光线追踪最大的问题是需要消耗巨大的计算资源,显示器就像一块窗子,虚拟的每一条光线都会穿过屏幕像素直达场景,并从存储器中查找会被击中的三角形,而且每条射线都要做这个动作,如果希望效果好的话,每像素可能还需要若干条甚至上万条射线。

如果场景里有几千万个三角形,逐个三角形做遍历求交,就需要消耗大量的高速缓存和总线带宽,计算单元需要浪费大量时间等待三角形数据传输。

RTX 30系列显卡基于新一代NVIDIA Ampere架构,拥有第二代光线追踪计算核心,相比于第一代光线追踪计算核心,RTX 30系列的光线追踪核心性能足足提高了1.7倍。而且硬件上特别支持对运动模糊场景的光追效果计算。从而带给玩家更流畅的光线追踪游戏视觉体验。

特别是体验《赛博朋克2077 》这样支持光线追踪技术的新一代游戏,RTX 30系列能够轻松驾驭赛博朋克的颓废风格,流畅渲染都市夜晚霓虹灯下,大量的赛车,追逐,打斗等运动场景。为玩家带来最极致的视觉体验。

6、第三代Tensor Core

NVIDIA 自 Volta架构开始,在GPU中增加了针对深度学习加速设计的矩阵运算单元,并称之为 Tensor Core(张量计算核心)。

在图灵架构里,NVIDIA 引入了第二代 Tensor Core,而到了RTX 30系列所采用的Ampere架构,则进化到了第三代Tensor Core。

深度学习技术在图形图像各个领域都有着价值巨大的应用,而在游戏体验中则是被称为深度学习超采样的DLSS 技术。最新一代的DLSS 能够使得游戏画质极大提升,细节和锐度媲美、甚至超越原生分辨率。

DLSS 本质是一种图像重建算法,其加原理其实也很简单。开启DLSS后,游戏引擎中的诸如动态光源、阴影的计算,封闭空间环境遮挡(SSAO)、屏幕空间反射(SSR),甚至实时光线追踪。都会被降低到1/2甚至1/4像素的低分辨率下运行,GPU的负担大幅度减轻。渲染得出的最终场景会通过Tensor Core结合DLSS进行高分辨率重建,从而用较低的GPU负载获得流畅且画质极佳的游戏体验效果。

和图灵相比,安培的张量性能可以最高达到 2.7 倍。这使得RTX 30系列可以轻松使用DLSS技术在4K 甚至8K分辨率下,依然带给玩家最极致的光线追踪游戏体验效果。

7、GeForce Experience功能

所有NVIDIA GeForce GPU都能从GeForce Experience中获益,数以千万计的玩家都在使用该工具来优化游戏设置、记录和上传游戏、直播游戏、拍摄屏幕截图,以及下载和安装Game Ready驱动。

8、一键自动式GPU调校

GeForce Experience现已支持GPU调校,它能使用高级扫描算法自动创建GPU超频配置文件。

9、增强型游戏内监控悬浮窗

GeForce Experience强大的游戏内悬浮窗功能现已能让玩家查看更多详细的性能统计信息、温度和延迟指标,包括 NVIDIA Reflex的延迟分析器统计信息。

二、外观:与RTX 3080长一样

公版RTX 3080 Ti的外形设计与RTX 3080/3090几乎一模一样,

正面有一个风扇,主要用于给核心和显存散热。

背面有一个风扇,装在机箱里面时,风是直接往机箱下面吹,由于没有PCB的阻挡,即便是在较低的转速下,风扇也能够更加轻松的吹透散热鳍片。

背面的风扇,与正面的风扇一样,支持智能启停。

3个DP1.4与1个HDMI 2.1接口。

顶部的12Pin供电接口。

拆下来的散热器,与GPU接触的底座采用了大面积均热板设计,另外一边的风扇则有4条热管进行连接。

PCB板与公版RTX 3080没有太大区别,同样是18相供电电路。

PCB板的背面,由于空间原因,供电电容被放在了这一面,每一相供电竟然配备了3个高成本的钽电容。

GA102-225-A1核心,10240个流处理器,核心面积628.4mm2,拥有283亿个晶体管。

核心周围是美光的GDDR6X显存,一共有12颗,单颗容量1GB,总容量12GB。频率19GHz,位宽384Bit,显存带宽913GB/s。

三、测试平台:全核5.2GHz的i9-10900K + 皇家戟4000MHz C15 32GB内存

暂时我们还是选择了i9-10900K处理器平台。为了降低CPU的瓶颈效应,我们将i9-10900K的核心频率超频到了5.2GHz,Ring频率超频到了4.8GHz。

主板用的是微星MEG Z590 ACE战神。这款主板采用16+2+1相数字供电,每相供电都配备一颗90A DrMOS。,可以轻易提供超过1000W的输出功率。

内存必须32GB了,目前很多3A大作在16GB内存下运行时会出现各种问题。

芝奇皇家戟F4-4000C15D 8GBx4套装,不仅拥有4000MHz的频率,15-16-16-36的时序也是低的吓人,比绝大部分3000MHz频率的内存都要低,不过默认电压1.5V也算是比较高的了。

长江存储致钛PC005 Active 512GB SSD,顺序读写速度分别为3500MB/s,2900MB/s。不依赖模拟SLC缓存也能保持550MB/s的稳定写入速度,同时寿命远远高于市面上绝大多数TLC SSD。

酷冷至尊P360 ARGB水冷散热器,应该是市面上颜值最高也最易安装的水冷散热器,可以很轻松的压制5.2GHz的i9-10900K处理器。

ROG THOR 1200W白金牌电源。

此次将会做RX 6900 XT解锁400W功耗的极限超频测试,一款顶级电源是必须的。

全模块化设计,单路12V输出电流100A,12V输出功率达到了1200W。

华硕玩家国度PG27UQ ROG 27英寸IPS电竞显示器。

4K UHD(3840*2160)分辨率、4ms响应时间、144Hz刷新率、G-Sync 技术、IPS+量子点面板、10bit色彩、DisPlay HDR1000认证。它依旧是目前市面上顶级的电竞显示器。

四、理论性能测试:较RTX 3080强10%

1、3DMark

在2K分辨率3DMark Fire Strike Extreme测试中,RTX 3080 Ti图形分数达到了22909分,核心温度最高72℃,核心运行最高频率为1965Hz,最高风扇转速1761RPM,最高功耗354W。

在4K分辨率3DMark Fire Strike Ultra测试中,RTX 3080 Ti图形分数达到了11913分,核心温度最高73℃,核心运行最高频率为1965MHz,最高风扇转速1798RPM,最高功耗354W。

在3DMark测试中,与RTX 3080相比,RTX 3080 Ti在2K分辨率下快了7%,4K分辨率下有9%的优势。

与RTX 3090相比,RTX 3080 Ti在2分辨率下均存在着2%的差距。

2、3DMark Time Spy

在2K分辨率3DMark Time Spy测试中,RTX 3080 Ti图形分数达到了19535分,核心温度最高77℃,核心运行最高频率为1920MHz,最高风扇转速2021RPM,最高功耗354W。

在4K分辨率3DMark Time Spy Extreme测试中,RTX 3080 Ti图形分数达到了9607分,核心温度最高77℃,核心运行最高频率为1905MHz,最高风扇转速2003RPM,最高功耗353W。

在3DMark Time Spy测试中,2K分辨率下,RTX 3080 Ti可以持平RTX 3090,比RTX 3080快了10%。

不过到了4K分辨率,RTX 3080 Ti与RTX 3090依然有4%的差距,比RTX 3080则要强9%。

五、2K分辨率游戏性能测试:与RTX 3090仅差了1%

综合测试数据来看,RTX 3080 Ti在2K分辨率下能够持平AMD RX 6900 XT,比RTX 3090则是弱了1%,比RTX 3080则要快了7%,比上代的RTX 2080 Ti快了34%。

虽然RTX 3080 Ti并不是为1080P分辨率而诞生的显卡,不过我们还是测试了这个分辨率下的帧率,详见下表!

1080P分辨率完全无法发挥RTX 3080 Ti的性能,即便是5.2GHz的i9-10900K也依旧存在着绝大的瓶颈。

在这个分辨率下,RTX 3080 Ti比RTX 2080 Ti快了30%,比RTX 3080快了5%,和顶级的RTX 3090则有1%的差距,与AMD的旗舰RX 6900 XT相比,则落后了3%。

六、4K分辨率游戏性能测试:比RX 6900 XT强5%

1、APEX英雄

测试数据汇总如下:

在4K分辨率下,RTX 3080 Ti的性能与RTX 3090仅差了2%,比RTX 3080快了9%,比RTX 2080 Ti快了44%。

与AMD的旗舰RX 6900 XT比起来,RTX 3080 Ti也能够领先5%。

七、温度与功耗测试:烤机时显存轻松过100度

1、温度测试

使用Furmark来对七彩虹RTX 3080 Ti进行烤机测试,测试是室温为28度。

Furmark的参数设定为1920*1080分辨率、0AA。运行22分钟之后, RTX 3080 Ti的温度稳定在73度附近,Hot Spot温度则有80度,不过显存温度轻松达到了100度。显卡的功耗稳定在330~350W区间跳动。

2、功耗测试

分别测试待机、与Furmark烤机功耗,另外我们还会加上游戏功耗测试,测试的游戏项目为《巫师3》。

测试所用的电源为ROG THOR 1200W白金牌电源。

在5.2GHz i9-10900K + 皇家戟F4-4000C15D 8GBx4平台上,几款显卡的待机功耗都差不多,在90W左右。

至于满载功耗,RTX 3080 Ti与RTX 3090比较接近。不过虽然2者的TDP同为350W,但是记得是由于RTX 3080 Ti的性能稍低,对系统的需求要少,整体功耗还是比RTX 3090要低几瓦。

八、光线追踪测试

为了方便与此前的测试结果进行对比,我们依然选择《堡垒之夜》、《德军总部:新血脉》、《古墓丽影:暗影》、《光明记忆:无限》、《控制》、《战地5》这6款游戏进行光线追踪与DLSS性能测试。

测试成绩汇总如下:

RTX 3080 Ti的光追效率与其他图灵GPU维持一致,开启光追之后,帧率性能会从204%掉到100%,跌幅约为52%。

在开启DLSS之后,性能则能提升84%。

九、总结:专为游戏玩家打造的顶级游戏GPU

本次测试内容简述如下:

1、挖矿

按照NV的说法,RTX 3080 Ti是在驱动、硬件以及BIOS三个层面同时对挖矿做了限制,想要全部破解几乎不可能。不过考虑到RTX 3090以太坊哈希算力值高达120MH/s,RTX 3080 Ti带宽与之接近,就算被限制了一半挖矿能力,应该也还有50~60MH/s的算力。

不过我们测试时,只要系统检测到挖矿行为,电脑就会立刻黑屏。也就是说,RTX 3080 Ti完全无法挖矿!

2、超频

此前RTX 3090的超频能力令人刮目显卡,核心可以超200MHz,显存则可以从19.5Gbps超频到21Gbps。

但是我们对公版RTX 3080 Ti反复进行超频测试,发现显存频率几乎无法提升,因此放弃了超频。

3、游戏性能

其实RTX 3080 Ti的规格参数就能知晓其性能,实际测试的数据也大致如此。

RTX 3080 Ti的性能非常接近于RTX 3090,二者仅在4K分辨率下有2%的差距,在1080P和2K分辨率下,差距则只有1%。

与AMD的旗舰RX 6900 XT相比,RTX 3080 Ti在1080P分辨率下落后对手3%,2K分辨率持平,4K分辨率则能反超5%。考虑到旗舰显卡的使用环境,整理来说,RTX 3080 Ti还是强于RX 6900 XT。

4、功耗

RTX 3080 Ti与RTX 3090的TDP同为350W,二者的功耗表现也非常接近。在运行《巫师3》时,整机功耗接近500W。如果其他队CPU性能需求稍高的游戏,整机功耗还会进一步提升。

因此对于电源的选购,最好是单路750W以上的金牌电源,或者900W以上的双路电源。

5、Resizable BAR

RTX 3080 Ti是继RTX 3060之后,NVIDIA第二款正式支持Resizable BAR技术的GPU。此前我们曾测试过RTX 3060开启Resizable BAR后的帧率,结果就是绝大多数游戏都会出现帧率下降的情况。

不过在新版GeForce 466.54驱动的支持下,这一情况在一定程度上有了好转,有相当多的游戏在开启Resizable BAR技术之后,帧率都会有一些提升,不过还是有不少游戏会出现帧率下降的情况。

这一点Resizable BAR与AMD的Smart Access Memory (SAM)还存在着一定的差距。

6、售价

RTX 3080 Ti的官方的售价是8999元,与上代的RTX 2080 Ti持平,不过性能上则有了40%左右的提升。在被限制了挖矿算力之后,矿工基本上都会无视这款显卡了。但由于大量的游戏玩家这边还有大量的需求空缺,预计市面上的非公RTX 3080 Ti会出现供不应求的情况,想要到手可能需要加价1000~2000元。

相关阅读