RTX 4060 Ti能成为40系的”甜点“显卡吗?

从英伟达GeForce GTX 10系开始,历经RTX 20系、RTX 30系……尾号为60的显卡,比如RTX 2060/S、RTX 3060/Ti一直被誉为该系的“甜点卡”。意思是性价比很高,是玩家们眼中的香饽饽。

究其原因,无外乎两点。一是这个档次的显卡,性能刚好能满足玩家在1080P分辨率下,游戏开全高画质的需要(根据Steam最新的硬件调查,5款最受欢迎的GPU中,有4款是60级别的,77%的玩家在1080P或更低的分辨率下游戏)。

第二个原因是60级别的显卡溢价不高,首发价通常在3000元以内,比它更好的70级、80级甚至90级显卡,虽然性能相应提升,但是价格通常是2倍、3倍甚至5倍溢价。所以如果用游戏帧率除以价格,得到的结果毫无疑问60级别是最高的。

去年10月,英伟达率先发布了Ada Lovelace架构的旗舰GeForce RTX 4090显卡,全新的SM计算单元、第三代RT-Core光线追踪核心、第四代Tensor-Core张量核心(AI加速)、超大L2级缓存、以及着色器执行重排序(SER)、DLSS 3等令人眼花缭乱的技术,都彰显着Ada Lovelace架构GPU的强大之处。

随后RTX 4080、4070的发布波澜不惊,反响平平。毕竟价格摆在那里,加上今年全球经济不景气、消费力下滑,大家都更看重花更少的钱,办更多的事。因此5月23日发布的这张RTX 4060 Ti,无疑是整个40系产品中,非常引人关注的一款产品。

RTX 4060 Ti还没发布就引发争议

然而,RTX 4060 Ti的规格刚泄露便引起了争议,原因在于这张卡使用了128bit显存位宽,而它的前代产品RTX 3060 Ti是256bit。这还没完,4060 Ti的CUDA核心,也就是GPU中最主要的计算单元,也比3060 Ti要少。还有,4060Ti竟然只支持PCIe 4.0 x8接口,而正常显卡接口是PCIe 4.0 x16,又被砍了一半。

仅从参数来看,4060Ti都是一款被“阉割”的产品,部分规格不升反降。那为何会这样?英伟达给出了这样的解释:“Ada Lovelace GPU架构采用全新SM设计,其运行时钟频率大幅提高,并且RTX 4060 Ti的存储子系统支持32MB L2缓存和8GB或16GB超高速GDDR6显存。L2缓存能降低对GPU显存交互的需求,从而提高性能和能效比。”

这句话可以理解为:因为Ada架构的SM单元设计与Ampere架构(RTX 30系)不同,运行频率也更高,因此即便整体数量有所减少,真实计算能力依旧是提升的;此外,Ada架构的存储子系统也和RTX 30系不同,其数据交换效率是由L2缓存和显存共同作用的,L2缓存大幅度增加的情况下,就不再需要那么多的显存带宽。

众所周知,GPU内核是所有计算发生的地方。在上面两张图中,左边绿色的阵列代表着GPU内核中一个个小的SM计算单元,每个SM都有一个超低延迟的L1数据缓存,紧挨其处理内核,使L1成为GPU寻找信息的首选。然而,由于L1缓存需要离内核非常近,它不可能非常大。

如果在L1缓存中找不到内核计算所需的数据,GPU将在L2数据缓存中寻找。L2缓存位于GPU芯片上(与GPU内核集成在一起),并通过一个非常高速的横梁系统连接到所有的GPC(图形处理集群),每个GPC包括多个SM。如果在L2缓存中找到了信息(被称作缓存命中,用H表示),那么我们就挑出这些数据并将其放入内核。

如果在L2缓存中找不到信息(被称为缓存缺失,用M表示),那么GPU将需要通过显存接口去到VRAM(显存)里面寻找。这将产生额外的工作量,降低了性能和功耗效率。要知道显存的读取效率是远低于L2缓存的,慢上几十上百倍不止。

所以在上面两张图中,前代GPU架构因为L2缓存较小,缓存缺失(M)较多,那这些缺失的数据就需要去到显存中找,增加了显存访问(V)的次数。而Ada架构下,L2缓存容量增加了16倍之多,大幅度提升了缓存命中率(H),M减少了,自然就不需要频繁访问显存,也就不需要那么高的显存带宽了。

换句话说,因为新架构的出现,以及新的制程工艺的进步,英伟达可以集成更多的晶体管在芯片里面,这令超大L2缓存成为可能。而更大的L2缓存不仅效率更高,同时更省电(减少了显存系统的负担),这是一个更优解。

NVIDIA工程师测试了32MB L2缓存的RTX 4060 Ti与仅使用2MB L2缓存的RTX 4060 Ti的特殊版本,在各种游戏和综合基准测试中,与2MB L2缓存的版本相比,32 MB L2缓存将显存总线流量平均降低了50%以上。

RTX 4060 Ti的重要特性

抛开显存位宽问题不谈,4060 Ti依旧保留了Ada Lovelace架构几乎全部的重要特性。

例如采用英伟达定制台积电4N工艺,结合全新设计的SM流处理器单元,可提供2倍于前代产品的能效比。

配备第3代RT Cores光追核心,支持着色器执行重排序(SER),能提供高达2倍的光追性能。

配备第4代Tensor Cores和OFA光流加速器,大幅提升了AI计算能力,为当下火热的AI应用提供动力,同时也带来了支持帧生成、可大幅提升帧率的DLSS 3技术。

新一代NVIDIA Studio 为3D渲染、视频编辑和直播带来极高的效率。NVIDIA Studio全套创意应用包括NVIDIA Omniverse、Broadcast、Canvas 和 RTX Remix等等。同时,NVIDIA Studio在生产力方面的生态环境是业界公认的标杆。

AV1 Encoders:提供支持AV1的第8代NVIDIA编码器,效率比H.264高40%,为主播、直播用户与视频会议应用带来更高效、更高质量的体验。

英伟达VSR技术,可通过AI技术大幅提升视频画面质量。目前支持RTX 40和30系列GPU,国内大多数视频网站,如B站、爱奇艺等均已经实现支持VSR。

此外,能效比方面也是4060 Ti的一大亮点,它的平均游戏功率仅有140W,远低于3060 Ti的197W,因此对散热和供电的要求也更低,主流玩家装机更加轻松。

RTX 4060Ti 8GB性能测试

当然,从历史经验来看,账面数据都只是参考,一切还是要实际测试来论证。

测试产品为七彩虹的iGame GeForce RTX 4060 Ti Ultra W DUO OC 8GB。Ultra这个系列是七彩虹的中端产品,也是走量的产品之一。其外观风格创意,来源于经典流行文化“波普(pop)”艺术风格,结合多彩渐变的类”虹彩“外壳和灯效设计,打造出新奇个性的新潮装备,是时下组装白色主题整机玩家,必不可少的选择之一。

显卡采用金属背板开孔设计,更利于风道流通。配备2个90mm双滚珠轴承风扇,其扇叶的外延是连在一起的,据说可以增加扇叶的稳定性,减少噪音。

散热模组面积还比较大,2*6mm热管配合上”回流焊“工艺,谈不上奢华,应付160W TDP足够了。

显卡挡板处依旧安置有iGame产品才有的一键超频按钮。

我们的测试分为四部分。

  1. 显卡的基准性能测试,3DMark的测试分数基本可以视为显卡的档次划分。
  2. 游戏性能测试:主要考察1080P和2K分辨率下的3A游戏性能,并且加入DLSS 3测试。
  3. AI性能测试,使用Stable Diffusion来考查4060 Ti的文生图效率。
  4. 能效比测试,主要考察4060 Ti相比3060 Ti是否更加省电且高效。

测试平台配置如下:

  • 处理器:AMD锐龙R9 7900X
  • 散热器:恩杰NZXT Kraken Z73
  • 主板:华硕TUF GAMING B650M-PLUS WIFI
  • 内存:金士顿Fury DDR5 16GB*2 6000MHz
  • 显卡:iGame GeForce RTX 4060 Ti Ultra W DUO OC 8GB
  • SSD:七彩虹CN700 Pro 1TB
  • 电源:鑫谷GM1000W ATX3.0金牌全模组
  • 机箱:NZXT H7 Flow DIY电竞机箱

3DMark测试

3DMark中的Fire Strike主要考察显卡的DX11性能,也就是相对较老的游戏引擎性能,三种模式分别对应1K(1080P)、2K(1440P)和4K(2160P)分辨率。从测试结果可以看出,4060 Ti三项得分分别领先3060 Ti约14%、10%和3%。更高分辨率下,显存容量(都是8GB)成为瓶颈,所以两者拉不开差距。而令人遗憾的是,相比RTX 3070,4060 Ti还是未能超越,1K和2K分辨率下差距在3%左右。

来到对显卡要求更高的Time Spy测试,该测试模拟最新的DX12游戏,并对光线追踪、曲面细分等新技术提供支持。4060 Ti成绩领先3060 Ti 13%和10%(Extreme模式),与RTX 3070的差距为2%和8%(Extreme模式)。可见,1K和2K分辨率才是4060 Ti最适合的分辨率,该分辨率下其综合性能领先3060 Ti约12%,无限接近于RTX 3070。

游戏测试

考虑到这张卡的显存容量只有8GB,因此游戏测试以1080P和1440P为主,并对支持DLSS 3的游戏加入DLSS帧生成测试成绩。

《赛博朋克2077》

《赛博朋克2077》在最高画质、不开启光追和DLSS情况下,4060 Ti的平均帧率无论1K还是2K分辨率,均领先3060 Ti约10%左右,与RTX 3070非常接近,这与前面基准测试成绩非常相近。

《生化危机4 重制版》

近期很火的《生化危机4重制版》,1080P最高画质下,4060 Ti帧率竟然领先了RTX 3070,与3060 Ti的差距增加到15%。而2K分辨率下4060 Ti成绩则与RTX 3070差不多,领先3060 Ti约13%左右。

《F1 22》

EA出品的《F1 22》游戏有着良好的游戏优化,实际测试中,4060 Ti平均帧率再次超过了RTX 3070,领先3060 Ti百分比分别为8%和11%。

《极限竞速:地平线5》

这是一款公认游戏优化做得非常好的游戏,4060 Ti实际游戏表现再次超越RTX 3070,与3060 Ti差距也进一步拉大到23%和18%。看来不同游戏对L2缓存的依赖程度不同,但总的来说,游戏优化做得越好的游戏,4060 Ti表现就越出色。

DLSS游戏测试

前面已经提到,DLSS 3是RTX 40系显卡的独门绝技,它包括三大功能“帧生成技术”、“超分辨率(DLSS 2技术)”和“NVIDIA Reflex(提供更低的游戏延迟)”。也就是说,DLSS 3包含了DLSS 2,但比DLSS 2还多一个帧生成技术,能通过插入AI生成的全新帧的方法来获得一倍帧率提升。

目前支持DLSS 3的游戏已经超过30款,而支持DLSS 2的游戏已经有300多款,其中包括Unreal Engine和Unity两大游戏引擎的支持,可见英伟达在游戏领域的影响力和生态圈发展相当迅猛。

我们选了3款比较典型的光追游戏进行测试,它们均支持DLSS 2和DLSS 3技术。在测试中,RTX 3060 Ti开启DLSS 2性能模式,4060 Ti则开启DLSS 3性能模式。结果不出意外,4060 Ti大幅领先3060 Ti,领先幅度最高达到95%,最低也有51%。可见,对于支持DLSS 3的游戏来说,4060 Ti的提升幅度至少也在50%以上,非常夸张。

AIGC性能测试

我们用Stable Diffusion来考查4060 Ti的文生图效率,有着第四代Tensor-Core张量核心的4060 Ti不出意外领先3060 Ti约20%。对于想学习AI的玩家,以及初创型从业者来说,后续英伟达将推出的4060 Ti 16GB也许更值得期待。

能效比测试

采用FurMark对显卡进行压力测试(满载),同时监测出显卡的功耗,得出如下数据。

可以看出,4060 Ti满载情况下功耗只有160W,在能效比上大幅领先上代RTX 30系产品。而与4060 Ti性能接近的RTX 3070功耗则要高出60W之多。这除了台积电4N工艺的帮助外,新的Ada架构,尤其是超大容量L2缓存对显存子系统负载的降低,功不可没。

另外值得一提的是,尽管七彩虹这张RTX 4060 Ti Ultra DUO是双风扇版本,但其实满载下的温度并不高,GPU最高温度仅为68℃,说明散热效果还是很给力的。再说这张卡发热量本就不高,因此对于4060 Ti这个级别的显卡完全没有必要去追求三风扇版本,当然喜欢超频和特别在意散热效果的用户除外。

写在最后,一定要看

这张七彩虹iGame GeForce RTX 4060 Ti Ultra W DUO OC 8GB显卡的发售价为3199元,目前已经在JD、天猫、抖音等平台开售。从颜值上来说,我个人非常喜欢,细节也非常精致,极适合组建白色主题的海景房主机。

从性能上来说,在不开DLSS 3的情况下,4060 Ti游戏综合性能领先3060 Ti 12%左右,而开了DLSS 3以后,性能提升50%以上,甚至100%都有可能,满足1080P或者2K分辨率下的3A游戏高画质需求完全没有问题。

除此之外,4060 Ti的能效比非常好,满载功耗也就160W,对电源的要求很低。同时,低功耗带来的低发热、低噪音等优势也非常显著。总而言之,4060 Ti的优点还是非常突出的,接3060 Ti的班成为装机主力不成问题,后续价格能到3000以内更值得入手。