一个月前,IT之家评测了英伟达 GeForce RTX 4090,它巨大的性能提升和 DLSS 3 的 AI 之力,无疑改变了 GPU 界的游戏规则。在发布会上除了 RTX 4090 外,还发布了一张 RTX 4080 16G,同样基于 NVIDIA Ada 架构打造,各方面数据都更为均衡,更适合高端游戏玩家。
IT之家也是提前收到了 RTX 4080 16G 的公版显卡,在本次测试中,我们依旧将全部配置拉满,看看这款高端显卡究竟能发挥 NVIDIA Ada 架构的几成功力。具体配置如下:
(相关资料图)
外观设计:依旧冷酷,更为紧凑
相比于 RTX 4090 力量感十足的外形,GeForce RTX 4080 16G 给人的是一种“西装暴徒”的克制感,它没有像 RTX 4090 那样做夸张的跃肩设计,整体是一张标准的 3 槽的显卡,对于机箱的兼容性会更好一些。
GeForce RTX 4080 16G 的 TGP 功耗为 320W,为了承载更高的功耗,供电接口变成了 16 Pin 的 ATX 3.0,包装内附赠了 3 个 8 Pin 转 16 Pin 的转接线。比 RTX 4090 自带的 4 个 8Pin 转 16Pin 要少一个,对电源的需求也就没那么大了。默频的话,配个 750W 以上的足额电源就够了。
GeForce RTX 4080 16G 整体造型继承了与 RTX 30 系列公版 GPU 几乎一致的设计,在银黑相间的装甲中,是密集的金属散热装甲与两个巨大的风扇。一前一后形成了垂直风道。
顶部的 GEFORCE RTX 标志在点亮后也会随之发光。
与 RTX 4090 一样,由于显卡重量相对比较重,所以在显卡侧面提供了显卡架螺丝孔,打开盖板即可加装显卡支架。
GeForce RTX 4080 16G 在接口依旧是标准的 3 个 DP 1.4+1 个 HDMI 2.1,可以支持最高 8K 分辨率的显示器。
技术解析:核心能效暴涨,助力 AI 跃进
我们手中的 GeForce RTX 4080 16G 是基于目前定位第二高的 AD103 核心打造的,里面有 7 组 GPC,其中 4 组是完整的。内部共有 9728 个 CUDA 核心、304 个 Tensor 核心、和 112 个 ROP 单元,核心规模与上一代 RTX 3090 比较接近。
GeForce RTX 4080 16G 的核心频率是 2210-2510MHz,相比上代同样有着巨大的提升。显存方面则是一步到位来到了 256-bit 位宽的 16GB GDDR6X。显存的大规模提升使得 4K 游戏中再无爆显存之忧,同时也能兼顾当下流行的 AI 生产力工作。出厂预设最大设计功耗为 320W,和上一代 RTX 3080 10G 版保持一致,考虑到它性能的巨大提升,这一代 RTX 4080 的能效比应该相当爆炸,后面的烤机环节我们会进行深入测试。
GeForce RTX 4080 16G 的架构当然是最新款的 NVIDIA Ada 架构,它基于 TSMC 4N NVIDIA 定制工艺打造,因此实现了高达 2 倍的性能功耗比飞跃。流式多处理器的吞吐量超过上一代产品 2 倍。第三代 RT Cores 的有效光线追踪计算能力是上一代产品 2.8 倍。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的 Tensor 处理性能,超过上一代的 5 倍。SER 为光线追踪带来最高可达 3 倍的性能提升,整体游戏性能提升可高达 25%。
反映到具象的功能上,新架构带来了不少的新功能:由于 Ada 光流加速器的引入,使得 DLSS 3 能够预测场景中帧和帧之间的运动变化,实现 AI 插帧,在保持图像质量的同时提高帧率。同时支持第八代 NVENC 双 AV1 编码器的应用,不仅可以将视频导出时间缩短,还能拥有更好的画质。
理论性能:跑分几乎翻倍,提升令人惊艳
前面我们说到 RTX 4080 的能效比很出色,那么实际测试结果如何呢?我们马上进行理论测试,首先是单烤甜甜圈,烤机 15 分钟后,核心温度稳定在 64.6℃左右,功耗稳定在 310W 左右,符合 320W 的 TGP。最关键的是风扇也远没有满载,仅仅只运转了 45% 左右,因此使用起来相当安静。实际使用中,如果配 i7 / i9 这样等级的处理器的话,750W 的足额电源绝对够用了。
而在实际游戏中,是远远达不到 TGP 的 320W 功耗的。我们使用英伟达 FrameView 工具总结了几款有代表性游戏的实际功耗图,在游戏中基本都位置在 270-300W 左右,看来 RTX 4080 核心的能效比是相当出色的。
接下来进行 3DMark 压力测试,这个测试可以检测连续跑分下显卡性能有没有发生下降,一般 97% 以上才算合格的显卡。实测 GeForce RTX 4080 16G 的得分为 99.6%,性能释放极其稳定。
在 3DMark TimeSpy DX12 测试中,GeForce RTX 4080 16G 显卡分数达到了 26552 分,作为对比,GeForce RTX 3080 10G 版的分数为 17306 分,RTX 3090 的分数为 18981 分,RTX 3090Ti 为 21862 分。也就是说 GeForce RTX 4080 16G 全面超越了上代 RTX 30 系列的所有显卡,与上代同等级的 RTX 3080 相比提升了 50%。
在 3DMark Fire Strike DX11 测试中,GeForce RTX 4080 16G 显卡分数达到了 53379 分,作为对比,GeForce RTX 3080 10G 版的分数为 40932 分,GeForce RTX 3090 的分数为 46045 分,GeForce RTX 3090 Ti 为 52630 分。这个分数意味着它也可以 4K 分辨率下流畅运行所有的游戏,有了 DLSS 3 的加持更是可以挑战一下高帧数。
在 3DMark Portal Royal 光追测试中,GeForce RTX 4080 16G 获得了 17250 分,提升幅度比光栅性能来得更大。比 GeForce RTX 3080 提升了大约 50%。
RTX 4080 16G 在理论跑分中的成绩绝对称得上是震撼,我们制作了一份 GPU 物理分数的对比表,在所有项目中 RTX 4080 16G 相比于前代旗舰卡都有着明显的提升。
DLSS 3 详解:AI 助力游戏,帧数 4 倍暴涨
虽然理论性能已经超越了所有的 RTX 30 系显卡,但真正重磅的提升还要属 DLSS 3 技术。DLSS 3 是一款由 AI 驱动的性能倍增技术,由全新第四代 Tensor Core 和 GeForce RTX 40 系列 GPU 的全新光流加速器驱动,是 NVIDIA 广受好评的深度学习超级采样技术的最新版本,并拥有开创性的光学帧生成技术,将开启 NVIDIA RTX 神经网络渲染游戏和应用的新时代。
基于 NVIDIA Ada Lovelace 架构的光流加速器可分析两帧连续的游戏图像,并计算帧到帧中物体和元素的运动矢量数据,而无需传统游戏引擎进行建模。帧生成模型同时获取游戏引擎中的运动矢量和光流数据,这极大地减少了 AI 在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。
简单地说,过去的 DLSS 2 是通过渲染出一个低分辨率图像,然后 AI 放大至高分辨率,实现画质与帧数的提升。而全新的 DLSS 3 在兼容 DLSS 2 的基础上,还新增了帧生成功能,可以在两个真实帧之间插入 AI 推算出来的全新帧,实现帧数的倍增。再结合 DLSS 2 的超分辨率功能,AI 能重建至多八分之七的显示像素,与没有 DLSS 相比,游戏性能最高可提升 4 倍!
接下俩我们进入 DLSS 3 的测试环节。最新版的 3DMark 已经适配了 DLSS 3 的 BenchMark,我们把 GeForce RTX 4080 16G 的测试结果和 DLSS 2 进行控制变量的对比,可以直观地看出差异。实测在 DLSS 2 模式下,平均帧数为 97.9 帧,相比于不开 DLSS 2 已经提升了将近三倍。
但如果我们开启最新的 DLSS 3 技术,GeForce RTX 4080 16G 显卡帧数直接来到了平均 125.84 帧,和不开 DLSS 的帧数相比,提升相当明显。
这才过去了一个月,DLSS 3 又适配了不少新游戏,当 11 月 16 日 GeForce RTX 4080 发布时,市场上有 10 款 DLSS 3 游戏可玩:
1.《瘟疫传说:安魂曲》(A Plague Tale: Requiem)
2.《光明记忆:无限》(Bright Memory: Infinite)
3.《毁灭全人类 2:重新探测》(Destroy All Humans! 2 - Reprobed)
4.《暗影火炬城》(F.I.S.T.: Forged in Shadow Torch)
5. F1 ® 22
6.《逆水寒》(Justice)
7.《生死轮回》(Loopmancer)
8.《漫威蜘蛛侠:重制版》 (Marvel’s Spider-Man Remastered)
9.《微软模拟飞行》(Microsoft Flight Simulator )
10.《超级人类》(SUPER PEOPLE)
由于只要适配 DLSS 3 就可以向下兼容 DLSS 2,开发难度非常低,所有后续肯定会有越来越多开发商加入 DLSS 阵营。我们选取了《赛博朋克 2077》、《瘟疫传说:安魂曲》、《超级人类》、《暗影火炬城》、《光明记忆:无限》和《生死轮回》等多款已经适配了 DLSS 3 的游戏来对 GeForce RTX 4080 16G 进行测试。
我们上来就进行压力最大的《赛博朋克 2077》,我们在 4K 最高画质超级光追下运行它自带的 BenchMark,得到了以下数据。可以看出,DLSS 3 性能档的情况下,至多可以实现帧数 50% 的提升,这个帧数提升是相当明显的。
那么 DLSS 3 是否会对画质有严重影响呢?我们使用 NVIDIA ICAT 工具进行画面对比数毛,可以看出左右两边的画质确实有差距,但在宏观上并不明显,可以说 DLSS 3 技术真的可以让我们“白捡”了不少帧数。
↑ 左 DLSS 平衡 ,右 DLSS 3 关闭
在《绝地求生》开发商蓝洞的新作《超级人类》中,同样提供了和 DLSS 3 的选项。从下面的数据可以看出,DLSS 3 在《超级人类》与《赛博朋克 2077》类似,在开启 DLSS 3 后,帧率提高了近 70%。直接从能 4K 流畅游玩,变成了能流畅 4K 高帧游玩。
接下来是一款国产赛博朋克游戏《生死轮回》。虽然是一款 2D 横版游戏,但凭借光线追这一大革命性功能。它能在虚拟的世界模拟出真实的全景光影和反射。图中雨后湿润的地面最能表现出光追赛博朋克的魅力,仔细看水坑的差异就很明显了,未开启光追的话只有模糊的投影,而开启后便会产生栩栩如生的倒影。
↑ 左 RT 高档 ,右 RT 关闭
而在帧数表现方面,DLSS 3 也能为其带来最高可达 2.5 倍以上的帧数提升。
笔者发现,DLSS 3 的首批游戏库中,国产游戏数量格外得多。除了上面我们测试的《生死轮回》外,还有《光明记忆:无限》、《暗影火炬城》和《幻塔》。在《光明记忆:无限》中,DLSS 3 至多带来了约 2.5 倍的提升。
另一款国产蒸汽朋克风游戏《暗影火炬城》中,仅提供了 DLSS 3 自动 / 关两个档位,但帧数的提升还是相当显著的,同样达到最高约 2.5 倍的性能提升。
最后我们测试一款画质爆炸的 3A 大作《瘟疫传说: 安魂曲》。这款游戏在笔者评测 RTX 4090 的时候就提供了 DLSS 3 的支持,但由于游戏还在测试版,我们没有办法顺利完成测试。如今正式上线后,RTX 40 系显卡终于可以畅玩了。
实测开启 DLSS 3 后,帧数至多可以提升最高可达 3 倍,这对于这类材质复杂的 3A 单机大作来说很有用。
那么 DLSS 3 技术就是十全十美的吗?当然不是。DLSS 3 的本质是 AI 生成全新帧,生成帧必定有一个副作用就是延迟的提高。毕竟我们鼠标是对我们看到的那一帧做出的反馈,而 AI 却会加上额外的帧,这个延迟的提高对于竞技游戏的影响是很大的。所以在打开 DLSS 3 的帧生成功能时,NVIDIA Reflex 会强制打开,尽量缩短生成帧带来的渲染延迟。实测下来,开启 DLSS 3 后延迟反而比什么都不开还要低一些。
游戏实测:享受 4K 电竞,更高帧数更低延迟
除了支持 DLSS 3 的大作外,IT之家也为大家测试了几款主流游戏。GeForce RTX 4080 16G 本次会全程在 4K 分辨率最高画质下进行测试,在新上线的《守望先锋》“归来”中,提供了 NVIDIA Reflex 低延迟选项,它使 CPU 能够在完成前一帧之前就开始向 GPU 提交渲染工作,从而大大减少甚至消除渲染队列,这使得响应时间更快,瞄准精度更高。实测开启增强 Reflex 后,延迟降低了一半。
在《古墓丽影: 暗影》中,实测在 4K 分辨率最高画质下运行 BenchMark 能跑到 137 帧,已经能基本满足 4K144Hz 的显示器畅玩了。
这款游戏也有 DLSS 2 的支持,在开启 DLSS 2 后,帧数最高可以提升将近 90%。
最后我们测试一款光追 3A 大作《控制》,4K 最高画质最高光追下不开 DLSS 几乎不能勉强流畅游玩,而 GeForce RTX 4080 16G 开启初档 DLSS 后帧数几乎翻倍,这个体验相当出色了。
总的来说,GeForce RTX 4080 16G 在 4K 分辨率下已经能满足光追 3A 的全部要求。当然,在进行 8K 游戏时 16G 显存还是比较危险。可以说 RTX 4080 是一张非常适合搭配 4K144Hz 显示器的高端游戏卡。代表未来的 8K 游戏还是交给 4090 去挑战吧。
创意生产:AI 时代算力就是生产力
这一代 GeForce RTX 4080 显存方面提升不小,因此也被赋予了一定的生产力属性。在应对创意生产和深度学习方面会有一定建树。同时 GeForce RTX 4080 16G 也可以安装 NVIDIA Studio 驱动,有超过 100 款创意应用都可以调用 NVIDIA CUDA 核心的 AI 算力,来大大提高工作效率。
在建模渲染类软件中,GeForce RTX 4080 16G 可以利用 CUDA 为工作提供硬件加速,目前几乎所有的建模软件都会对 NVIDIA 的 GPU 有优化,所以能做到效率、稳定和兼容性的共存。比如在常用的渲染工具 V-Ray 中,可以借助 RTX 加速的光线追踪,实现高性能最终帧渲染。借助搭载 AI 的降噪功能,GPU 可进一步加速交互式渲染。
在 V-Ray Benchmark 中,RTX 4080 获得了 3060 分,可以顺利应对大部分的建模渲染需求。
得益于光追性能的提升,GeForce RTX 4080 16G 在 V-Ray GPU RTX 中的分数也提高到了 4155 分,足以应对实时光追的高压力渲染。
最后我们跑一下另外一款渲染软件 Octane,它可以藉由 RTX 加速的光线追踪和搭载 AI 的 OptiX 降噪可实现快速的交互式渲染。GeForce RTX 4080 16G 最终的测试结果来看,其渲染能力大约相当于 10 块 GTX 980 同时工作,从 GTX 980 到 RTX 4080,算力的提升令人恍如隔世。
在视频后期这一块,GeForce RTX 4080 16G 同样配备第八代 NVIDIA NVENC 编码器,支持 AV1 双编码器。AV1 是下一代的视频编码技术,能够在占用相同空间情况下,提供更加快速的视频编码和更高质量的流媒体传输性能。
NVIDIA 与多家行业合作伙伴密切合作,当今主流多媒体应用均可以支持 AV1。目前国内的剪映专业版已经支持 NVIDIA 的 AV1 的视频编码器加速。OBS 直播软件也支持了 NVENC 的 AV1 编码的录制,希望能尽快适配 AV1 编码的直播,大大节约直播带宽。
常用的视频调色剪辑软件 DaVinci 和剪映专业版也提供了 AV1 编码的支持,作为一个免费开源的编码,AV1 一定会是未来的主流编码。
为什么 AV1 会受到厂商们的青睐呢?因为它可以在保持画质的基础上,大幅度降低视频体积。我们这边做一个测试。用剪映专业版同时压制两个 4K60 帧 30000Kbps 的视频,一个采用 H.264 编码,一个采用 AV1 编码。结果 AV1 版只有 342mb,体积缩小了 36%。
那么画质会不会有损伤呢?我们选择视频内的一个画面,然后用 NVIDIA ICAT 工具看细节,结果左边的画质和右边的画质几乎没有任何区别。又小又高清,难怪 AV1 会成为下一代行业规范。
IT之家为大家测试了 PugetBench For Davinci。基于 NVIDIA CUDA 技术的 GPU 加速特效可实现更快速度的实时视频编辑和帧渲染,使用 NVIDIA 编码的输出速度提升最高可达 5 倍。GeForce RTX 4080 16G 最终分数可以达到 2570 分,剪辑 8K 视频也不会卡顿,实时回放也不用开代理了。
此外,NVIDIA 还为 RTX GPU 提供了 NVIDIA Broadcast 这个神器。它通过人工智能技术,实现了音频降噪、绿幕抠像、人像聚焦等实用效果。对于希望买一张高端显卡的主播们来说,有了 NVIDIA Broadcast+AV1 的高效编码,只需要一台机器就可以完成全链路直播。
总结:RTX 30 系列旗舰的接班人
从定位和定价来看,RTX 4080 16G 的目标是相当明确的,就是取代 RTX 30 系列的所有高端卡,成为下一代的 4K 游戏旗舰。在我们的测试中,它也的确能做到 4K 最高画质通吃所有 3A 大作。如果支持 DLSS 3 的话,那更是可以实现 4K 高帧游玩。我们可以看到,距离 4090 发布会 仅仅 1 个月时间,就有 10 款 DLSS 3 游戏完成了适配,后续肯定会有更多游戏支持。并且在我们的实际使用中,RTX 4080 的功耗始终在 200 多 W,这个能效比可以说是相当的出彩。笔者已经开始期待搭载 RTX 40 系列 Laptop GPU 的游戏本了。
价格方面,GeForce RTX 4080 16G Founder Edition 的建议零售价是 9499 元。从售价的提升中也能看出,RTX 4080 的定位其实与上代的 RTX 3090 是类似的,都是为了想体验 4K144Hz 的高端玩家,或者靠 GPU 吃饭的企业用户准备的。笔者认为,可以等 AMD 7900 系列和 RTX 4080 系列显卡都上市后,对比一下两者的价格和性能,再考虑是否要购买。但如果你是一个普通玩家,其实 RTX 4080 的性能也是溢出的,笔者认为不妨期待一下 RTX 4060、RTX 4070, 或者直接入手现在价格已趋于稳定的 RTX 30 系列型号。