加入收藏 | 设为首页 | 会员中心 | 我要投稿 二游网_173173游戏网 (http://www.173173youxi.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 新闻中心 > 人物专访 > 正文

光线追踪核弹RTX 2080Ti/2080显卡首测:4K平均60帧

发布时间:2018-09-23 13:23:06 所属栏目:人物专访 来源:游民星空
导读:记得上一代GeForce 10的Pascal架构首发,也就是GTX 1080显卡发布,还是2016年的五月份,NVIDIA的游戏显卡换代从来没有哪次像这样让人等得望眼欲穿。一代显卡的正式服役周期通常是一年半,早在一年前坊间就不断爆出新显卡发布的时间,结果都是"狼来了"。于

  Turing架构采用了新的SM设计,该设计结合了早在去年Volta架构中就引入的许多特性。每个TPC包含两个SM,每个SM总共有64个FP32内核和64个INT32内核。相比之下,帕斯卡架构中每个TPC只有一个SM,每个SM 128个FP32内核,TPC的概念被架空了。TuringSM支持FP32和INT32操作的并行执行,独立线程调度类似于Volta GV100 GPU。

  SM被划分为四个处理块,每个处理块具有16个FP32核、16个INT32核、两个张量核、一个调度器和一个调度单元。每个块包括一个新的L0指令缓存和一个64 KB寄存器文件。四个处理块共享组合的96 kb L1数据高速缓存/共享存储器。传统的图形工作负载将96KB L1共享缓存划分为64KB的专用图形着色器缓存以及32KB的纹理缓存和寄存器溢出区域。计算工作负载可以将96 KB分成32 KB共享缓存+64 KB L1缓存,或者64 KB共享缓存+32 KB L1缓存。

光线追踪核弹RTX 2080Ti/2080显卡首测:4K平均60帧

  Turing实现了核心执行数据通道的主要更新。现代着色器工作负载通常具有诸如FADD或FMAD之类的FP算术指令与诸如用于寻址和获取数据的整数加法、用于处理结果的浮点比较或min/max等更简单的指令的混合。每当这些非FP数学指令中的一个运行时,ATAPACH就会闲置。Turing在每个CUDA核旁边添加第二个并行执行单元,该CUDA核与浮点数学并行执行这些指令。

光线追踪核弹RTX 2080Ti/2080显卡首测:4K平均60帧
对许多工作负载的分析显示,每100个浮点运算平均有36个整数运算。

  上图为整数管道与浮点指令的混合变化,但是一些现代应用程序中,通常会看到每100个浮点指令大约有36个额外的整数管道指令。将这些指令移到一个单独的管道上,就可以实现浮点的有效36%的额外吞吐量。

  Turing:SM中浮点和整数指令的并发执行

  Turing的SM还引入了一种新的统一架构,用于共享内存、L1和纹理缓存。这种统一的设计允许L1高速缓存利用资源,与Pascal相比,每TPC增加2倍的命中带宽,并且允许在共享内存分配没有使用所有共享内存容量时重新配置L1高速缓存以增大命中带宽。TuringL1的大小可以高达64KB,与每个SM共享内存分配的32KB相结合,或者它可以减少到32KB,允许将64KB的分配用于共享内存。Turing的L2缓存容量也有所增加。

光线追踪核弹RTX 2080Ti/2080显卡首测:4K平均60帧
新的共享缓存架构

  Turing SM新的L1数据缓存和共享内存子系统可显著提高性能,同时简化编程并减少达到或接近峰值应用程序性能所需的调优。将L1数据缓存与共享内存结合可以减少延迟,并提供比先前在Pascal 中使用的L1缓存实现更高的带宽。

深度学习单元Tensor Cores

  我们都知道Volta GV100中首次引入的张量核心Tensor Core,Turing架构中的张量核心是前者的增强版本。它设计增加了INT8和INT4精确模式来测算可接受的工作负载,FP16也完全支持这种工作负载的精确测算。

光线追踪核弹RTX 2080Ti/2080显卡首测:4K平均60帧

  在基于Turing的GeForce游戏核心中引入张量内核首次将实时深度学习引入游戏应用程序。Turing张量核心加速了NVIDIA NGX神经服务的基于AI的特性,增强了图形、渲染和其他类型的客户端应用程序的效率。NGX AI特性的示例包括深度学习超级采样(DLSS)、AI绘画、AI Super Rez和AI Slow-Mo。

  Turing张量核加速了神经网络训练和推理函数的核心矩阵乘法。Turing张量核特别擅长于推理计算,其中有用的相关信息可以通过基于给定输入的训练有素的深层神经网络(DNN)来推断和传递。推理的例子包括识别Facebook照片中朋友的图像,识别和分类自驾车中不同类型的汽车、行人和道路危险,实时翻译人类语言,以及在线零售中创建个性化的用户建议,以及社交媒体系统。

  TU102包含576个张量核心:每SM八个和每个SM内的每个处理块两个。每个张量核心可以执行多达64个浮点熔点乘加(FMA)操作,每个时钟周期使用FP16输入。SM中的八个张量核每个时钟周期总共执行512次FP16相乘和相加操作,或者执行1024次总FP操作。新的INT8精度模式以双倍的速率运行,每个时钟周期达到2048次整数运算。

光线追踪核弹RTX 2080Ti/2080显卡首测:4K平均60帧
Pascal和Turing张量核心配置之间的对比

首次应用GDDR6显存

  显存子系统性能对应用加速至关重要。Turing改进主显存、缓存和压缩架构,以增加显存带宽并减少访问延迟。改进和增强的GPU计算特性有助于加速游戏和许多计算密集型应用程序和算法。新的显示和视频编码/解码特性支持更高分辨率和能够HDR的显示器、更先进的VR显示器、在数据中心中增加视频流需求、8K视频制作和其他视频相关应用。

  GDDR6内存子系统

  随着显示分辨率的不断增加,着色器功能和渲染技术变得更加复杂,显存带宽和容量大小在GPU性能中起到了更大的作用。为了保持尽可能高的帧速率和计算速度,GPU不仅需要更多的内存带宽,还需要大容量的内存来维持连续计算性能。

  NVIDIA与存储产业紧密合作,两年前开发出世界上第一个GDDR5X显存的GPU:GP-104,紧接着又第一个开发出使用HBM2显存的GV-100。现在Turing再次成为首个使用GDDR6显卡的架构。

(编辑:二游网_173173游戏网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读