nvidia发布超大规模推论平台来满足ai应用需求 – 十轮网-九游会官网真人游戏第一品牌

nvidia推出用于语音、视频、图片以及推荐服务的tensorrt超大规模推论平台（tensorrt hyperscale inference platform），其使用的tesla gpu提供高速处理深度学习工作负载的能力，而推论优化引擎tensorrt则可以充分利用tesla gpu的性能，处理视频串流、语音和推荐系统等应用，并为nvidia deepstream sdk提供运算基础。

nvidia提到，现在大规模数据中心可以借助超大规模推论平台的能力，使用增强的自然语言交互，并直接获取查找的答案，而非只是一些预存的可能候选答案。

超大规模推论平台由三个主要部分组成，tesla t4 gpu、tensorrt 5以及tensorrt推论服务器。 tesla t4 gpu拥有320个turing tensor cores以及2,560个cuda核心，提供灵活的fp32、fp16、int8和int4的多精度运算，其推测速度是相同能耗cpu的40倍。

而tensorrt 5则是推论优化程序和runtime引擎，tensorrt 5支持turing tensor core，针对多精度工作负载扩展了神经网络优化，能低延迟提供推荐系统、语音识别和机器翻译等高吞吐量的应用服务，并且tensorrt还能将使用32或是16比特数据训练的模型，为tesla t4和p4上优化成int8操作，以及在tesla v100上优化为fp16。同时还赋给deepstream sdk利用tesla gpu，同时解码和分析视频串流。

tensorrt推论服务器是容器化的微服务软件，可以在数据中心环境让应用程序使用人工智能模型。 tensorrt推测服务器是一个可以立即执行的容器，其提供的微服务可以让用户通过api，在一个或是多个gpu上，使用caffe2、tensorrt和tensorflow等任何支持onnx标准的框架进行推测。

发表评论 取消回复

发表评论取消回复