nvidia发布超大规模推论平台来满足ai应用需求 – 十轮网-九游会官网真人游戏第一品牌

nvidia推出用于语音、视频、图片以及推荐服务的tensorrt超大规模推论平台(tensorrt hyperscale inference platform),其使用的tesla gpu提供高速处理深度学习工作负载的能力,而推论优化引擎tensorrt则可以充分利用tesla gpu的性能,处理视频串流、语音和推荐系统等应用,并为nvidia deepstream sdk提供运算基础。

nvidia提到,现在大规模数据中心可以借助超大规模推论平台的能力,使用增强的自然语言交互,并直接获取查找的答案,而非只是一些预存的可能候选答案。

超大规模推论平台由三个主要部分组成,tesla t4 gpu、tensorrt 5以及tensorrt推论服务器。 tesla t4 gpu拥有320个turing tensor cores以及2,560个cuda核心,提供灵活的fp32、fp16、int8和int4的多精度运算,其推测速度是相同能耗cpu的40倍。

而tensorrt 5则是推论优化程序和runtime引擎,tensorrt 5支持turing tensor core,针对多精度工作负载扩展了神经网络优化,能低延迟提供推荐系统、语音识别和机器翻译等高吞吐量的应用服务,并且tensorrt还能将使用32或是16比特数据训练的模型,为tesla t4和p4上优化成int8操作,以及在tesla v100上优化为fp16。同时还赋给deepstream sdk利用tesla gpu,同时解码和分析视频串流。

tensorrt推论服务器是容器化的微服务软件,可以在数据中心环境让应用程序使用人工智能模型。 tensorrt推测服务器是一个可以立即执行的容器,其提供的微服务可以让用户通过api,在一个或是多个gpu上,使用caffe2、tensorrt和tensorflow等任何支持onnx标准的框架进行推测。

发表评论