亿忆微信公众号
下载手机亿忆app
新闻
在CUDA的天下,OpenAI开源GPU编程语言Triton,将同时支持N卡和A卡
2 个月前来源: 澎湃-湃客分享到

今天,OpenAI 正式推出 Triton 1.0,这是一种类 Python 的开源编程语言。即使没有 CUDA 经验的研究人员,也能够高效编写 GPU 代码。例如,它可以用不到 25 行代码写出与 cuBLAS 性能相匹配的 FP16 矩阵乘法内核,后者是许多专业的 GPU 编程者尚且无法做到的。此外,OpenAI 的研究者已经使用 Triton 成功生成了比 PyTorch 同类实现效率高 2 倍的内核。

论文链接:http://www.eecs.harvard.edu/~htk/publication/2019-mapl-tillet-kung-cox.pdf

新发布的 Triton 可以为一些核心的神经网络任务(例如矩阵乘法)提供显著的易用性优势。「我们的目标是使其成为深度学习 CUDA 的可行替代方案,」Philippe Tillet 作为 Triton 项目负责人如此表示。

GPU 基础架构。

CUDA vs Triton 编译器优化对比。

Triton 中的向量加法。

融合 softmax、M=4096 的 A100 性能。

Triton 中的矩阵乘法。

高级系统架构

Triton 的高级架构。

Triton 编译器通过分析计算密集型操作中使用的块变量的活动范围来分配共享内存。

Triton 自动并行化。每个块级操作都定义了一个块级迭代空间,该空间可以自动并行化以利用 SM(Streaming Multiprocessor) 上的可用资源。

阅读原文

*以上内容转载自澎湃-湃客,亿忆网对内容或做细微删改,不代表本网站赞同其观点和对其真实性负责。

分享到

相关推荐

终于来了!苹果发布iOS15:超多新功能综述:美联储半数决策者预计明年加息 鲍威...2021,请接收来自REAL的邀请函「腾讯云」于江雪:Metaverse需实...36氪首发 从“BIM+AR+施工场景”...
亿忆评论评论0

全部评论 0

查看更多评论