最近一段时间一直在负责做我厂神经网络前向框架库的优化,前几天接了一个bug report,报错信息大体是这样的:
1 | |
矩阵乘法是利用GPU加速一般运算的经典范例,在NVIDIA官方的CUDA C Programming Guide和CUDA C Best Practices Guide也都有示范代码来说明如何加速矩阵乘法。本渣这里要介绍的是如何加 …
Read more之前写CUDA程序时光顾着如何加速跑在device(GPU)端的kernel function了,没太关注host(CPU)端的代码,直到上个月发现了我某个CUDA程序中的坑——host端内存模型使用不当导致在CPU和GPU之间的数据传输消耗了大量时间,这种overhead甚至占到了总时间的70%以上,成为最主要的瓶颈(bottleneck)。在填完这 …
Read more