如何用CuPy来对Numpy进行700倍加速
作者:George Seif
编译:ronghuaiyang
给大家试试GPU的威力!
Numpy是Python社区的一份大礼。它允许数据科学家、机器学习使用者和统计学家以一种简单有效的方式处理矩阵格式的大量数据。
即使就其本身而言,Numpy在速度方面已经比Python有了很大的提升。当你发现自己Python代码运行缓慢,尤其是如果你看到很多的for循环,使用Numpy总是一个好主意,将数据处理成Numpy并让其向量化工作,可以得到最高速度!
尽管如此,Numpy只在CPU上运行。对于通常只有8个或更少内核的消费级cpu,并行处理的数量以及因此可以达到的加速速度是有限的。
这时候,该我们的新朋友CuPy出场了!
什么是CuPy?
CuPy是一个库,它利用CUDA GPU库在Nvidia GPU上实现Numpy数组的运算功能。有了这个实现,由于gpu的CUDA核有很多,可以实现更好的并行加速。
CuPy的接口是Numpy的镜像,在大多数情况下,它可以作为直接的替代。只要用兼容的CuPy代码替换你的Numpy代码,你就可以加使用GPU加速了。CuPy支持Numpy的大多数数组操作,包括索引、广播、数组上的数学运算和各种矩阵转换。
你也可以编写自定义的Python代码,利用CUDA和GPU加速,如果你有一些具体的东西还不支持。所需要的只是c++格式的一小段代码,CuPy将自动执行GPU转换,非常类似于使用Cython。
要开始与CuPy,我们可以通过pip安装库:
1 |
pip install cupy |
使用CuPy跑在GPU上
对于这些基准测试,我将使用以下配置的PC机进行测试:
- i7-8700k的CPU
- 1080 Ti GPU
- 32gb的DDR4 3000MHz内存
- CUDA 9.0
一旦安装了CuPy,我们可以像Numpy一样导入它:
1 2 3 |
import numpy as np import cupy as cp import time |
对于剩下的代码,在Numpy和CuPy之间切换就像用CuPy的cp替换Numpy的np一样简单。下面的代码为Numpy和CuPy创建了一个包含10亿个1的3D数组。为了测量创建数组的速度,我使用了Python的原生“time”库:
1 2 3 4 5 6 7 8 9 10 |
### Numpy and CPU s = time.time() x_cpu = np.ones((1000,1000,1000)) e = time.time() print(e - s) ### CuPy and GPU s = time.time() x_gpu = cp.ones((1000,1000,1000)) e = time.time() print(e - s) |
非常容易!
令人难以置信的是,即使这只是一个数组创建,CuPy仍然要快得多。Numpy在1.68秒内创建了包含10亿个1的数组,而CuPy只花了0.16秒,这是10.5倍的加速!
但我们还可以做得更多。
让我们试着对数组做一些数学运算。这次我们将整个数组乘以5,再次检查Numpy和CuPy的速度。
1 2 3 4 5 6 7 8 9 10 |
### Numpy and CPU s = time.time() x_cpu *= 5 e = time.time() print(e - s) ### CuPy and GPU s = time.time() x_gpu *= 5 e = time.time() print(e - s) |
在本例中,CuPy吊打Numpy,Numpy花了0.507s,CuPy只花了0.000710s,这是714.1倍的加速!
现在让我们尝试使用多个数组并执行一些操作。下面的代码将做以下工作:
- 将数组乘以5
- 将数组与本身相乘
- 将数组加上自己
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
### Numpy and CPU s = time.time() x_cpu *= 5 x_cpu *= x_cpu x_cpu += x_cpu e = time.time() print(e - s) ### CuPy and GPU s = time.time() x_gpu *= 5 x_gpu *= x_gpu x_gpu += x_gpu e = time.time() print(e - s) |
在本例中,Numpy在CPU上以1.49秒的时间执行完该进程,而CuPy在GPU上以0.0922秒的时间执行完该进程,仍然有16.16倍加速!
是不是超级快?
使用CuPy是在GPU上多次加速Numpy和矩阵运算的好方法。需要注意的是,你将获得的加速高度依赖于你正在处理的数组的大小。下表显示了我们改变数组大小时的速度差异:
一旦我们达到大约1000万个数据点,速度就会大大加快,而一旦超过1亿个数据点,速度就会大大加快。在此之下,Numpy实际上更快。此外,请记住,更多的GPU内存将帮助你处理更多的数据,所以很重要的是看看你的GPU是否有足够的内存,以适应足够的数据,CuPy是值得的。
英文原文:
https://towardsdatascience.com/heres-how-to-use-cupy-to-make-numpy-700x-faster-4b920dda1f56
如何用CuPy来对Numpy进行700倍加速https://m.toutiaocdn.com/i6761389822964662791/?app=news_article×tamp=1590898814&use_new_style=1&req_id=202005311220140100270240122C58FD94&group_id=6761389822964662791&tt_from=android_share&utm_medium=toutiao_android&utm_campaign=client_share
转载请注明:徐自远的乱七八糟小站 » 如何用CuPy来对Numpy进行700倍加速