CUDA C 基本寫法

我們來看看基本的cuda c++寫法

# include "cuda_runtime.h" #include "device_launch_parameters.h"

__global__ void
addkernel
(int
*dev_p)

cuda的gpu計算操作，它讓gpu的執行緒分別對dev_p陣列的每個元素並行地執行+1操作。

cudasetdevice(0
);

選中待使用的gpu裝置。

int
*dev_p;
cudamalloc((
void**
)&dev_p, arrsize *
sizeof
(int))
;

在gpu中分配記憶體空間，並使指標dev_p指向該空間的首位址。只有分配了gpu記憶體空間，才可以傳遞資料到該空間。

cudamemcpy
(dev_p, p, arrsize *
sizeof
(int
), cudamemcpyhosttodevice)
;

將指標p指向的主存位址資料複製到指標dev_p指向的gpu記憶體位址，即在作gpu計算前將所需資料傳給gpu。

addkernel<<
<
1, arrsize>>
>
(dev_p)
;

分配一些gpu的執行緒來執行addkernel函式，傳入指標引數dev_p。共分配了1個執行緒塊，該個執行緒塊有arrsize個執行緒。

cudamemcpy
(p, dev_p, arrsize *
sizeof
(int
), cudamemcpydevicetohost)
;

將指標dev_p指向的gpu記憶體位址資料複製到指標p指向的主存位址，也就是將gpu計算結果傳回主存。

快速入門 CUDA C 混編

教程 kernel是cuda中乙個重要的概念，kernel是在device上線程中並行執行的函式乙個kernel所啟動的所有執行緒稱為乙個網格 grid 每個執行緒塊有包含共享記憶體 shared memory 可以被執行緒塊中所有執行緒共享，其生命週期與執行緒塊一致。此外，所有的執行緒都可以訪問...

CUDA C 原子運算元組

當進行讀取修改寫入操作序列的時候，大量的執行緒修改一段較小的記憶體區域將帶來很多麻煩。例如將d out i 這段先將d out i 的原值從儲存器中讀取出來，然後執行了 1操作，再將結果回寫到儲存器。然而多個執行緒在這個區域操作可能會得到錯誤的結果。下面例子，理想情況下每個相同的記憶體中的...

事務的基本寫法

人在職場，不想公升職加薪那是假話，年輕人希望自己在最短的時間內快速公升職加薪不是一件壞事，但是如何讓自己在最短的時間內公升職加薪，這裡面有一定的學問。筆者根據當代年輕人的就業觀，試從營銷的角度探索職場快速公升職的奧秘。二入對門找到自己的專長和興趣所在之後，要對行業進行細緻分析。要能夠了解這個行...

CUDA C 基本寫法

快速入門 CUDA C 混編

CUDA C 原子運算元組

事務的基本寫法

相關推薦