CUDA基础（1）：操作流程与kernel概念

编程爱好者联盟 2017-03-19

Cuda是Nvidia发布的并行计算框架，GPU的工作早已不局限于处理图形图像，它所包含的大量的计算单元用来执行那些计算量大但可以并行处理的任务。

Cuda的操作概括来说包含5个步骤：

1.CPU在GPU上分配内存：cudaMalloc；

2.CPU把数据发送到GPU：cudaMemcpy；

3.CPU在GPU上启动内核（kernel），它是自己写的一段程序，在每个线程上运行；

4.CPU把数据从GPU取回：cudaMemcpy；

5.CPU释放GPU上的内存。

其中关键是第3步，能否写出合适的kernel，决定了能否正确解决问题和能否高效的解决问题。

Cuda对线程做了合适的规划，引入了grid和block的概念，block由线程组成，grid由block组成，一般说blocksize指一个block放了多少thread；gridsize指一个grid放了多少个block。

一个kernel结构如下：Kernel<<<Dg, Db, Ns, S>>>(param1, param2, ...)

-Dg：grid的尺寸，说明一个grid含有多少个block，为dim3类型，一个grid最多含有65535*65535*65535个block，Dg.x，Dg.y，Dg.z最大值为65535；

-Db：block的尺寸，说明一个block含有多上个thread，为dim3类型，一个block最多含有1024(cuda2.x版本)个threads，Db.x和Db.y最大值为1024，Db.z最大值64；

（举个例子，一个block的尺寸可以是：1024*1*1 | 256*2*2 | 1*1024*1 | 2*8*64 | 4*4*64等）

-Ns：可选参数，如果kernel中由动态分配内存的shared memory，需要在此指定大小，以字节为单位；

-S：可选参数，表示该kernel处在哪个流当中。

可参见:

关于cuda版本信息：http://blog.cuvilib.com/2010/06/09/nvidia-cuda-difference-between-fermi-and-previous-architectures/

blocksize大小：http://stackoverflow.com/questions/5062781/cuda-max-threads-in-a-block

gridsize大小：http://stackoverflow.com/questions/6048907/maximum-blocks-per-gridcuda

: 编程爱好者联盟

相关推荐

NVIDIA C++标准库Libcu++现已通过GitHub发布

去年作为 CUDA 10.2 的一部分推出的 Libcu++ 是 CUDA C++ 标准库，它不仅适用于支持 NVIDIA CUDA 的配置，还适用于 CPU，现在可以通过 GitHub 获得 Libcu++ 的源代码。Libcu++在过去的一年里已经初具

Maryhuan 0喜欢 / 0评论 2020-09-20

Ubuntu 18.04.2深度学习cuda 10.2环境部署(二)

深度学习的基本环境部署完成后，现在就要考虑到使用需求来进一步优化环境了，考虑到有些用户需要两张显卡及以上需求，则需要部署cudnn来进行优化了。在下载之前，需要进行注册，注册很简单，可以使用社交账号进行注册。Ubuntu18.04这个系统本身就带有pyth

bnmcvzx 0喜欢 / 0评论 2020-04-30

实现FFMPEG 使用CUDA解码播放

播放器使用ffmpeg读取视频文件，packet发给cuda解码，解码后OpenGL直接映射给pbo，pbo绑定texture，然后显示出来

83096129 0喜欢 / 0评论 2020-02-27

浅谈 OpenGL 中相关阻塞问题

　　　　CUDA并行计算中需要使用Pass1渲染生成的两张纹理，然而我在GPU端使用CUDA计算时发现纹理为空，但是如果将两张纹理的数据传回CPU端，打印出来是有值的，且是正确的值。如果在CUDA并行计算之前先将纹理数据传回CPU，这时发现CUDA并行计算

夕加加 0喜欢 / 0评论 2020-01-06

Ubuntu 18.04安装Tensorflow(GPU)

补充，其实安装python3用一句：sudo apt-get install python3-dev 即可。在安装CUDA时一定要注意其与英伟达显卡驱动以及Linux系统和GCC版本的对应关系，如果版本之间不匹配，是安装不成功的。由于RTX2060显卡驱动

cairencong 0喜欢 / 0评论 2019-06-03

显卡中CUDA是什么及其应用介绍

CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。在科研界，CUDA一直受到热捧。例如，CUDA现已能够对AMBER进行加速。在金融市场，Numerix以及CompatibL针对一款全新的对手风险应用程序发布了CUD

yangjianren0 0喜欢 / 0评论 2013-05-06

Chapter 1 基于CUDA的异构并行计算

Ⅰ. 并行计算1.1 什么是并行计算？即一个大的计算问题被划分为很多可以同时解决的小问题。一个程序应该包含两个基本的组成部分：指令和数据。当一个指令处理上一个指令产生的数据时，就有了数据相关性（依赖性）的概念。数据相关性是限制并行性的主要因素。块划分

JAVA飘香 0喜欢 / 0评论 2019-06-30

Ubuntu 16.04 安装 CUDA、CUDNN 和 GPU 版本的 TensorFlow 一般步骤总结

在 Ubuntu 系统中的 System Settings -> Software & Updates -> Additional Drivers 安装相应的显卡和CPU驱动，重启后在 System Settings -> Det

woshigzp 0喜欢 / 0评论 2019-06-28

Tensorflow 1.8 with GPU on macOS High Sierra 10.13.6

Tensorflow 1.8 with GPU on macOS High Sierra 10.13.6Tensorflow团队宣布停止支持1.2以后mac版的tensorflow gpu版本。因此没办法直接安装只能自己用源码编译了。CPU 运行 Tens

woshigzp 0喜欢 / 0评论 2019-06-28

CUDA SDK2.3 示例程序说明

alignedTypes 演示了数据类型对齐对性能的影响。asyncAPI 演示了如何使用异步API. bandwidthTest 测试主存与显存之间，以及显存内部进行数据传输时的带宽，通过命令行可以进行更加全面的测试。bicubicTexture通过te

zhyue 0喜欢 / 0评论 2010-12-21

（通用）深度学习环境搭建：tensorflow安装教程及常见错误解决

区别于其他入门教程的“手把手式”，本文更强调“因”而非“果”。我之所以加上“通用”字样，是因为在你了解了这个开发环境之后，那些很low的错误你就不会犯了。大家都知道深度学习涉及到大量的模型、算法，看着那些乱糟糟的公式符号，心中一定是“WTF”。我想说的是，

WSNjiang 0喜欢 / 0评论 2019-06-25

Ubuntu16.04 下安装GPU版TensorFlow（包括Cuda和Cudnn）

因为windows只支持py3版本的tensorflow，而很多项目是用py2构建的，所以我又尝试在Ubuntu16.04中再次安装GPU版的tensorflow。我们需要安装的内容有Cuda8.0和Cudnn5.1和tensorflow-gpu。Tens

AI技术研究院 0喜欢 / 0评论 2019-06-21

使用conda代替pip让Tensorflow GPU安装变得更加简单！

我有一个配置很好的GPU，我曾经用它玩过FIFA游戏。而在人工智能方面，我想使用GPU进行深度学习而不是玩游戏。但是，我担心Tensorflow GPU的安装不兼容Cuda的版本。在本文中，我将解释其安装的传统方法和新的优化方法，以及为什么我们应该抛弃pi

JM 0喜欢 / 0评论 2018-10-11

TensorFlow正式发布1.5.0，支持CUDA 9和cuDNN 7，双倍提速

TensorFlow今天正式发布了1.5.0版本，支持CUDA 9和cuDNN 7，进一步提速。并且，从1.6版本开始，预编译二进制文件将使用AVX指令，这可能会破坏老式CPU上的TF。刚刚，TensorFlow发布了1.5.0正式版，很多人都期待已久，最

youmodezqf 0喜欢 / 0评论 2018-01-27

在Linux安装GoogleTensorFlow神经网络软件

TensorFlow 是一个非常强大的工具，专注于一种称为深层神经网络的神经网络。深层神经网络被用来执行复杂的机器学习任务，例如图像识别、手写识别、自然语言处理、聊天机器人等等。本文导航-1、安装 CUDA ……-2、安装 CuDNN 库 ……-3、在

demm 0喜欢 / 0评论 2017-05-18

Ubuntu 14.04 + Cuda7.5 + Caffe 安装配置全过程

2. 下载UltraISO，然后可以使用UltraISO制作一个U盘启动盘：在左下角的本地目录中先选中下载好的镜像文件，从“启动”选项卡里选择“写入硬盘映像”，然后从弹出的对话框里“选择”你准备好的U盘，点击对话框下方的“写入”，等待整个写入过程结束，你的

asbs 0喜欢 / 0评论 2017-03-07

Caffe + Ubuntu 15.04(16.04) + CUDA 7.5(8) 安装配置入门指南

最后更新时间：2016年9月27日。Matlab 2014a gcc/g++ 4.7.x, Matlab 2016a gcc/g++ 4.9.x. Ubuntu 15.04 gcc/g++ 4.9.x, Ubuntu 16.04 gcc/g++ 5.4.x

cuiguanjun 0喜欢 / 0评论 2017-03-07

Ubuntu 16.04 编译安装OpenCV 3.1及OpenCV多版本切换

在Ubuntu 16.04下编译安装OpenCV 3.1及OpenCV多版本切换的过程。cuda是7.5.18版，安装完后重启，在终端输入nivdia-smi,有结果则驱动和cuda安装成功。sudo apt-get install cmake git l

learningCV 0喜欢 / 0评论 2017-01-07

Ubuntu下CUDA（含GPU卡驱动）安装过程

aptitude install binutils ia32-libs gcc make automake autoconf libtool g++ g++-4.6 gawk gfortran freeglut3-dev build-essential l

邮件服务器配置 0喜欢 / 0评论 2015-07-24

Linux Mint 13/Ubuntu 12.04 配置CUDA 4.2 & OpenCV 2.4.2 方法

安装平台：Mint 13 64 bit， Ubuntu 12.04同样适用，其他Linux distributions 根据情况做相应修改。sudo apt-get install g++ build-essentialsudo apt-get insta

fulinux 0喜欢 / 0评论 2013-10-07

CUDA使用的GCC版本和现有版本不兼容

解决方法使用openSUSE 12.1 自带的gcc4.6版本进行编译通过。

bernin 0喜欢 / 0评论 2012-07-17

Fedora 15系统下配置CUDA环境

在Fedora 15 系统下配置CUDA环境，其实只要安装driver、toolkit、SDK就可以了。通过这里可以查到支持CUDA的系统了，然后就是核对一下自己的系统是否支持了。用 gcc --version 验证GCC是否正确安装，主要是看GCC的版

88281847 0喜欢 / 0评论 2011-12-21

Ubuntu 11.04 安装 NVIDIA CUDA 4.0 RC2

NVIDIA CUDA 4.0 在 2011 年 4 月释出，一样有各种平台的版本，除了 Windows XP, Windows VISTA、Windows 7 与 Mac OS 外，Linux 的部份也支持好几种版本：Fedora 13 RedHat E

gongxucheng 0喜欢 / 0评论 2011-10-31

使用C#来面向GPU编程

一直以来，我们都在使用NVIDIA的CUDA平台编写通用程序来发挥NVIDIA GPU的计算性能优势。尽管CUDA支持不同的编程语言，但是编写高性能的代码通常需要使用C或者C++。直到最近，C#开发者终于可以摆脱这种困境了。Hybridizer分为两个版本

Atptro 0喜欢 / 0评论 2018-01-02

在Linux下找不到cutil.h的解决方法

下面是我的一个错误的解决 . nvcc -arch sm_12 -Xcompiler -fPIC --shared -o libgREmatch.so gReScan.cu

杨哈哈 0喜欢 / 0评论 2011-07-31

Ubuntu 16.04下TensorFlow+Caffe+OpenCV3.1+Theano部署

分享下Ubuntu 16.04下TensorFlow+Caffe+OpenCV3.1+Theano的安装部署全过程，希望对大家有所帮助。这样的错误提示,直接无视下一步就可以了.安装过后。sudo service lightdm start切换回桌面.安装过

Erick 0喜欢 / 0评论 2017-01-12

如何搭建一台深度学习服务器

在计算机时代的早期，一名极客的满足感很大程度上来源于能DIY一台机器。到了深度学习的时代，前面那句话仍然是对的。缘起在2013年，MIT科技评论将深度学习列为当年十大科技突破之首。而且，能自动学习特征，避免了“特征工程”这种繁琐的手工劳动。对于图像、音频和

旭峰 0喜欢 / 0评论 2016-12-28

使用Python写CUDA程序的方法

numbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。Numba通过及时编译机制优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Pytho

shonmark 0喜欢 / 0评论 2019-04-26

在Fedora 11上安装CUDA

NVIDIA 的 CUDA 是个吸引人的东西，在显卡实现科学运算的并行处理。手头有一块 GeForce 8600GT 装在一个64位机器上，系统是 Fedora 11。由于 NVIDIA 目前最高支持 Fedora 10，因此在 Fedora 11 上编译

80921738 0喜欢 / 0评论 2009-10-02

编译OpenCV的GPU，利用CUDA加速

--------------以下内容转自网络-----------------. - 接着可以看到 tbb 的 library 目录自动有了，但是可能是错的，需要改到 Debug 和 Release 文件夹的上级目录为止。

withlonger 0喜欢 / 0评论 2014-11-16

Matlab编译cuda的.cu文件

matlab函数，大体首先是用nvcc命令生成.o文件，然后用mex链接对应库文件，生成动态链接库。2) Ubuntu 12.04 amd64 server + matlab + gcc + cuda 5.5. windows用户需要根据自身编译器更改函数

sksvenska 0喜欢 / 0评论 2014-04-24

CentOS7 Nvidia Docker环境搭建

最近在搞tensorflow的一些东西，话说这东西是真的皮，搞不懂。但是环境还是磕磕碰碰的搭起来了。其实本来是没想到用docker的，但是就一台配置较好的服务器，还要运行公司的其他环境，vmware esxi用起来太费劲，还是算了。这个东西需要注册nvid

追求卓越做到专业 0喜欢 / 0评论 2018-02-24

如何编译OpenCV-2.3.x/OpenCV-2.4.x使其支持GPU-CUDA高速运算？

前面，我们讲到了使用OpenCV-2.4.0在Visual Studio 2005/2008/2010常规编译的方法，本文则主要讲述如何使OpenCV支持CUDA高速运算。下载完成后并安装，确保CUDA SDK的bin目录已经添加到环境变量中后，我们就开始

pofeiren0 0喜欢 / 0评论 2012-08-15

NVIDIA CUDA Driver For Linux本地信息泄露漏洞

受影响系统：NVIDIA CUDA Driver描述：--------------------------------------------------------------------------------BUGTRAQ ID: 45717. NV

leochan00 0喜欢 / 0评论 2011-01-11

CUDA、CUDNN在Mac Book Pro上安装的问题

由于原版MacOS自带Nvidia驱动版本过低，导致最新版本CUDA安装后无法运行。安装后需要重启电脑，然后在里面就可以看到Nvidia管理器，你可以在原生和新版之间自由切换。注意大多数笔记本显卡显存较低，许多计算框架提供的Demo都需要4G显存打底，可能

读立写生 0喜欢 / 0评论 2018-05-21

CUDA、CUDNN在Mac Book Pro上安装的问题

由于原版MacOS自带Nvidia驱动版本过低，导致最新版本CUDA安装后无法运行。安装后需要重启电脑，然后在里面就可以看到Nvidia管理器，你可以在原生和新版之间自由切换。注意大多数笔记本显卡显存较低，许多计算框架提供的Demo都需要4G显存打底，可能

APP小站 0喜欢 / 0评论 2018-05-21

Ubuntu + CUDA9.1 + CUDNN7.1.2 + OpenCV3.4.1 + contrib-master +CA

ctrl+alt+F1进入命令行模式，登录用户。sudo apt-get remove --purge nvidia*sudo service lightdm stopsudo apt-get install nvidia-390 #for GTX850M

黑客与画家 0喜欢 / 0评论 2018-04-05

caffe Mac 安装

安装caffe的依赖项brew install --fresh -vd snappy leveldb gflags glog szip lmdb opencv hdf5. # Contributions simplifying and improving

LessisMore 0喜欢 / 0评论 2018-03-08

Windows10 x64平台下配置 tensorflow 1.5.0 gpu + CUDA 9.0 Anaconda pyt

配置到清华的镜像站，这样下载起来快。。。下载新版本的Anaconda 5.1.0 x64 python 3.6 版本，听说现在加入了 Visual Studio Code了。这里顺便提一下为啥要装 Anaconda，因为方便。。。上一步中已经更改了pip

优主张 0喜欢 / 0评论 2018-03-01

GTX 1060吃鸡专卡核心曝光: 1280个CUDA、5G显存

近期什么游戏最热？非《绝地求生》莫属！如果你看了我们针对《绝地求生》PC 1.0正式版的测试——《绝地求生》正式版评测之显卡篇：GTX 1060是理想之选，你就会知道GTX 1060/RX 570显卡刚好是一道坎，只有以上级别的显卡才能给你流畅的游戏体验，

黑客与画家 0喜欢 / 0评论 2017-12-31

基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记

很多新手会遇到安装了nvidia官方驱动之后，reboot系统，会卡在登陆页面的问题，原因是nvidia驱动和Ubuntu自带的nouveau显卡驱动冲突。This is free software; see the source for copying

Unix Linux 0喜欢 / 0评论 2016-11-23