浅谈 OpenGL 中相关阻塞问题

夕加加 2020-01-06

昨天我遇到一个问题，问题如下：

　　我使用了延迟渲染，我的渲染流程是：Pass1 --> CUDA并行计算 -->Pass2

　　CUDA并行计算中需要使用Pass1渲染生成的两张纹理，然而我在GPU端使用CUDA计算时发现纹理为空（数据全是0值），但是如果将两张纹理的数据传回CPU端，打印出来是有值的，且是正确的值。如果在CUDA并行计算之前先将纹理数据传回CPU，这时发现CUDA并行计算中纹理是正常有值的。。。这个现象很奇怪，我开始想了想会不会是阻塞啥原因，但我对OpenGL阻塞过程不了解，没看到过相关的资料，简单思考了一下觉得不是阻塞的原因，我觉得可能是其中的一张纹理有问题，牵连导致这个问题。。。。。最终验证发现还是OpenGL阻塞的原因。在CUDA并行计算之前加上 glFinish()函数即可。

为啥加上glFinish()函数就解决了呢？解释这个之前，先说一下glFlush()和glFinish()函数的作用：

　　一个OpenGL渲染程序会调用很多的OpenGL命令，而OpenGL是异步的，CPU将这些耗时的命令发送到GPU端，然后直接返回继续执行，这些OpenGL相关指令存储在GPU的缓存中一条条的执行，但是CPU也不是直接发送给GPU的，CPU自己有缓存，先存储在自己的缓存中，之后再发送过去（有时机，例如遇到某些刷新的命令等）。现在开始介绍以上两个函数的作用。

　　glFlush()：将缓存在CPU端的命令发送到GPU上，清空缓存，发送完立即返回。

　　glFinish()：将缓存在CPU端的命令发送到GPU上，清空缓存，发送完，等待GPU执行完在返回。

看到这里就可以理解我加上 glFinish() 可以解决问题的原因了。我没加 glFinish() 时，CUDA并行计算时，这时Pass1实际没有执行完，故纹理为空，CUDA中拿不到正确的纹理数据，加上 glFinish() 后实际就是加入了GPU阻塞，等待Pass1执行完，然后执行CUDA并行计算。

注：说到这里，谈点我思考的问题：

　　1、在OpenGL渲染中，不管是 Pass1 --> CUDA并行计算 -->Pass2，或者 Pass1 --> Pass2 或者Pass（只有一个Pass），我们统计两次渲染之间的时间差值就可以计算帧率，为啥不会因为异步问题计算不准呢？因为 glfwSwapBuffers(glfw_window) 命令会将所有CPU端的命令发送到GPU端，并等待其执行完，然后再交换前后缓冲。

　　2、对于Pass1 --> Pass2这样的延迟渲染，Pass1和Pass2都是作为命令发送到GPU端，按序执行，故不会出现Pass2拿到的数据（由Pass1处理的）不正确情况，我们不需要加阻塞保障其执行。

　　　另外不要错误以为，CPU运行到Pass2处看见Pass1还在执行，CPU阻塞等待Pass1执行完然后发送Pass2指令。

　　3、为啥在CUDA并行计算前，对纹理进行一次数据传回可以让CUDA获取正确的纹理数据？我觉得（差不多肯定是这样，哈哈，自信……）拷贝纹理数据的OpenGL API虽然与GPU相关，但是其与CPU也相关，需要在CPU端的内存上接收传回的数据，从CPU端考虑它也会阻塞的。

　　4、Pass1 和 CUDA并行计算都是在GPU上执行的，而CUDA拿不到正确的纹理数据，可以认为 Pass1 和 CUDA并行计算同时在GPU上并行执行（我猜的，应该是吧……）。

　　

　　　

: 夕加加

相关推荐

云计算

Saas：软件即服务：通过互联网提供按需软件付费应用程序，云计算提供商托管和管理软件应用程序，并允许其用户连接到应用程序并通过全球互联网访问应用程序 ?

Zjzk 0喜欢 / 0评论 2020-08-02

MacBook显卡不跑AI模型太浪费：这个深度学习工具支持所有品牌GPU

往东还是往西 0喜欢 / 0评论 2020-02-24

Python基于pyCUDA实现GPU加速并行计算功能入门教程

Nvidia的CUDA 架构为我们提供了一种便捷的方式来直接操纵GPU 并进行编程，但是基于 C语言的CUDA实现较为复杂，开发周期较长。作为第四种CUDA支持语言，相信python一定会在高性能计算上有杰出的贡献–pyCUDA。希望本文所述对大家Pyt

JamesRayMurphy 0喜欢 / 0评论 2019-12-30

数据倾斜的原因和解决方案

MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。3）MapReduce是一个并行程序设计模型与方法。它借助于函

nimeijian 0喜欢 / 0评论 2019-12-07

GPU与CPU比较,GPU为什么更适合深度学习?

CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强，计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。GPU只是显卡上的一个核心元件，又不能单独工作，它还需要缓存来辅助工作。独立显卡是直接焊死了GPU在显

qijiqiguai 0喜欢 / 0评论 2019-08-21

两款高性能并行计算引擎Storm和Spark比较（转）

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。这和Hadoopmap/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法性能更高。

小琳子 0喜欢 / 0评论 2014-11-20

使用并行计算大幅提升递归算法效率

http://3503265.blog.51cto.com/all/3493265

gotea 0喜欢 / 0评论 2013-05-05

云计算，分布式计算，网格计算，并行计算

现在把早上看到的云计算和分布式计算，网格计算，并行计算的概念对比分析一下。其实是要了解云计算，但是这几个名字叫得容易把问题搞混。并行计算或称平行计算是相对于串行计算来说的；所谓并行计算可分为时间上的并行和空间上的并行。从程序和算法设计人员的角度来看，并行

fuel 0喜欢 / 0评论 2013-03-19

【转载】Why MapReduce?

现在MapReduce/Hadoop以及相关的数据处理技术非常热，因此我想在这里将MapReduce的优势汇总一下，将MapReduce与传统基于HPC集群的并行计算模型做一个简要比较，也算是对前一阵子所学的MapReduce知识做一个总结和梳理。随着互联

云端轻躺 0喜欢 / 0评论 2013-01-03

8，云计算深入理解

用户终端的功能可以大大简化，诸多复杂的计算与处理过。程都将转移到终端背后的“云”上去完成。用户所需的应用程序。在本地，而是保存在互联网上的数据中心里。提供云计算服务的。因此，云计算中的。10个以上独立机房，全网处理能力超过200Gbps。世纪互联在云计算方

IT互联网技术学习 0喜欢 / 0评论 2012-11-29

云计算与集群、虚拟机

一个用户在云计算平台上的环境是虚拟机，任何操作都不会影响其他用户的环境。用户在集群上的环境是集群操作系统，所有的用户共享唯一的环境，更改操作相互影响。成熟而常见的OS，保证了软件的兼容性和易用性。从而，不必为应用专门开发云计算平台的专用应用程序，直接使用现

苏州胜网 0喜欢 / 0评论 2010-06-29

Chapter 1 基于CUDA的异构并行计算

Ⅰ. 并行计算1.1 什么是并行计算？即一个大的计算问题被划分为很多可以同时解决的小问题。一个程序应该包含两个基本的组成部分：指令和数据。当一个指令处理上一个指令产生的数据时，就有了数据相关性（依赖性）的概念。数据相关性是限制并行性的主要因素。块划分

JAVA飘香 0喜欢 / 0评论 2019-06-30

复杂 SQL 查询跑不动？DRDS 只读实例来解决！

背景在实际业务生产环境中，业务应用系统在使用 OLTP 数据库将数据进行存储后，均会存在如后台运营类系统进行统计报表分析等场景的复杂 SQL 查询诉求。千万级数据下的分布式多表Join、聚合、排序、子查询操作秒级返回结果,可极大的提升响应速度。自身利用同一

Depth 0喜欢 / 0评论 2019-06-28

java发展方向和Google架构分析

大表分成许多小块，然后由许多服务器计算，分类，整合，再统计。它分为三维，Rows,Cols,和TimeStamps(时间)；移动设备的瓶颈是：用户体验！为什么最重要的图片没有传上来？

云服务器探讨 0喜欢 / 0评论 2011-10-09

Hadoop学习笔记一

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又参考了网上的很多文章，对学习Hadoop中遇到的问题进行了归纳总结。

yhblog 0喜欢 / 0评论 2011-07-29

Hadoop介绍

Hadoop主要分为两个大版本，1.0和2.0. HBase中的数据经常就存储在一张表中，所以在查询时无需跨表，查询速度快数据维护：关系数据在进行数据更新操作时，实际上旧的值会被新的值覆盖掉。而HBase中的所有值都会被存储，只有超过了设定的超时时间后，旧

whulovely 0喜欢 / 0评论 2019-06-27

Hadoop

Hadoop学习笔记一简要介绍这里先大致介绍一下Hadoop.本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又

gaoyubotaili 0喜欢 / 0评论 2010-06-05

Schedulerx2.0分布式计算原理&最佳实践

Processor：业务逻辑框架，不同的processor表示不同的任务类型。以MapTaskMaster为例，大概的原理如下图所示：

ahaoGG 0喜欢 / 0评论 2019-05-31

深度学习中，CPU、GPU、NPU、FPGA如何发挥优势

随着AI的广泛应用，深度学习已成为当前AI研究和运用的主流方式。面对海量数据的并行运算，AI对于算力的要求不断提升，对硬件的运算速度及功耗提出了更高的要求。目前，除通用CPU外，作为硬件加速的GPU、NPU、FPGA等一些芯片处理器在深度学习的不同应用中发

flyfish 0喜欢 / 0评论 2019-05-10

分布式入门，怎样用PyTorch实现多GPU分布式训练

具体来讲，本文首先介绍了分布式计算的基本概念，以及分布式计算如何用于深度学习。然后，列举了配置处理分布式应用的环境的标准需求。最后，为了提供亲身实践的经验，本文从理论角度和实现的角度演示了一个用于训练深度学习模型的分布式算法。原始的 Intel MPI 是

互联网架构之路 0喜欢 / 0评论 2019-05-05

基于云计算的电磁问题并行计算方法

天津工业大学天津市电工电能新技术重点实验室的研究人员金亮、邱运涛、杨庆新、牛萍娟、祝丽花，在2016年第22期《电工技术学报》上撰文，针对电工装备性能分析与优化所需的易用高性能计算问题，使用云计算技术搭建了弹性集群，实现了典型电磁问题在弹性集群中的并行计算

bayagkxyjbg 0喜欢 / 0评论 2017-04-23

使用 Dask 在 Python 中进行并行计算

Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。关于 Python 性能的一个常见抱怨是全局解释器锁。由于 GIL，同一时刻只能有一个线程执行 Python 字节码。因此，即使在现代的多核机器上，使用线程也不会加速计算。但当你需要并行化

kikaylee 0喜欢 / 0评论 2019-04-22

使用 Dask 在 Python 中进行并行计算

Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。关于 Python 性能的一个常见抱怨是全局解释器锁。由于 GIL，同一时刻只能有一个线程执行 Python 字节码。但当你需要并行化到多核时，你不需要放弃使用 Python： Das

liushidexing 0喜欢 / 0评论 2019-04-18

使用KernelML的自动编码器和并行计算

KernelML有许多潜在的用例，但它并不总是最好的工具。这个实验的目标是找到潜在的用例，在这些用例中，kernelml比现有的软件包提供了一些优势，用于构建神经网络。一种似乎具有潜力的用例是自动编码。通过使用'黑魔法'的方法，KernelML可以用来一次

zombee0 0喜欢 / 0评论 2018-06-16

扣丁学堂剖析大数据主要技术层面和技术内容

在现如今，随着国内互联网数据越来越庞大，目前大部分公司都是用大数据计算技术去管理。从大的方面来分，大数据技术与研究主要分为大数据基础理论、大数据关键技术和系统、大数据应用以及大数据信息资源库等几个重要方面。从信息系统的角度来看，大数据处理是一个涉及整个软硬

zhuyuty 0喜欢 / 0评论 2017-11-15

关于分布式计算的一些概念

整理自《架构解密从分布式到微服务》第七章——聊聊分布式计算.做了相应补充和修改。经过多年的发展与演进，目前业界已经存在很多成熟的分布式计算相关的开源编程框架和平台供我们选择。Actor之间仅通过发送消息进行通信，所有的操作都是异步的，不同的Actor可以同

MrIronHand 0喜欢 / 0评论 2018-06-04

浪潮发布最新深度学习框架CAFFE-MPI

与英特尔宣布第二代至强Phi芯片“Knights Landing”正式上市同步，浪潮在刚刚举行的第31届国际超算大会上，全球首发基于最新KNL平台的深度学习计算框架Caffe-MPI，这标志着浪潮称为全球第一个在英特尔最新的KNL平台上完成Caffe并行开

tuzhen0 0喜欢 / 0评论 2016-06-24

腾讯AI Lab刘霁谈机器学习，异步计算和去中心化是两大杀器

本文转载自「AI科技评论」，搜索「aitechtalk」即可关注。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。作为机器学习方面的专家，腾讯 AI Lab 专家研究员、美国罗彻斯特大学

huomingfei 0喜欢 / 0评论 2018-03-13

Python多进程并行编程实践: mpi4py 的使用

在高性能计算的项目中我们通常都会使用效率更高的编译型的语言例如C、C++、Fortran等，但是由于Python的灵活性和易用性使得它在发展和验证算法方面备受人们的青睐于是在高性能计算领域也经常能看到Python的身影了。本文简单介绍在Python环境下使

Tristahong 0喜欢 / 0评论 2017-04-25

Metal并行计算以及Metal程序的命令行编译

本来Cuda用的挺好，为了Apple，放弃Cuda，改投OpenCl。好不容易OpenCl也算熟悉了，WWDC2018又宣布了Metal2，建议大家放弃OpenCl，使用Metal Performance Shaders。Apple是一个富有“革命性”创新

86570594 0喜欢 / 0评论 2018-06-15

RedHat+MPI+SSH科学集群安装指南

唯一需要注意的是安装时，要把SSH选为可信赖的服务。安装以后，应该保证各节点之间能够用ssh相互登录。每个节点的sshd都应该能正常提供服务。如果安装系统后，别的机器无法用ssh登录，则可以用ipchains -L命令查看ipchains rules，

iOS开发笔记 0喜欢 / 0评论 2011-09-21

java与云计算

据观察Java的技术发展方向。很明显，众多的Java技术厂商已经将其目标聚焦在云计算当中。在Google、VMWare这样的巨头带领下，众多的小厂商也开始加入到行列当中。Java使云计算更简单，Java具有简单性、兼容性、简易性、安全性、动态性、高性能、解

wangyjbk 0喜欢 / 0评论 2011-05-18

Python基于pyCUDA实现GPU加速并行计算功能入门教程

本文实例讲述了Python基于pyCUDA实现GPU加速并行计算功能。分享给大家供大家参考，具体如下：。Nvidia的CUDA 架构为我们提供了一种便捷的方式来直接操纵GPU 并进行编程，但是基于 C语言的CUDA实现较为复杂，开发周期较长。而python

lsjweiyi 0喜欢 / 0评论 2018-06-19

并行计算的难点与数学原理解析

大约在五年前的那段时期内，计算速度的你追我逐曾一度陷入僵局。直到那个时候，设计师还一直是通过人尽皆知的三种技术来实现狂飙的性能：缩小本来已经非常微小的晶体管、在每颗处理器中整合更多数量的晶体管以及让它们以更高的频率运行。无论是选择多核CPU还是核群GPU，

xinlongkun 0喜欢 / 0评论 2010-06-11

为您揭晓多核并行计算是什么

由处理器技术的发展而催生的多核技术带动了软件编程的变革.在多核技术没有产生之前,台式机中有一种多CPU的架构:对称式多处理器,在一块主板上放置多块CPU的技术,但是这种主板架构当时来讲也非常昂贵,winNT支持这种技术,一般在服务器上才被应用.多核CPU的

架构技术交流 0喜欢 / 0评论 2010-06-10

详解Visual Studio 2010五大新特性

微软官方确认Visual Studio 2010 正式版将在2010年4月12日正式发布，这对软件业以及开发人员将产生重要影响。Visual Studio 是微软公司推出的、目前最流行的 Windows 平台应用程序开发环境。《程序员》4月刊将对Visua

hjlyff 0喜欢 / 0评论 2010-03-26

数据分布式了，计算也得跟上！

1 前情提要经过一番努力，张大胖和Bill成功地实现了一个分布式的文件系统：HDFS。这个系统可以把大文件分成一个个片段，分散地存储在各个服务器上，每个片段还额外有2个或多个备份。虽然把文件分了片，但在客户端软件看来，仍然是对一个文件进行操作，并不知道H

盘山牛 0喜欢 / 0评论 2018-12-18

Linux下Castep并行计算时节点配置

具体参考第2页的内容以及 Materials Studio Online Help 中 Installation and licensing

Garfier 0喜欢 / 0评论 2011-01-12

Visual Studio 2010着力打造云计算平台

在RC版本发布之后，我们看到微软为Visual Studio 2010增加了很多新功能，同时在云计算方面也有很大的改善，随着云计算时代的到来，软件开发模式和商业模型都将进入全面开放组合的新时代。微软云计算平台Windows Azure，这将把微软带入一个崭

ywjackchan 0喜欢 / 0评论 2010-02-24

Linux虚拟机中配置多节点MPI实现并行计算完整版

虚拟机CentOS中配置MPI多节点并行计算完整版，这是一个新手教程，从一个空白的CentOS到能正常运行的基础环境，尽量详细写了每个步骤。硬件资源有限，所以我只开了两台虚拟机均为 Centos 6.6。一些文章中提到还需要修改VMware的设置，实际上，

hehuistudent 0喜欢 / 0评论 2016-09-25

Linux下使用POSIX Thread作多核多线程并行计算

POSIX线程库根据处理器、操作系统等特性封装了一台线程处理的接口。对于目前基于x86处理器架构的Linux系统来说，它往往会默认地将新创建的一个线程调度到与主线程不同的核中执行，如果这样能更好地平衡负荷的话。因此，在使用POSIX线程时，开发者不能断言当

qifei 0喜欢 / 0评论 2015-12-13

Python 多核并行计算的示例代码

以前写点小程序其实根本不在乎并行，单核跑跑也没什么问题，而且我的电脑也只有双核四个超线程，觉得去折腾并行没啥意义。然后自从用上了32核128GB内存，看到 htop 里面一堆空载的核，很自然地就会想这个并行必须去折腾一下。后面发现，其实 Python 的并

清水寺小僧 0喜欢 / 0评论 2017-11-07

CentOS 5.6 X64下架设 Hadoop完全分布式文件系统

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布

echozj 0喜欢 / 0评论 2014-07-06

Linux之父Linus说：并行计算基本上就是浪费大家的时间

本文的内容翻译自 Linux 之父 linus torvalds 最近发表的一个帖子。并行计算有什么好的？推崇所谓的“并行”极大地浪费了大家的时间。并行只有对图形计算和服务器有意义，而在这些领域我们已经大量应用并行了。把并行推广到其他的领域没有意义。所以争

Doraemonmeowmeow 0喜欢 / 0评论 2015-02-01

Spark 并行计算模型

Spark是一个小巧玲珑的项目，由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，充分体现了精简之美。Spark要解决的问题是，在当前的分布式计算框架中不能有效处理的两类问题：i

Hhanwen 0喜欢 / 0评论 2012-12-20

使用并行计算大幅提升递归算法效率

4，4，4 共64个注意：这里是使用计算机遍历出所有排列组合，而不是求总数，如果只求总数，可以直接利用数学公式进行计算了。

ammmao 0喜欢 / 0评论 2012-12-20

淘宝分布式并行计算四合一框架Fourinone

Fourinone同时提供完整的分布式缓存支持，包括中小型缓存以及大型集群缓存，他使用不同于map/reduce的全新设计模式解决问题，模仿现实中生产加工链式加并行处理的“包工头/农民工/手工仓库/职业所”方式设计分布式计算，他还可以当做简单的mq使用。F

asartear 0喜欢 / 0评论 2011-12-30

Hadoop学习笔记一简要介绍

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又参考了网上的很多文章，对学习Hadoop中遇到的问题进行了归纳总结。

潜龙勿用 0喜欢 / 0评论 2012-01-17

Erlang视点：并行计算和云计算

Erlang算不上是一种"大众流行"的程序设计语言，而且即使是Erlang的支持者，大多数也对于Erlang成为"主流语言"并不持乐观态度。然而，自从2006年以来，Erlang语言确实在国内外一批精英程序员中暗流涌

liushen0 0喜欢 / 0评论 2010-03-22