为您揭晓多核并行计算是什么

架构技术交流 2010-06-10

由处理器技术的发展而催生的多核技术带动了软件编程的变革.

以前只有在超级计算机中才能体验的并行计算目前被普及到了台式机中.

在多核技术没有产生之前,台式机中有一种多CPU的架构:对称式多处理器,在一块主板上放置多块CPU的技术,但是这种主板架构当时来讲也非常昂贵,winNT支持这种技术,一般在服务器上才被应用.

多核CPU的产生,开启了并行计算的美好篇章,普通开发者/用户都可以廉价的得到它(xp支持这种多核CPU,win98则不支持).

多核CPU架构与多CPU架构并无太大区别,只是将芯片封装的更紧密,成本更低而已.

在最新的Intel i7系列处理器上同时支持多核与超线程,这意味着处理器将扩充一倍的内核数量,如4核心CPU,将被操作系统识别为8核心.

例如在一个主板上有4个CPU插槽,每个槽插一个4核的CPU,并且每一核都具有超线程,那么将会有32个线程共同执行代码(32位windows支持CPU数量的极限),这太帅了,不是吗?

概念

Concurrent(并发)与Parallel(并行)

并发是用来描述并行执行的方式(看上去一起发生的事件,例如目前操作系统的多任务调度程序,看上去桌面上有许多程序在同时运行.),并发是形容词.

并行是指通过并发将一个操作分解成一组粒度更细的工作单元,并且这些工作单元可以在不同的处理器内核上运行.并行是动词,指必须有两个以上的事件发生.

工作单元,以粒度可分为最小到单一CPU指令,大到函数或系统任务.

并行有数据并行性与任务并行性

数据并行性指对许多数据执行相同的并行操作,比如对一组数的每个数进行加法操作.

任务并行性指对相同的一组数据执行不同的并行操作,比如一个执行加法操作,而另一个执行乘法操作.

优秀的多核微处理器:

AMD Multicore Opteron

Intel Core2 Duo

并行编程的麻烦:内存一致模型简称内存模型

缓存一致性(cache coherency) 将缓存与主内存数据进行同步

内存一致性模型(memory consistency model)

CPU可以对内存的读取或写入操作重新排序(乱序执行Out of Order),而导致内存一致性的产生.就是指CPU中实际内存访问操作与程序代码中内存访问操作的不一致性程度.

CPU的硬件架构决定了内存模型的强度,强度越高写代码就会更容易.

x86/64架构的CPU有较强的内存一致性模型,而安腾系列处理器Itanium(IA-64)是较弱的模型.它为了提高性能(不必根踪缓存行的状态)不会主动刷新缓存,而是提供指令操作缓存刷新到主内存.

还有一些软件实现的内存模型,比如java虚拟机和.NET CLR,它们都是比较强的内存模型,而且不考虑具体的硬件实现.

解决办法:内存栅栏(memory fence)

内存栅栏可以阻止目标架构对指令进行重排.利用语言平台的特性或原子方法可以实现内存栅栏,比如.net中的Interlocked类方法,c++中的volatile变量.

附录一些并行库:

Single Unix Specification的POSIX线程库.

Intel的TBB线程库.

Standard Template Adaptive Parallel Library,STAPL:标准模板适配并行库.

最后并行编程库必须得到操作系统的支持,如果系统没有相应功能api,上面那些并行库也就一无是处了.

相关推荐