OpenMP入门教程(二)

OpenMP API概述

OpenMP由三部分组成:

  • 编译指令(19)
  • 运行时库程序(32)
  • 环境变量(9)

后来的API包含同样的三个组件,只是三者的数量都有所增加。

编译器指令

OpenMP编译器指令用于各种目的:

  • 产生平行区域
  • 在线程之间划分代码块
  • 在线程之间分配循环迭代
  • 序列化代码段
  • 线程之间的工作同步

格式如下

#pragma omp <directive> [clause[[,] clause] ...]

通用规则:

  • 区分大小写
  • 指令遵循编译指令的C/C++规则
  • 每个指令只能指定一个指令名
  • 每个指令最多使用一个后续语句,该语句必须是结构化块
  • 通过在指令行末尾用反斜杠(“\”)转义换行符,可以在后续行上“继续”长指令行

并行区域构造:

并行区域是将由多个线程执行的代码块。这是基本的OpenMP并行构造。

 1 #pragma omp parallel [clause ...] newline 
 2                      if (scalar_expression) 
 3                      private (list) 
 4                      shared (list) 
 5                      default(shared | none)
 6                      firstprivate (list) 
 7                      reduction (operator:list) 
 8                      copyin (list) 
 9                      num_threads (integer-expression)
10 
11  
12    structured_block

暂时先解释以下num_threads语句(其它见另外一篇博客,有点多

这里的线程数是多少呢?决定线程数的因素有多个,它们的优先级如下:

  1. if语句的值
  2. 设置num_threads语句
  3. 使用的omp_set_num_threads() 库函数
  4. 设置的OMP_NUM_THREADS 环境变量

注意:生成的线程编号为0~N,其中0是主线程(master thread)的编号

指令(directive)

共11个

  • atomic 内存位置将会原子更新(Specifies that a memory location that will be updated atomically.)
  • barrier 线程在此等待,直到所有的线程都运行到此barrier。用来同步所有线程。
  • critical 其后的代码块为临界区,任意时刻只能被一个线程运行。
  • flush 所有线程对所有共享对象具有相同的内存视图(view of memory)
  • for 用在for循环之前,把for循环并行化由多个线程执行。循环变量只能是整型
  • master 指定由主线程来运行接下来的程序。
  • ordered 指定在接下来的代码块中,被并行化的 for循环将依序运行(sequential loop)
  • parallel 代表接下来的代码块将被多个线程并行各执行一遍。
  • sections 将接下来的代码块包含将被并行执行的section块。
  • single 之后的程序将只会在一个线程(未必是主线程)中被执行,不会被并行执行。
  • threadprivate 指定一个变量是线程局部存储(thread local storage)

从句(clause)

共13个

  • copyin 让threadprivate的变量的值和主线程的值相同。
  • copyprivate 不同线程中的变量在所有线程中共享。
  • default Specifies the behavior of unscoped variables in a parallel region.
  • firstprivate 对于线程局部存储的变量,其初值是进入并行区之前的值。
  • if 判断条件,可用来决定是否要并行化。
  • lastprivate 在一个循环并行执行结束后,指定变量的值为循环体在顺序最后一次执行时获取的值,或者#pragma sections在中,按文本顺序最后一个section中执行获取的值。
  • nowait 忽略barrier的同步等待。
  • num_threads 设置线程数量的数量。默认值为当前计算机硬件支持的最大并发数。一般就是CPU的内核数目。超线程被操作系统视为独立的CPU内核。
  • ordered 使用于 for,可以在将循环并行化的时候,将程序中有标记 directive ordered 的部分依序运行。
  • private 指定变量为线程局部存储。
  • reduction Specifies that one or more variables that are private to each thread are the subject of a reduction operation at the end of the parallel region.
  • schedule 设置for循环的并行化方法;有 dynamic、guided、runtime、static 四种方法。shared 指定变量为所有线程共享。
    • schedule(static, chunk_size) 把chunk_size数目的循环体的执行,静态依序指定给各线程。
    • schedule(dynamic, chunk_size) 把循环体的执行按照chunk_size(缺省值为1)分为若干组(即chunk),每个等待的线程获得当前一组去执行,执行完后重新等待分配新的组。
    • schedule(guided, chunk_size) 把循环体的执行分组,分配给等待执行的线程。最初的组中的循环体执行数目较大,然后逐渐按指数方式下降到chunk_size。
    • schedule(runtime) 循环的并行化方式不在编译时静态确定,而是推迟到程序执行时动态地根据环境变量OMP_SCHEDULE 来决定要使用的方法。
  • shared 指定变量为所有线程共享。

OpenmMP的库函数(Run-Time Library  Routines)

共22个:

1.void omp_set_num_threads(int _Num_threads);

在后续并行区域设置线程数,此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域.说明:此函数只能在串行代码部分调用.

2.int omp_get_num_threads(void);

返回当前线程数目.说明:如果在串行代码中调用此函数,返回值为1.

3.int omp_get_max_threads(void);

如果在程序中此处遇到未使用 num_threads() 子句指定的活动并行区域,则返回程序的最大可用线程数量.说明:可以在串行或并行区域调用,通常这个最大数量由omp_set_num_threads()或OMP_NUM_THREADS环境变量决定.

4.int omp_get_thread_num(void);

返回当前线程id.id从1开始顺序编号,主线程id是0.

5.int omp_get_num_procs(void);

返回程序可用的处理器数.

6.void omp_set_dynamic(int _Dynamic_threads);

启用或禁用可用线程数的动态调整.(缺省情况下启用动态调整.)此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域.如果 _Dynamic_threads 的值为非零值,启用动态调整;否则,禁用动态调整.

7.int omp_get_dynamic(void);

确定在程序中此处是否启用了动态线程调整.启用了动态线程调整时返回非零值;否则,返回零值.

8.int omp_in_parallel(void);

确定线程是否在并行区域的动态范围内执行.如果在活动并行区域的动态范围内调用,则返回非零值;否则,返回零值.活动并行区域是指 IF 子句求值为 TRUE 的并行区域.

9.void omp_set_nested(int _Nested);

启用或禁用嵌套并行操作.此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域._Nested 的值为非零值时启用嵌套并行操作;否则,禁用嵌套并行操作.缺省情况下,禁用嵌套并行操作.

10.int omp_get_nested(void);

确定在程序中此处是否启用了嵌套并行操作.启用嵌套并行操作时返回非零值;否则,返回零值.

互斥锁操作 嵌套锁操作 功能

11.void omp_init_lock(omp_lock_t * _Lock); 12. void omp_init_nest_lock(omp_nest_lock_t * _Lock);

初始化一个(嵌套)互斥锁.

13.void omp_destroy_lock(omp_lock_t * _Lock); 14.void omp_destroy_nest_lock(omp_nest_lock_t * _Lock);

结束一个(嵌套)互斥锁的使用并释放内存.

15.void omp_set_lock(omp_lock_t * _Lock); 16.void omp_set_nest_lock(omp_nest_lock_t * _Lock);

获得一个(嵌套)互斥锁.

17.void omp_unset_lock(omp_lock_t * _Lock); 18.void omp_unset_nest_lock(omp_nest_lock_t * _Lock);

释放一个(嵌套)互斥锁.

19.int omp_test_lock(omp_lock_t * _Lock); 20.int omp_test_nest_lock(omp_nest_lock_t * _Lock);

试图获得一个(嵌套)互斥锁,并在成功时放回真(true),失败是返回假(false).

21.double omp_get_wtime(void);

获取wall clock time,返回一个double的数,表示从过去的某一时刻经历的时间,一般用于成对出现,进行时间比较. 此函数得到的时间是相对于线程的,也就是每一个线程都有自己的时间.

22.double omp_get_wtick(void);

得到clock ticks的秒数.

对这些指令详细的解释及应用,可见这篇博客

参考链接:

1、https://computing.llnl.gov/tutorials/openMP/#Abstract

2、https://www.wikiwand.com/zh-cn/OpenMP

猜你喜欢

转载自www.cnblogs.com/lfri/p/10111466.html