numastat命令详解 NUMA的取舍与优化设置

作者：【吴业亮】
博客：http://blog.csdn.net/wylfengyujiancheng
一、系统架构的演进从SMP到NUMA
1、SMP(Symmetric Multi-Processor)

所谓对称多处理器结构，是指服务器中多个CPU对称工作，无主次或从属关系。各CPU共享相同的物理内存，每个 CPU访问内存中的任何地址所需时间是相同的，因此SMP也被称为一致存储器访问结构(UMA：Uniform Memory Access)。对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O(槽口数与总线数)以及添加更多的外部设备(通常是磁盘存储)。
SMP服务器的主要特征是共享，系统中所有资源(CPU、内存、I/O等)都是共享的。也正是由于这种特征，导致了SMP服务器的主要问题，那就是它的扩展能力非常有限。对于SMP服务器而言，每一个共享的环节都可能造成SMP服务器扩展时的瓶颈，而最受限制的则是内存。由于每个CPU必须通过相同的内存总线访问相同的内存资源，因此随着CPU数量的增加，内存访问冲突将迅速增加，最终会造成CPU资源的浪费，使 CPU性能的有效性大大降低。
有实验数据表明，SMP型的服务器CPU最好是2-4颗就OK了，多余的就浪费了。

2、NUMA(Non-Uniform Memory Access)

由于SMP在扩展能力上的限制，人们开始探究如何进行有效地扩展从而构建大型系统的技术，NUMA就是这种努力下的结果之一。利用NUMA技术，可以把几十个CPU(甚至上百个CPU)组合在一个服务器内。NUMA服务器的基本特征是具有多个CPU模块，每个CPU模块由多个CPU(如4个)组成，并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块(如称为Crossbar Switch)进行连接和信息交互，因此每个CPU可以访问整个系统的内存(这是NUMA系统与MPP系统的重要差别)。显然，访问本地内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度，这也是非一致存储访问NUMA的由来。由于这个特点，为了更好地发挥系统性能，开发应用程序时需要尽量减少不同CPU模块之间的信息交互。利用NUMA技术，可以较好地解决原来SMP系统的扩展问题，在一个物理服务器内可以支持上百个CPU。比较典型的NUMA服务器的例子包括HP的Superdome、SUN15K、IBMp690等。
每个CPU模块之间都是通过互联模块进行连接和信息交互，CPU都是互通互联的，同时，每个CPU模块平均划分为若干个Chip（不多于4个），每个Chip都有自己的内存控制器及内存插槽。
在NUMA中还有三个节点的概念：
1）、本地节点:对于某个节点中的所有CPU，此节点称为本地节点。
2）、邻居节点:与本地节点相邻的节点称为邻居节点。
3）、远端节点:非本地节点或邻居节点的节点，称为远端节点。
4）、邻居节点和远端节点,都称作非本地节点(Off Node)。
CPU访问不同类型节点内存的速度是不相同的，访问本地节点的速度最快，访问远端节点的速度最慢，即访问速度与节点的距离有关，距离越远访问速度越慢，此距离称作Node Distance。应用程序要尽量的减少不通CPU模块之间的交互，如果应用程序能有方法固定在一个CPU模块里，那么应用的性能将会有很大的提升。
二、NUMA实践
1、安装numactl工具
Linux提供了一个一个手工调优的命令numactl（默认不安装）
#yum install numactl -y
1
#numactl --hardware 列举系统上的NUMA节点
1
2、查看numa状态
# numactl --show
policy: default
preferred node: current
physcpubind: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
cpubind: 0 1
nodebind: 0 1
membind: 0 1
1234567
# numastat
                           node0           node1
numa_hit              1296554257       918018444
numa_miss                8541758        40297198
numa_foreign            40288595         8550361
interleave_hit             45651           45918
local_node            1231897031       835344122
other_node              64657226        82674322
12345678
说明：
numa_hit—命中的，也就是为这个节点成功分配本地内存访问的内存大小
numa_miss—把内存访问分配到另一个node节点的内存大小，这个值和另一个node的numa_foreign相对应。
numa_foreign–另一个Node访问我的内存大小，与对方node的numa_miss相对应
local_node----这个节点的进程成功在这个节点上分配内存访问的大小
other_node----这个节点的进程在其它节点上分配的内存访问大小
很明显，miss值和foreign值越高，就要考虑绑定的问题。
3、numad服务
在redhat6中，有一个numad的服务（需手工安装），它可以自动的监控我们cpu状况，并自动平衡资源，这个服务需要在内存使用量非常大的时候才会有明显的效果，当内存空余量较大时，需要关闭KSM，避免发生冲突。官方说在某些内存使用巨大的环境中，可能会提高50%的性能。
# service numad start
1
4、查看cpu和内存使用情况
# numactl --hardware
available: 2 nodes (0-1)
node 0 cpus: 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
node 0 size: 64337 MB
node 0 free: 1263 MB
node 1 cpus: 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
node 1 size: 64509 MB
node 1 free: 30530 MB
node distances:
node   0   1
0: 10 21
1: 21 10
123456789101112
cpu0 可用内存 1263 MB
cpu1 可用内存 30530 MB
当cpu0上申请内存超过1263M时必定使用swap，这个是很不合理的。
这里假设我要执行一个java param命令，此命令需要1G内存；一个python param命令，需要8G内存。
最好的优化方案时python在node1中执行，而java在node0中执行，那命令是：
#numactl --cpubind=0 --membind=0 python param
#numactl --cpubind=1 --membind=1 java param
12
5、NUMA的内存分配策略
1.缺省(default)：总是在本地节点分配（分配在当前进程运行的节点上）；
2.绑定(bind)：强制分配到指定节点上；
3.交叉(interleave)：在所有节点或者指定的节点上交织分配；
4.优先(preferred)：在指定节点上分配，失败则在其他节点上分配。
因为NUMA默认的内存分配策略是优先在进程所在CPU的本地内存中分配，会导致CPU节点之间内存分配不均衡，当某个CPU节点的内存不足时，会导致swap产生，而不是从远程节点分配内存。这就是所谓的swap insanity 现象。
举例：
# numactl --hardware
node 0 cpus: 0 2 4 6
node 0 size: 65490 MB
node 0 free: 24447 MB
node 1 cpus: 1 3 5 7
node 1 size: 65536 MB
node 1 free: 16050 MB
node distances:
node   0   1
0: 10 20
1: 20 10
1234567891011
可以看到numa节点是2个，cpu物理节点是8个
现在我们绑定资源,两颗cpu，每颗4个物理节点，那么我们开4个mysql实例，每个实例绑定2个cpu物理节点
numactl --physcpubind=0,3 --localalloc mysqld_multi --defaults-extra-file=/etc/mysqld_multi.cnf start 1
1
–physcpubind 指定绑定的cpu节点，
–localalloc表示使用内存方式，不交叉，以免降低性能，
mysqld_multi是mysql实例启动命令
三、如何关闭NUMA
方法一：通过bios关闭
BIOS:interleave = Disable / Enable
方法二：通过OS关闭
1、编辑 /etc/default/grub 文件，加上：numa=off
GRUB_CMDLINE_LINUX="crashkernel=auto numa=off rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"
1
2、重新生成 /etc/grub2.cfg 配置文件：
# grub2-mkconfig -o /etc/grub2.cfg
1
3、重启操作系统
# reboot
1
4、确认：
# dmesg | grep -i numa
[    0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.10.0-327.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto numa=off rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet[    0.000000] NUMA turned off[    0.000000] Kernel command line: BOOT_IMAGE=/vmlinuz-3.10.0-327.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto numa=off rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet

# cat /proc/cmdline
BOOT_IMAGE=/vmlinuz-3.10.0-327.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto numa=off rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet
---------------------
作者：二进制-程序猿
来源：CSDN
原文：https://blog.csdn.net/wylfengyujiancheng/article/details/85417675
版权声明：本文为博主原创文章，转载请附上博文链接！

原文链接:https://www.cnblogs.com/tcicy/p/10191505.html

NUMA的取舍与优化设置

在os层numa关闭时,打开bios层的numa会影响性能，QPS会下降15-30%;

在bios层面numa关闭时，无论os层面的numa是否打开，都不会影响性能。

      安装numactl:
      #yum install numactl -y
     #numastat      等同于 cat /sys/devices/system/node/node0/numastat ，在/sys/devices/system/node/文件夹中记录系统中的所有内存节点的相关详细信息。　     #numactl --hardware  列举系统上的NUMA节点

#numactl --show 查看绑定信息

      Redhat或者Centos系统中可以通过命令判断bios层是否开启numa
      # grep -i numa /var/log/dmesg
      如果输出结果为： No NUMA configuration found
      说明numa为disable，如果不是上面内容说明numa为enable,例如显示：NUMA: Using 30 for the hash shift.
      可以通过lscpu命令查看机器的NUMA拓扑结构。

当发现numa_miss数值比较高时，说明需要对分配策略进行调整。例如将指定进程关联绑定到指定的CPU上，从而提高内存命中率。

---------------------------------------------

现在的机器上都是有多个CPU和多个内存块的。以前我们都是将内存块看成是一大块内存，所有CPU到这个共享内存的访问消息是一样的。这就是之前普遍使用的SMP模型。但是随着处理器的增加，共享内存可能会导致内存访问冲突越来越厉害，且如果内存访问达到瓶颈的时候，性能就不能随之增加。NUMA（Non-Uniform Memory Access）就是这样的环境下引入的一个模型。比如一台机器是有2个处理器，有4个内存块。我们将1个处理器和两个内存块合起来，称为一个NUMA node，这样这个机器就会有两个NUMA node。在物理分布上，NUMA node的处理器和内存块的物理距离更小，因此访问也更快。比如这台机器会分左右两个处理器（cpu1, cpu2），在每个处理器两边放两个内存块(memory1.1, memory1.2, memory2.1,memory2.2)，这样NUMA node1的cpu1访问memory1.1和memory1.2就比访问memory2.1和memory2.2更快。所以使用NUMA的模式如果能尽量保证本node内的CPU只访问本node内的内存块，那这样的效率就是最高的。

在运行程序的时候使用numactl -m和-physcpubind就能制定将这个程序运行在哪个cpu和哪个memory中。玩转cpu-topology 给了一个表格，当程序只使用一个node资源和使用多个node资源的比较表（差不多是38s与28s的差距）。所以限定程序在numa node中运行是有实际意义的。

但是呢，话又说回来了，制定numa就一定好吗？--numa的陷阱。SWAP的罪与罚文章就说到了一个numa的陷阱的问题。现象是当你的服务器还有内存的时候，发现它已经在开始使用swap了，甚至已经导致机器出现停滞的现象。这个就有可能是由于numa的限制，如果一个进程限制它只能使用自己的numa节点的内存，那么当自身numa node内存使用光之后，就不会去使用其他numa node的内存了，会开始使用swap，甚至更糟的情况，机器没有设置swap的时候，可能会直接死机！所以你可以使用numactl --interleave=all来取消numa node的限制。

综上所述得出的结论就是，根据具体业务决定NUMA的使用。

如果你的程序是会占用大规模内存的，你大多应该选择关闭numa node的限制（或从硬件关闭numa）。因为这个时候你的程序很有几率会碰到numa陷阱。

另外，如果你的程序并不占用大内存，而是要求更快的程序运行时间。你大多应该选择限制只访问本numa node的方法来进行处理。

---------------------------------------------------------------------

内核参数overcommit_memory ：

它是内存分配策略

可选值：0、1、2。

0:表示内核将检查是否有足够的可用内存供应用进程使用；如果有足够的可用内存，内存申请允许；否则，内存申请失败，并把错误返回给应用进程。

1:表示内核允许分配所有的物理内存，而不管当前的内存状态如何。

2:表示内核允许分配超过所有物理内存和交换空间总和的内存

内核参数zone_reclaim_mode：

可选值0、1

a、当某个节点可用内存不足时：

1、如果为0的话，那么系统会倾向于从其他节点分配内存

2、如果为1的话，那么系统会倾向于从本地节点回收Cache内存多数时候

b、Cache对性能很重要，所以0是一个更好的选择

----------------------------------------------------------------------

mongodb的NUMA问题

mongodb日志显示如下:

WARNING: You are running on a NUMA machine.

We suggest launching mongod like this to avoid performance problems:

numactl –interleave=all mongod [other options]

解决方案，临时修改numa内存分配策略为 interleave=all （在所有node节点进行交织分配的策略）：

1.在原启动命令前面加numactl –interleave=all

如# numactl --interleave=all ${MONGODB_HOME}/bin/mongod --config conf/mongodb.conf

2.修改内核参数

echo 0 > /proc/sys/vm/zone_reclaim_mode ; echo "vm.zone_reclaim_mode = 0" >> /etc/sysctl.conf

----------------------------------------------------------------------

一、NUMA和SMP

NUMA和SMP是两种CPU相关的硬件架构。在SMP架构里面，所有的CPU争用一个总线来访问所有内存，优点是资源共享，而缺点是总线争用激烈。随着PC服务器上的CPU数量变多（不仅仅是CPU核数），总线争用的弊端慢慢越来越明显，于是Intel在Nehalem CPU上推出了NUMA架构，而AMD也推出了基于相同架构的Opteron CPU。

NUMA最大的特点是引入了node和distance的概念。对于CPU和内存这两种最宝贵的硬件资源，NUMA用近乎严格的方式划分了所属的资源组（node），而每个资源组内的CPU和内存是几乎相等。资源组的数量取决于物理CPU的个数（现有的PC server大多数有两个物理CPU，每个CPU有4个核）；distance这个概念是用来定义各个node之间调用资源的开销，为资源调度优化算法提供数据支持。

二、NUMA相关的策略

1、每个进程（或线程）都会从父进程继承NUMA策略，并分配有一个优先node。如果NUMA策略允许的话，进程可以调用其他node上的资源。

2、NUMA的CPU分配策略有cpunodebind、physcpubind。cpunodebind规定进程运行在某几个node之上，而physcpubind可以更加精细地规定运行在哪些核上。

3、NUMA的内存分配策略有localalloc、preferred、membind、interleave。

localalloc规定进程从当前node上请求分配内存；

而preferred比较宽松地指定了一个推荐的node来获取内存，如果被推荐的node上没有足够内存，进程可以尝试别的node。

membind可以指定若干个node，进程只能从这些指定的node上请求分配内存。

interleave规定进程从指定的若干个node上以RR（Round Robin 轮询调度）算法交织地请求分配内存。

因为NUMA默认的内存分配策略是优先在进程所在CPU的本地内存中分配，会导致CPU节点之间内存分配不均衡，当某个CPU节点的内存不足时，会导致swap产生，而不是从远程节点分配内存。这就是所谓的swap insanity 现象。

MySQL采用了线程模式，对于NUMA特性的支持并不好，如果单机只运行一个MySQL实例，我们可以选择关闭NUMA，关闭的方法有三种：

1.硬件层，在BIOS中设置关闭

2.OS内核，启动时设置numa=off；

3.可以用numactl命令将内存分配策略修改为interleave（交叉)。

如果单机运行多个MySQL实例，我们可以将MySQL绑定在不同的CPU节点上，并且采用绑定的内存分配策略，强制在本节点内分配内存，这样既可以充分利用硬件的NUMA特性，又避免了单实例MySQL对多核CPU利用率不高的问题

三、NUMA和swap的关系

可能大家已经发现了，NUMA的内存分配策略对于进程（或线程）之间来说，并不是公平的。在现有的Redhat Linux中，localalloc是默认的NUMA内存分配策略，这个配置选项导致资源独占程序很容易将某个node的内存用尽。而当某个node的内存耗尽时，Linux又刚好将这个node分配给了某个需要消耗大量内存的进程（或线程），swap就妥妥地产生了。尽管此时还有很多page cache可以释放，甚至还有很多的free内存。

四、解决swap问题

虽然NUMA的原理相对复杂，实际上解决swap却很简单：只要在启动MySQL之前使用numactl –interleave来修改NUMA策略即可。

值得注意的是，numactl这个命令不仅仅可以调整NUMA策略，也可以用来查看当前各个node的资源使用情况，是一个很值得研究的命令。

一、CPU
　　首先从CPU说起。
　　你仔细检查的话，有些服务器上会有的一个有趣的现象：你cat /proc/cpuinfo时，会发现CPU的频率竟然跟它标称的频率不一样：
　　#cat /proc/cpuinfo
　　processor : 5
　　model name : Intel(R) Xeon(R) CPU E5-2620 0 @2.00GHz
　　cpu MHz : 1200.000
　　这个是Intel E5-2620的CPU，他是2.00G * 24的CPU，但是，我们发现第5颗CPU的频率为1.2G。
　　这是什么原因呢?
　　这些其实都源于CPU最新的技术：节能模式。操作系统和CPU硬件配合，系统不繁忙的时候，为了节约电能和降低温度，它会将CPU降频。这对环保人士和抵制地球变暖来说是一个福音，但是对MySQL来说，可能是一个灾难。
　　为了保证MySQL能够充分利用CPU的资源，建议设置CPU为最大性能模式。这个设置可以在BIOS和操作系统中设置，当然，在BIOS中设置该选项更好，更彻底。由于各种BIOS类型的区别，设置为CPU为最大性能模式千差万别，我们这里就不具体展示怎么设置了。
　　然后我们看看内存方面，我们有哪些可以优化的。
　　i) 我们先看看numa
　　非一致存储访问结构 (NUMA ： Non-Uniform Memory Access) 也是最新的内存管理技术。它和对称多处理器结构 (SMP ： Symmetric Multi-Processor) 是对应的。简单的队别如下：
　　如图所示，详细的NUMA信息我们这里不介绍了。但是我们可以直观的看到：SMP访问内存的都是代价都是一样的;但是在NUMA架构下，本地内存的访问和非本地内存的访问代价是不一样的。对应的根据这个特性，操作系统上，我们可以设置进程的内存分配方式。目前支持的方式包括：
　　--interleave=nodes
　　--membind=nodes
　　--cpunodebind=nodes
　　--physcpubind=cpus
　　--localalloc
　　--preferred=node
　　简而言之，就是说，你可以指定内存在本地分配，在某几个CPU节点分配或者轮询分配。除非是设置为--interleave=nodes轮询分配方式，即内存可以在任意NUMA节点上分配这种方式以外。其他的方式就算其他NUMA节点上还有内存剩余，Linux也不会把剩余的内存分配给这个进程，而是采用SWAP的方式来获得内存。有经验的系统管理员或者DBA都知道SWAP导致的数据库性能下降有多么坑爹。
　　所以最简单的方法，还是关闭掉这个特性。
　　关闭特性的方法，分别有：可以从BIOS，操作系统，启动进程时临时关闭这个特性。
　　a) 由于各种BIOS类型的区别，如何关闭NUMA千差万别，我们这里就不具体展示怎么设置了。
　　b) 在操作系统中关闭，可以直接在/etc/grub.conf的kernel行最后添加numa=off，如下所示：
　　kernel /vmlinuz-2.6.32-220.el6.x86_64 ro root=/dev/mapper/VolGroup-root rd_NO_LUKS LANG=en_US.UTF-8 rd_LVM_LV=VolGroup/root rd_NO_MD quiet SYSFONT=latarcyrheb-sun16 rhgb crashkernel=auto rd_LVM_LV=VolGroup/swap rhgb crashkernel=auto quiet KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM numa=off
　　另外可以设置 vm.zone_reclaim_mode=0尽量回收内存。
　　c) 启动MySQL的时候，关闭NUMA特性：
　　numactl --interleave=all mysqld
　　当然，最好的方式是在BIOS中关闭。
　　ii) 我们再看看vm.swappiness。
　　vm.swappiness是操作系统控制物理内存交换出去的策略。它允许的值是一个百分比的值，最小为0，最大运行100，该值默认为60。vm.swappiness设置为0表示尽量少swap，100表示尽量将inactive的内存页交换出去。
　　具体的说：当内存基本用满的时候，系统会根据这个参数来判断是把内存中很少用到的inactive 内存交换出去，还是释放数据的cache。cache中缓存着从磁盘读出来的数据，根据程序的局部性原理，这些数据有可能在接下来又要被读取;inactive 内存顾名思义，就是那些被应用程序映射着，但是长时间不用的内存。
　　我们可以利用vmstat看到inactive的内存的数量：
　　#vmstat -an 1
　　procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
　　r b swpd free inact active si so bi bo in cs us sy id wa st
　　1 0 0 27522384 326928 1704644 0 0 0 153 11 10 0 0 100 0 0
　　0 0 0 27523300 326936 1704164 0 0 0 74 784 590 0 0 100 0 0
　　0 0 0 27523656 326936 1704692 0 0 8 8 439 1686 0 0 100 0 0
　　0 0 0 27524300 326916 1703412 0 0 4 52 198 262 0 0 100 0 0
　　通过/proc/meminfo 你可以看到更详细的信息：
　　#cat /proc/meminfo | grep -i inact
　　Inactive: 326972 kB
　　Inactive(anon): 248 kB
　　Inactive(file): 326724 kB
　　这里我们对不活跃inactive内存进一步深入讨论。 Linux中，内存可能处于三种状态：free，active和inactive。众所周知，Linux Kernel在内部维护了很多LRU列表用来管理内存，比如LRU_INACTIVE_ANON, LRU_ACTIVE_ANON, LRU_INACTIVE_FILE , LRU_ACTIVE_FILE, LRU_UNEVICTABLE。其中LRU_INACTIVE_ANON, LRU_ACTIVE_ANON用来管理匿名页，LRU_INACTIVE_FILE , LRU_ACTIVE_FILE用来管理page caches页缓存。系统内核会根据内存页的访问情况，不定时的将活跃active内存被移到inactive列表中，这些inactive的内存可以被交换到swap中去。
　　一般来说，MySQL，特别是InnoDB管理内存缓存，它占用的内存比较多，不经常访问的内存也会不少，这些内存如果被Linux错误的交换出去了，将浪费很多CPU和IO资源。 InnoDB自己管理缓存，cache的文件数据来说占用了内存，对InnoDB几乎没有任何好处。
　　所以，我们在MySQL的服务器上最好设置vm.swappiness=1或0

先要说的是，并不是所有的场景都适合绑定的，当出现内存交叉访问，或者缓存命中较低时，或者你想把某进程运行在特定的CPU上时可以进行绑定。那么要先知道怎么查看是否出现了交叉内存访问。

那么除了交叉内存访问，还有什么值得我们去绑定进程呢？

那就了解下内存贬值吧：

如果很多进程运行在CPU的某一个核心之上，我们都知道，CPU核心都是和L1直接打交道的,而各个进程间呢，还是切换着轮流运行的，如果我L1中全部缓存了进程A的数据，那么当我进程B或进程C运行时，极有可能会置换L1中的缓存数据，如果A进程没有运行完，当进程A再次执行时，还需要去置换L1中的缓存数据，这样，各个进程运行时可能每次都要置换L1中的数据，可能大部分时间都浪费在了置换缓存上，所以，我们可以将对性能敏感的进程绑定到某一个或一组核心，将多线程的程序也绑定到某一核心，这样，将大大提高服务器性能。

先来说numastat这个命令：

这个命令主要是显示进程与每个numa节点的内存分配的统计数据和分配的成功与失败情况。先上个图：

可以看到我这里只有一个Node节点，也就是说只有一颗CPU，所以可能看不出效果。

numa_hit---命中的，也就是为这个节点成功分配本地内存访问的内存大小

numa_miss---把内存访问分配到另一个node节点的内存大小，这个值和另一个node的numa_foreign相对应。

numa_foreign--另一个Node访问我的内存大小，与对方node的numa_miss相对应

interleave_hit---这个参数暂时不明确

local_node----这个节点的进程成功在这个节点上分配内存访问的大小

other_node----这个节点的进程在其它节点上分配的内存访问大小

很明显，miss值和foreign值越高，就要考虑绑定的问题。

numastat的常用参数：

-c：紧凑的显示信息，并将内存四舍五入到MB单位，如果节点较多，可以使用这个参数，看图，来看下效果：

单位都变成了MB了

-m：显示每个节点中，系统范围内使用内存的情况，可以与其它参数组合使用：

-n：以原格式显示，但单位为MB

-p：可以指定pid或指定某Node

-s:进行排序，查看的更直观：

-z:忽略所有为0的行和列

下面再来说一下一个绑定的命令,numactl，这个命令可以将某个进程绑定到某个node或某个node上的某个或某组核心上。

--show:可以查看当前的numa策略，

-H：可以显示各Node中内存使用情况

--membind：只从某节点分配内存，当某节点内存不足，则会分配失败，格式：

numactl --membind=nodes program（nodes写你要分配的节点0或1或者其它节点数，后面是程序，可以写绝对路径，也可写服务启动脚本）

--numactl：把进程绑定到某节点上，用法如下：

numactl --cpunodebind=nodes program（nodes为Cpu节点，后面跟程序,）

--physcpubind:把进程绑定到某核心上，如果程序运行，用法如下(参数太长就简写了，其它简写参数自己Man)：

numactl -C 1,3 httpd

--localalloc:指令永远在当前节点分配内存，用法：

numactl -l httpd

--preferred：如果指定的内存无法分配足够的空间，可以指定去某一个节点的内存分配，格式如下：

numactl --preferred=0 httpd

上面的大部分参数需要停止服务后执行。机器重启配置失效。

在redhat6中，有一个numad的服务（需手工安装），它可以自动的监控我们cpu状况，并自动平衡资源，这个服务需要在内存使用量非常大的时候才会有明显的效果，当内存空余量较大时，需要关闭KSM，避免发生冲突。官方说在某些内存使用巨大的环境中，可能会提高50%的性能。

两种使用方法：

1.service numad start

2.numad -S 0 -p pid 使用numad -i 0 停止

numad暂时没有使用过，了解的不多。。

原文链接：http://blog.51cto.com/hl914/1557615

命令：
yum install numactl
numastat
numactl --hardware
cat /sys/class/net/enp129s0f0/device/numa_node
mpstat
-P ALL
lscpu
1、centos 安装支持numa命令
yum install numactl
2、验证系统是否支持numa

dmesg | grep -i numa查看输出结果：
如果输出结果为：
No NUMA configuration found
说明numa为disable，如果不是上面的内容说明numa为enable

3、查看numa的状态 numastat
numastat

numa_hit是打算在该节点上分配内存，最后从这个节点分配的次数;

num_miss是打算在该节点分配内存，最后却从其他节点分配的次数;

num_foregin是打算在其他节点分配内存，最后却从这个节点分配的次数;

interleave_hit是采用interleave策略最后从该节点分配的次数;

local_node该节点上的进程在该节点上分配的次数

other_node是其他节点进程在该节点上分配的次数

4、查看numa相关信息，包括每个node内存大小，每个node中的逻辑cpu
numactl --hardware

lscpu命令也可以查看呢cpu和node的关系
5、查看网卡对应的numa node
enp129s0f0是网卡的名字
cat /sys/class/net/enp129s0f0/device/numa_node

6、查看cpu负载
mpstat -P ALL(需要安装sysstat)

7、测试（访问不同节点的内存的IO）（参考http://blog.csdn.net/wu7244582/article/details/52807117）

1) write 测试

# numactl --cpubind=0 --membind=0 dd if=/dev/zero of=/dev/shm/A bs=1M count=1024
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB) copied, 0.823497 s, 1.3 GB/s

# numactl --cpubind=0 --membind=1 dd if=/dev/zero of=/dev/shm/A bs=1M count=1024
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB) copied, 0.936182 s, 1.1 GB/s

明显访问同一节点的内存速度比访问不同节点内存的速度快。

2） read 测试

# numactl --cpubind=0 --membind=0 dd if=/dev/shm/A of=/dev/null bs=1K count=1024K
1048576+0 records in
1048576+0 records out
1073741824 bytes (1.1 GB) copied, 1.09543 s, 980 MB/s

# numactl --cpubind=0 --membind=1 dd if=/dev/shm/A of=/dev/null bs=1K count=1024K
1048576+0 records in
1048576+0 records out
1073741824 bytes (1.1 GB) copied, 1.11862 s, 960 MB/s

结论和write 相同。但是差距比较小。
---------------------
作者：懒少
来源：CSDN
原文：https://blog.csdn.net/shaoyunzhe/article/details/53606584
版权声明：本文为博主原创文章，转载请附上博文链接！

在os层numa关闭时,打开bios层的numa会影响性能，QPS会下降15-30%;

在bios层面numa关闭时，无论os层面的numa是否打开，都不会影响性能。

#numactl --show 查看绑定信息

当发现numa_miss数值比较高时，说明需要对分配策略进行调整。例如将指定进程关联绑定到指定的CPU上，从而提高内存命中率。

---------------------------------------------

综上所述得出的结论就是，根据具体业务决定NUMA的使用。

如果你的程序是会占用大规模内存的，你大多应该选择关闭numa node的限制（或从硬件关闭numa）。因为这个时候你的程序很有几率会碰到numa陷阱。

另外，如果你的程序并不占用大内存，而是要求更快的程序运行时间。你大多应该选择限制只访问本numa node的方法来进行处理。

---------------------------------------------------------------------

内核参数overcommit_memory ：

它是内存分配策略

可选值：0、1、2。

0:表示内核将检查是否有足够的可用内存供应用进程使用；如果有足够的可用内存，内存申请允许；否则，内存申请失败，并把错误返回给应用进程。

1:表示内核允许分配所有的物理内存，而不管当前的内存状态如何。

2:表示内核允许分配超过所有物理内存和交换空间总和的内存

内核参数zone_reclaim_mode：

可选值0、1

a、当某个节点可用内存不足时：

1、如果为0的话，那么系统会倾向于从其他节点分配内存

2、如果为1的话，那么系统会倾向于从本地节点回收Cache内存多数时候

b、Cache对性能很重要，所以0是一个更好的选择

----------------------------------------------------------------------

mongodb的NUMA问题

mongodb日志显示如下:

WARNING: You are running on a NUMA machine.

We suggest launching mongod like this to avoid performance problems:

numactl –interleave=all mongod [other options]

解决方案，临时修改numa内存分配策略为 interleave=all （在所有node节点进行交织分配的策略）：

1.在原启动命令前面加numactl –interleave=all

如# numactl --interleave=all ${MONGODB_HOME}/bin/mongod --config conf/mongodb.conf

2.修改内核参数

echo 0 > /proc/sys/vm/zone_reclaim_mode ; echo "vm.zone_reclaim_mode = 0" >> /etc/sysctl.conf

----------------------------------------------------------------------

一、NUMA和SMP

二、NUMA相关的策略

1、每个进程（或线程）都会从父进程继承NUMA策略，并分配有一个优先node。如果NUMA策略允许的话，进程可以调用其他node上的资源。

2、NUMA的CPU分配策略有cpunodebind、physcpubind。cpunodebind规定进程运行在某几个node之上，而physcpubind可以更加精细地规定运行在哪些核上。

3、NUMA的内存分配策略有localalloc、preferred、membind、interleave。

localalloc规定进程从当前node上请求分配内存；

而preferred比较宽松地指定了一个推荐的node来获取内存，如果被推荐的node上没有足够内存，进程可以尝试别的node。

membind可以指定若干个node，进程只能从这些指定的node上请求分配内存。

interleave规定进程从指定的若干个node上以RR（Round Robin 轮询调度）算法交织地请求分配内存。

MySQL采用了线程模式，对于NUMA特性的支持并不好，如果单机只运行一个MySQL实例，我们可以选择关闭NUMA，关闭的方法有三种：

1.硬件层，在BIOS中设置关闭

2.OS内核，启动时设置numa=off；

3.可以用numactl命令将内存分配策略修改为interleave（交叉)。

三、NUMA和swap的关系

四、解决swap问题

虽然NUMA的原理相对复杂，实际上解决swap却很简单：只要在启动MySQL之前使用numactl –interleave来修改NUMA策略即可。

值得注意的是，numactl这个命令不仅仅可以调整NUMA策略，也可以用来查看当前各个node的资源使用情况，是一个很值得研究的命令。

numastat命令详解 NUMA的取舍与优化设置

猜你喜欢