堆栈&内存基础知识

为了理解什么是堆栈缓冲区, 我们必须首先理解一个进程是以什么组织形式在内存中存在的.

进程被分成三个区域: 文本, 数据和堆栈. 我们把精力集中在堆栈区域, 但首先按照顺序简单介绍一下其他区域.

文本区域是由程序确定的, 包括代码(指令)和只读数据. 该区域相当于可执行

文件的文本段. 这个区域通常被标记为只读, 任何对其写入的操作都会导致段错误

(segmentation violation).

数据区域包含了已初始化和未初始化的数据. 静态变量储存在这个区域中. 数

据区域对应可执行文件中的data-bss段. 它的大小可以用系统调用brk(2)来改变.

如果bss数据的扩展或用户堆栈把可用内存消耗光了, 进程就会被阻塞住, 等待有了

一块更大的内存空间之后再运行. 新内存加入到数据和堆栈段的中间.

扫描二维码关注公众号，回复： 808528 查看本文章

/------------------\ 内存低地址

| |

| 文本 |

| |

|------------------|

| (已初始化) |

| 数据 |

| (未初始化) |

|------------------|

| |

| 堆栈 |

| |

\------------------/ 内存高地址

Fig. 1 进程内存区域

什么是堆栈?

~~~~~~~~~~~~~

堆栈是一个在计算机科学中经常使用的抽象数据类型. 堆栈中的物体具有一个特性:

最后一个放入堆栈中的物体总是被最先拿出来, 这个特性通常称为后进先处(LIFO)队列.

堆栈中定义了一些操作. 两个最重要的是PUSH和POP. PUSH操作在堆栈的顶部加入一

个元素. POP操作相反, 在堆栈顶部移去一个元素, 并将堆栈的大小减一.

为什么使用堆栈?

~~~~~~~~~~~~~~~~

现代计算机被设计成能够理解人们头脑中的高级语言. 在使用高级语言构造程序时

最重要的技术是过程(procedure)和函数(function). 从这一点来看, 一个过程调用可

以像跳转(jump)命令那样改变程序的控制流程, 但是与跳转不同的是, 当工作完成时,

函数把控制权返回给调用之后的语句或指令. 这种高级抽象实现起来要靠堆栈的帮助.

堆栈也用于给函数中使用的局部变量动态分配空间, 同样给函数传递参数和函数返

回值也要用到堆栈.

堆栈区域

~~~~~~~~~~

堆栈是一块保存数据的连续内存. 一个名为堆栈指针(SP)的寄存器指向堆栈的顶部.

堆栈的底部在一个固定的地址. 堆栈的大小在运行时由内核动态地调整. CPU实现指令

PUSH和POP, 向堆栈中添加元素和从中移去元素.

堆栈由逻辑堆栈帧组成. 当调用函数时逻辑堆栈帧被压入栈中, 当函数返回时逻辑

堆栈帧被从栈中弹出. 堆栈帧包括函数的参数, 函数地局部变量, 以及恢复前一个堆栈

帧所需要的数据, 其中包括在函数调用时指令指针(IP)的值.

堆栈既可以向下增长(向内存低地址)也可以向上增长, 这依赖于具体的实现. 在我

们的例子中, 堆栈是向下增长的. 这是很多计算机的实现方式, 包括Intel, Motorola,

SPARC和MIPS处理器. 堆栈指针(SP)也是依赖于具体实现的. 它可以指向堆栈的最后地址,

或者指向堆栈之后的下一个空闲可用地址. 在我们的讨论当中, SP指向堆栈的最后地址.

除了堆栈指针(SP指向堆栈顶部的的低地址)之外, 为了使用方便还有指向帧内固定

地址的指针叫做帧指针(FP). 有些文章把它叫做局部基指针(LB-local base pointer).

从理论上来说, 局部变量可以用SP加偏移量来引用. 然而, 当有字被压栈和出栈后, 这

些偏移量就变了. 尽管在某些情况下编译器能够跟踪栈中的字操作, 由此可以修正偏移

量, 但是在某些情况下不能. 而且在所有情况下, 要引入可观的管理开销. 而且在有些

机器上, 比如Intel处理器, 由SP加偏移量访问一个变量需要多条指令才能实现.

因此, 许多编译器使用第二个寄存器FP, 对于局部变量和函数参数都可以引用,

因为它们到FP的距离不会受到PUSH和POP操作的影响. 在Intel CPU中, BP(EBP)用于这

个目的. 在Motorola CPU中, 除了A7(堆栈指针SP)之外的任何地址寄存器都可以做FP.

考虑到我们堆栈的增长方向, 从FP的位置开始计算, 函数参数的偏移量是正值, 而局部

变量的偏移量是负值.

方法不存在在堆内存中，是放在代码区，只有在调用的时候，才会构建该方法的运行时环境，包括参数，局部变量等，当然，这些也都是在栈内存中的。对内存只存放被new出来的东西。

你可以读读编译原理相关的书，这种问题就清楚了。

基本数据类型

Java的基本数据类型共有8种，即int, short, long, byte, float, double, boolean, char(注意，并没有string的基本类型)。这种类型的定义是通过诸如int a = 3； long b = 255L；的形式来定义的。如int a = 3；这里的a是一个指向int类型的引用，指向3这个字面值。这些字面值的数据，由于大小可知，生存期可知(这些字面值定义在某个程序块里面，程序块退出后，字段值就消失了)，出于追求速度的原因，就存在于栈中。

另外，栈有一个很重要的特殊性，就是存在栈中的数据可以共享。

比如：我们同时定义：

int a = 3；

int b=3；

编译器先处理int a = 3；首先它会在栈中创建一个变量为a的引用，然后查找有没有字面值为3的地址，没找到，就开辟一个存放3这个字面值的地址，然后将a指向3的地址。接着处理int b = 3；在创建完b这个引用变量后，由于在栈中已经有3这个字面值，便将b直接指向3的地址。这样，就出现了a与b同时均指向3的情况。

定义完a与b的值后，再令a = 4；那么，b不会等于4，还是等于3。在编译器内部，遇到时，它就会重新搜索栈中是否有4的字面值，如果没有，重新开辟地址存放4的值；如果已经有了，则直接将a指向这个地址。因此a值的改变不会影响到b的值。

b)对象

在Java中，创建一个对象包括对象的声明和实例化两步，下面用一个例题来说明对象的内存模型。

　　假设有类Rectangle定义如下：

Java代码

class Rectangle{

　　double width,height；

　　Rectangle(double w,double h){

　 width=w;

height=h;

}

(1)声明对象时的内存模型

　　用Rectangle rect；声明一个对象rect时，将在栈内存为对象的引用变量rect分配内存空间，但Rectangle的值为空，称rect是一个空对象。空对象不能使用，因为它还没有引用任何“实体”。

　　(2)对象实例化时的内存模型

　　当执行rect=new Rectangle(3,5)；时，会做两件事：

　　在堆内存中为类的成员变量width,height分配内存，并将其初始化为各数据类型的默认值；接着进行显式初始化（类定义时的初始化值）；最后调用构造方法，为成员变量赋值。

返回堆内存中对象的引用（相当于首地址）给引用变量rect,以后就可以通过rect来引用堆内存中的对象了。

c)创建多个不同的对象实例

一个类通过使用new运算符可以创建多个不同的对象实例，这些对象实例将在堆中被分配不同的内存空间，改变其中一个对象的状态不会影响其他对象的状态。例如：

Java代码

Rectangle r1=new?Rectangle(3,5)；

Rectangle r2=new?Rectangle(4,6)；

　　此时，将在堆内存中分别为两个对象的成员变量width、height分配内存空间，两个对象在堆内存中占据的空间是互不相同的。如果有：

Java代码

Rectangle r1=new Rectangle(3,5)；

Rectangle r2=r1；

　　则在堆内存中只创建了一个对象实例，在栈内存中创建了两个对象引用，两个对象引用同时指向一个对象实例。

d)包装类

基本类型都有对应的包装类：如int对应Integer类，double对应Double类等，基本类型的定义都是直接在栈中，如果用包装类来创建对象，就和普通对象一样了。例如：int i=0；i直接存储在栈中。Integer i（i此时是对象） = new Integer(5)；这样，i对象数据存储在堆中，i的引用存储在栈中，通过栈中的引用来操作对象。

e)String

String是一个特殊的包装类数据。可以用用以下两种方式创建：

1.String str = new String("abc")；

2.String str = "abc"；

第一种创建方式，和普通对象的的创建过程一样；

第二种创建方式，Java内部将此语句转化为以下几个步骤：

　(1) 先定义一个名为str的对String类的对象引用变量：String str；

　(2) 在栈中查找有没有存放值为“abc”的地址，如果没有，则开辟一个存放字面值为“abc”的地址，接着创建一个新的String类的对象o，并将o的字符串值指向这个地址，而且在栈中这个地址旁边记下这个引用的对象o。如果已经有了值为“abc”的地址，则查找对象o，并返回o的地址。

　(3) 将str指向对象o的地址。值得注意的是，一般String类中字符串值都是直接存值的。但像String str = "abc"；这种场合下，其字符串值却是保存了一个指向存在栈中数据的引用。

为了更好地说明这个问题，我们可以通过以下的几个代码进行验证。

Java代码

String str1=“abc”；

String str2=“abc”；

System.out.println(s1==s2)；//true

注意，这里并不用str1.equals(str2)；的方式，因为这将比较两个字符串的值是否相等。"=="，根据JDK的说明，只有在两个引用都指向了同一个对象时才返回真值。而我们在这里要看的是，str1与str2是否都指向了同一个对象。

Java代码

Stringstr1=new String(“abc”)；

Stringstr2=“abc”；

System.out.println(str1==str2)；//false

创建了两个引用。创建了两个对象。两个引用分别指向不同的两个对象。

以上两段代码说明，只要是用new()来新建对象的，都会在堆中创建，而且其字符串是单独存值的，即使与栈中的数据相同，也不会与栈中的数据共享。

f) 数组

当定义一个数组，int x[]；或int []x；时，在栈内存中创建一个数组引用，通过该引用（即数组名）来引用数组。x=new int[3]；将在堆内存中分配3个保存int型数据的空间，堆内存的首地址放到栈内存中，每个数组元素被初始化为0。

g) 静态变量

用static的修饰的变量和方法，实际上是指定了这些变量和方法在内存中的“固定位置”－static storage，可以理解为所有实例对象共有的内存空间。static变量有点类似于C中的全局变量的概念；静态表示的是内存的共享，就是它的每一个实例都指向同一个内存地址。把static拿来，就是告诉JVM它是静态的，它的引用（含间接引用）都是指向同一个位置，在那个地方，你把它改了，它就不会变成原样，你把它清理了，它就不会回来了。

那静态变量与方法是在什么时候初始化的呢？对于两种不同的类属性，static属性与instance属性，初始化的时机是不同的。instance属性在创建实例的时候初始化，static属性在类加载，也就是第一次用到这个类的时候初始化，对于后来的实例的创建，不再次进行初始化。

我们常可看到类似以下的例子来说明这个问题：

Java代码

class Student{

static int numberOfStudents=0;

Student()

{

numberOfStudents++;

}

每一次创建一个新的Student实例时,成员numberOfStudents都会不断的递增,并且所有的Student实例都访问同一个 numberOfStudents变量,实际上int numberOfStudents变量在内存中只存储在一个位置上。

类A中有两个成员变量,两个成员方法,当我们用 A a = new A();的时候在栈内存中分配了一个a用于存放对象的引用,在堆内存中分配了一个类A的对象的内存,在这个堆内存中分配了两个成员变量的i,j的空间,那么这两个成员方法呢?放在什么位置呢?

参考资料:

http://topic.csdn.net/u/20080420/17/37f1ac51-8d3f-4c17-81e6-29446ce3cd15.html

http://www.cnblogs.com/transmuse/archive/2010/11/18/1881282.html

堆栈&内存基础知识

猜你喜欢