堆栈&内存基础知识

为了理解什么是堆栈缓冲区, 我们必须首先理解一个进程是以什么组织形式在内存中存在的. 

进程被分成三个区域: 文本, 数据和堆栈. 我们把精力集中在堆栈区域, 但首先按照顺序简单介绍一下其他区域.

    文本区域是由程序确定的, 包括代码(指令)和只读数据. 该区域相当于可执行

文件的文本段. 这个区域通常被标记为只读, 任何对其写入的操作都会导致段错误

(segmentation violation).

    数据区域包含了已初始化和未初始化的数据. 静态变量储存在这个区域中. 数

据区域对应可执行文件中的data-bss段. 它的大小可以用系统调用brk(2)来改变.

如果bss数据的扩展或用户堆栈把可用内存消耗光了, 进程就会被阻塞住, 等待有了

一块更大的内存空间之后再运行. 新内存加入到数据和堆栈段的中间.

扫描二维码关注公众号,回复: 808528 查看本文章

                             /------------------\  内存低地址

                             |                  |  

                             |       文本      |  

                             |                  |

                             |------------------|

                             |  (已初始化) |

                             |        数据    |

                             |  (未初始化) |

                             |------------------|

                             |                  |

                             |       堆栈     |  

                             |                  |  

                             \------------------/  内存高地址


                              Fig. 1 进程内存区域


                                        什么是堆栈?

                                 ~~~~~~~~~~~~~


    堆栈是一个在计算机科学中经常使用的抽象数据类型. 堆栈中的物体具有一个特性:

最后一个放入堆栈中的物体总是被最先拿出来, 这个特性通常称为后进先处(LIFO)队列.


    堆栈中定义了一些操作. 两个最重要的是PUSH和POP. PUSH操作在堆栈的顶部加入一

个元素. POP操作相反, 在堆栈顶部移去一个元素, 并将堆栈的大小减一.


                                为什么使用堆栈?

                               ~~~~~~~~~~~~~~~~

    现代计算机被设计成能够理解人们头脑中的高级语言. 在使用高级语言构造程序时

最重要的技术是过程(procedure)和函数(function). 从这一点来看, 一个过程调用可

以像跳转(jump)命令那样改变程序的控制流程, 但是与跳转不同的是, 当工作完成时,

函数把控制权返回给调用之后的语句或指令. 这种高级抽象实现起来要靠堆栈的帮助.

    堆栈也用于给函数中使用的局部变量动态分配空间, 同样给函数传递参数和函数返

回值也要用到堆栈.

                                   堆栈区域

                                  ~~~~~~~~~~

    堆栈是一块保存数据的连续内存. 一个名为堆栈指针(SP)的寄存器指向堆栈的顶部.

堆栈的底部在一个固定的地址. 堆栈的大小在运行时由内核动态地调整. CPU实现指令

PUSH和POP, 向堆栈中添加元素和从中移去元素.

    堆栈由逻辑堆栈帧组成. 当调用函数时逻辑堆栈帧被压入栈中, 当函数返回时逻辑

堆栈帧被从栈中弹出. 堆栈帧包括函数的参数, 函数地局部变量, 以及恢复前一个堆栈

帧所需要的数据, 其中包括在函数调用时指令指针(IP)的值.   

    堆栈既可以向下增长(向内存低地址)也可以向上增长, 这依赖于具体的实现. 在我

们的例子中, 堆栈是向下增长的. 这是很多计算机的实现方式, 包括Intel, Motorola,

SPARC和MIPS处理器. 堆栈指针(SP)也是依赖于具体实现的. 它可以指向堆栈的最后地址,

或者指向堆栈之后的下一个空闲可用地址. 在我们的讨论当中, SP指向堆栈的最后地址.

    除了堆栈指针(SP指向堆栈顶部的的低地址)之外, 为了使用方便还有指向帧内固定

地址的指针叫做帧指针(FP). 有些文章把它叫做局部基指针(LB-local base pointer).

从理论上来说, 局部变量可以用SP加偏移量来引用. 然而, 当有字被压栈和出栈后, 这

些偏移量就变了. 尽管在某些情况下编译器能够跟踪栈中的字操作, 由此可以修正偏移

量, 但是在某些情况下不能. 而且在所有情况下, 要引入可观的管理开销. 而且在有些

机器上, 比如Intel处理器, 由SP加偏移量访问一个变量需要多条指令才能实现.


    因此, 许多编译器使用第二个寄存器FP, 对于局部变量和函数参数都可以引用, 

因为它们到FP的距离不会受到PUSH和POP操作的影响. 在Intel CPU中, BP(EBP)用于这

个目的. 在Motorola CPU中, 除了A7(堆栈指针SP)之外的任何地址寄存器都可以做FP.

考虑到我们堆栈的增长方向, 从FP的位置开始计算, 函数参数的偏移量是正值, 而局部

变量的偏移量是负值.


方法不存在在堆内存中,是放在代码区,只有在调用的时候,才会构建该方法的运行时环境,包括参数,局部变量等,当然,这些也都是在栈内存中的。对内存只存放被new出来的东西。

你可以读读编译原理相关的书,这种问题就清楚了。


基本数据类型

Java的基本数据类型共有8种,即int, short, long, byte, float, double, boolean, char(注意,并没有string的基本类型)。这种类型的定义是通过诸如int a = 3; long b = 255L;的形式来定义的。如int a = 3;这里的a是一个指向int类型的引用,指向3这个字面值。这些字面值的数据,由于大小可知,生存期可知(这些字面值定义在某个程序块里面,程序块退出后,字段值就消失了),出于追求速度的原因,就存在于栈中。

另外,栈有一个很重要的特殊性,就是存在栈中的数据可以共享。

比如:我们同时定义:

 int a = 3;

 int b=3;

 编译器先处理int a = 3;首先它会在栈中创建一个变量为a的引用,然后查找有没有字面值为3的地址,没找到,就开辟一个存放3这个字面值的地址,然后将a指向3的地址。接着处理int b = 3;在创建完b这个引用变量后,由于在栈中已经有3这个字面值,便将b直接指向3的地址。这样,就出现了a与b同时均指向3的情况。

 定义完a与b的值后,再令a = 4;那么,b不会等于4,还是等于3。在编译器内部,遇到时,它就会重新搜索栈中是否有4的字面值,如果没有,重新开辟地址存放4的值;如果已经有了,则直接将a指向这个地址。因此a值的改变不会影响到b的值。

b)对象

 在Java中,创建一个对象包括对象的声明和实例化两步,下面用一个例题来说明对象的内存模型。

  假设有类Rectangle定义如下:

Java代码

class Rectangle{

  double width,height;

  Rectangle(double w,double h){

  width=w;

height=h;

}

}


(1)声明对象时的内存模型 

  用Rectangle rect;声明一个对象rect时,将在栈内存为对象的引用变量rect分配内存空间,但Rectangle的值为空,称rect是一个空对象。空对象不能使用,因为它还没有引用任何“实体”。

  (2)对象实例化时的内存模型 

  当执行rect=new Rectangle(3,5);时,会做两件事:

  在堆内存中为类的成员变量width,height分配内存,并将其初始化为各数据类型的默认值;接着进行显式初始化(类定义时的初始化值);最后调用构造方法,为成员变量赋值。

返回堆内存中对象的引用(相当于首地址)给引用变量rect,以后就可以通过rect来引用堆内存中的对象了。

c)创建多个不同的对象实例

  一个类通过使用new运算符可以创建多个不同的对象实例,这些对象实例将在堆中被分配不同的内存空间,改变其中一个对象的状态不会影响其他对象的状态。例如:

Java代码

Rectangle r1=new?Rectangle(3,5);

Rectangle r2=new?Rectangle(4,6);

  此时,将在堆内存中分别为两个对象的成员变量width、height分配内存空间,两个对象在堆内存中占据的空间是互不相同的。如果有:

Java代码

Rectangle r1=new Rectangle(3,5);

Rectangle r2=r1;

  则在堆内存中只创建了一个对象实例,在栈内存中创建了两个对象引用,两个对象引用同时指向一个对象实例。

d)包装类

 基本类型都有对应的包装类:如int对应Integer类,double对应Double类等,基本类型的定义都是直接在栈中,如果用包装类来创建对象,就和普通对象一样了。例如:int i=0;i直接存储在栈中。Integer i(i此时是对象) = new Integer(5);这样,i对象数据存储在堆中,i的引用存储在栈中,通过栈中的引用来操作对象。

e)String

 String是一个特殊的包装类数据。可以用用以下两种方式创建:

 1.String str = new String("abc");

 2.String str = "abc";


第一种创建方式,和普通对象的的创建过程一样;

第二种创建方式,Java内部将此语句转化为以下几个步骤:

 (1) 先定义一个名为str的对String类的对象引用变量:String str;

 (2) 在栈中查找有没有存放值为“abc”的地址,如果没有,则开辟一个存放字面值为“abc”的地址,接着创建一个新的String类的对象o,并将o的字符串值指向这个地址,而且在栈中这个地址旁边记下这个引用的对象o。如果已经有了值为“abc”的地址,则查找对象o,并返回o的地址。

 (3) 将str指向对象o的地址。值得注意的是,一般String类中字符串值都是直接存值的。但像String str = "abc";这种场合下,其字符串值却是保存了一个指向存在栈中数据的引用。


为了更好地说明这个问题,我们可以通过以下的几个代码进行验证。

Java代码

String str1=“abc”; 

String str2=“abc”; 

System.out.println(s1==s2);//true

 注意,这里并不用str1.equals(str2);的方式,因为这将比较两个字符串的值是否相等。"==",根据JDK的说明,只有在两个引用都指向了同一个对象时才返回真值。而我们在这里要看的是,str1与str2是否都指向了同一个对象。

Java代码

Stringstr1=new String(“abc”);

Stringstr2=“abc”;

System.out.println(str1==str2);//false

 创建了两个引用。创建了两个对象。两个引用分别指向不同的两个对象。

 以上两段代码说明,只要是用new()来新建对象的,都会在堆中创建,而且其字符串是单独存值的,即使与栈中的数据相同,也不会与栈中的数据共享。


f) 数组

 当定义一个数组,int x[];或int []x;时,在栈内存中创建一个数组引用,通过该引用(即数组名)来引用数组。x=new int[3];将在堆内存中分配3个保存int型数据的空间,堆内存的首地址放到栈内存中,每个数组元素被初始化为0。

g) 静态变量

 用static的修饰的变量和方法,实际上是指定了这些变量和方法在内存中的“固定位置”-static storage,可以理解为所有实例对象共有的内存空间。static变量有点类似于C中的全局变量的概念;静态表示的是内存的共享,就是它的每一个实例都指向同一个内存地址。把static拿来,就是告诉JVM它是静态的,它的引用(含间接引用)都是指向同一个位置,在那个地方,你把它改了,它就不会变成原样,你把它清理了,它就不会回来了。

 那静态变量与方法是在什么时候初始化的呢?对于两种不同的类属性,static属性与instance属性,初始化的时机是不同的。instance属性在创建实例的时候初始化,static属性在类加载,也就是第一次用到这个类的时候初始化,对于后来的实例的创建,不再次进行初始化。

我们常可看到类似以下的例子来说明这个问题:

Java代码

class Student{

static int numberOfStudents=0;

Student()

{

numberOfStudents++;

}

}


  每一次创建一个新的Student实例时,成员numberOfStudents都会不断的递增,并且所有的Student实例都访问同一个 numberOfStudents变量,实际上int numberOfStudents变量在内存中只存储在一个位置上。

  类A中有两个成员变量,两个成员方法,当我们用 A a = new A();的时候在栈内存中分配了一个a用于存放对象的引用,在堆内存中分配了一个类A的对象的内存,在这个堆内存中分配了两个成员变量的i,j的空间,那么这两个成员方法呢?放在什么位置呢? 


参考资料:

http://topic.csdn.net/u/20080420/17/37f1ac51-8d3f-4c17-81e6-29446ce3cd15.html

http://www.cnblogs.com/transmuse/archive/2010/11/18/1881282.html


猜你喜欢

转载自quding0308.iteye.com/blog/1660005