运行时数据区(Runtime Data Area)
本文以HotSpot为例
大体上分为:方法区(Method Area) , 程序计数器(Program Counter Register) , 本地方法栈(Native Method Stack) , 堆(Heap) , 虚拟机栈(Java Virtual Machine Stack)
程序计数器(PC寄存器)
作用:
PC寄存器用来存储指向下一条指令的地址,即将要执行的指令代码。由执行引擎读取下一条指令。
- 是一块很小的内存空间,几乎可以忽略不记。也是运行速度最快的存储区域。
- 在JVM规范中,每个线程都有它自己的程序计数器,是线程私有的,生命周期与线程的生命周期保持一致。
- 任何时间一个线程都只有一个方法在执行,也就是所谓的**当前方法**。程序计数器会存储当前线程正在执行的Java方法的JVM指令地址;或者,如果是在执行native方法,则是为指定值(undefined)
- 它是程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。
- 字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令。
- 它是唯一一个在Java虚拟机规范中没有规定任何OOM Error情况的区域。
PC寄存器存储指令地址。指令地址指向程序的操作指令。
执行引擎 指向PC寄存器
执行引擎 同时还操作栈结构,局部变量表、操作数栈。(存,取,add等操作)
执行引擎 将字节码翻译成机器指令。交由CPU去处理(运算)。
虚拟机栈
由于跨平台性的设计,Java的指令都是根据栈来设计的。不同平台CPU架构不同,所以不能基于为基于寄存器
- 优点:
- 跨平台,指令集小,编译器容易实现
- 缺点:
- 性能下降,实现同样的功能需要更多的指令
栈是运行时的单位,堆是存储的单位
即:栈解决程序的运行问题,程序如何执行,或者说如何处理数据。
堆解决的是数据存储问题,数据怎么放,放在哪里。
是什么:
Java Virtual Machine Stack,早期也叫Java栈。每个线程在创建时都会创建一个虚拟机栈,其内部保存一个个的栈帧(Stack Frame)对应着一次次的Java方法调用
线程私有的
生命周期:
与线程一致
作用:
主管Java程序的运行,它保存方法的局部变量(八种基本数据类型、对象的引用地址)、部分结果,并参与方法的调用和返回
栈中存储:
- 每个线程都有自己的栈,栈中的数据都是以 栈帧(stack frame) 的格式存在的。即:栈的基本组成单位为:栈帧。
- 栈帧中存储:
- 局部变量表(Local Variables)
- 操作数栈(Operand Stack)or 表达式栈
- 动态连接(Dynamic Linking)or 指向运行时常量池的方法引用
- 方法返回地址(Return Address)or 方法正常退出或者异常退出的定义
- 一些附加信息
- 在这个线程上正在执行的 每个方法 都各自对应 **一个栈帧 **。
- 栈帧是一块内存区块,是一个数据集,维系着方法执行过程中的各种数据信息。
局部变量表
- 局部变量表也被称为 局部变量数组 或者 本地变量表
- 定义为一个数字数组 主要用于存储方法参数 和 定义 在方法体内的局部变量 这些数据类型包括各类基本数据类型、对象引用(reference) 以及 returnAddress 类型
- 由于局部变量表是简历在线程的栈上 是线程的私有数据 因此 不存在数据安全问题
- 局部变量表所需的容量大小是在编译期确定下来的 并保存在方法的code属性的 maximum local variables 数据项中。 在方法运行期间是不会改变局部变量表的大小
Slot(变量槽)
- 局部变量表,最基本的存储单元是 Slot(变量槽)
- 局部变量表中存放编译期可知的各种基本数据类型(8种),引用类型(reference),returnAddress类型的变量
- 在局部变量表里,32为以内的类型只占用一个slot(包括returnAddress类型),64位的类型(long和double)占用两个slot
- byte、short、char、在存储前被转换为int,boolean也被转换成int,0表示false,非0表示true
- long 和 double 占据两个slot
- 如果当前帧是由 构造方法 或者 实例方法 创建的,那么 该对象引用this将会存放在index为0的slot处 其余的参数按照参数表顺序继续排列。即:非静态方法 局部变量表index为0的地方都是this
操作数栈(Operand Stack)
- 每个独立的栈帧中 除了包含局部变量表以外 还包含一个 后进先出 的操作数栈 也可以称之为 表达式栈(Expression Stack)
- 操作数栈 在方法执行过程中 根据字节码指令 往栈中写入数据 或者 提取数据 即入栈/出栈
- 某些字节码指令将值压入操作数栈 其余的字节码指令 将 操作数 取出栈 使用他们后再把结果压入栈。(如:执行复制,交换,求和等操作)
- 主要保存计算过程的中间结果 同时作为计算过程中变量临时的存储解空间
- 操作数栈就是JVM执行引擎的一个工作区,当一个方法刚开始执行的时候,一个新的栈帧也会随之被创建出来,这个方法的操作数栈是空的
- 栈中的任何一个元素都可以是任意的Java数据类型
- 32bit的类型占用一个栈单位深度
- 64bit的类型占用两个栈单位深度
- 操作数栈 并非采用访问索引的方式来进行数据访问 而是只能通过标准的入栈和出栈操作来完成一次数据访问
- 如果被调用的方法带有返回值的话 其返回值将会被压入当前栈帧的操作数栈中 并更新PC寄存器中的下一条需要执行的字节码指令
- 操作数栈中 原数的数据类型 必须与 字节码指令 的序列严格匹配 这由编译器在编译器期间进行验证 同事在类加载过程中的 类检验阶段的 数据流分析阶段 要再次验证
- Java虚拟机的 解释引擎是基于栈的执行引擎 其中的栈指的就是 操作数栈
方法的调用
在 JVM 中 将 符号引用 转换为 调用方法的直接引用 与方法的绑定机制相关
- 静态链接:
- 当一个字节码文件被装载进 JVM 内部时 如果被调用的 目标方法在编译器可知 且运行期保持不变时 这种情况下将调用方法的符号引用转换为直接引用的过程 称之为 静态链接
- 动态链接:
- 如果 被调用的方法在编译期无法被确定下来 也就是说 只能够在程序运行期间 将 调用方法的符号引用转换为直接引用 由于这种引用转换过程具备动态性 因此也被称为动态链接
对应的方法的绑定机制为:早期绑定(Early Binding)和 晚期绑定(Late Binding)。 绑定是一个字段、方法或者类 在符号引用被替换为直接引用的过程 这仅仅发生一次
- 早期绑定:
- 早期绑定就是指 被调用的 目标方法如果在编译期间可知 且运行期间保持不变 时,即:可将这个方法与所属的类型进行绑定 这样一来 由于明确了被调用的目标方法究竟是哪一个 因此也就可以使用静态链接的方式将符号引用转换为直接引用
- 晚期绑定:
- 如果 被调用的方法在编译期无法被确定下来 只能够在程序运行期间根据实际的类型绑定相关的方法 这种绑定方式也就被称为晚期绑定
如果方法在编译期就确定了具体的调用版本 这个版本在运行时是不可变的 这样的方法称为 非虚方法
- 静态方法、私有方法、final方法、实例构造器、父类方法都是非虚方法
- 其他方法都是虚方法
本地方法栈
- Java虚拟机栈用于管理 Java 方法的调用,而本地方法栈用于管理本地方法的调用
- 本地方法栈,也是线程私有的
- 允许被实现成固定 或者是 可动态扩展的内存大小
- 如果线程请求分配的栈容量超过本地方法栈允许的最大容量,Java虚拟机将会抛出一个StackOverflowError异常
- 如果本地方法栈可以动态扩展,并且在尝试扩展的时候无法申请到足够的内存,或者 在创建新的线程时 没有足够的内存区创建对应的本地方法栈,那么 Java 虚拟机将会抛出一个 OutOfMemoryError 异常
- 本地方法是使用C语言实现的
- Native Method Stack中等级native方法,在Execution Engine 执行时加载本地方法库。
- 当某个线程调用一个本地方法时,它就进入了一个全新的并且不再受虚拟机限制的世界。它和虚拟机拥有同样的权限。
- 本地方法可以通过本地方法接口来 访问虚拟机内部的运行时数据区
- 它甚至可以直接使用本地处理器中的寄存器
- 直接从本地内存的堆中分配任意数量的内存
- 并不是所有的 JVM 都支持本地方法。因为 Java 虚拟机规范并没有明确要求本地方法栈的实用语言、具体实现方式、数据结构等。如果 JVM 产品不打算支持native方法,也可以无需实现本地方法栈
- 在Hotspot JVM 中,直接将本地方法栈 和 虚拟机栈 合二为一
堆(Heap)
堆和方法区 都是 进程唯一 也就是说 堆和方法区 对应着一个 JVM 实例。一个 JVM 实例 就有一个运行时数据区(Runtime Data Area)
- 一个 JVM 实例 值存在一个堆内存,堆也是 JAVA内存管理的核心区域
- JAVA 堆区在 JVM 启动的时候即被创建,其空间大小也就确定了。是 JVM 管理的最大的一块内存空间
- 堆内存的大小可以调节
- 《 Java 虚拟机规范》规定,堆可以处于物理上不连续的内存空间中,但在逻辑上它应该被视为连续的
- 所有的线程共享 Java 堆。在这里还可以划分线程私有的缓冲区(Thread Local Allocation Buffer,TLAB)
- 《 Java 虚拟机规范》中对 Java 堆的描述是:所有的对象实例以及数组都应当在运行时分配在堆上。(The heap is the run-time data area from which memory for all class instances and arrays is allocated)
- 从实际使用角度上来看:”几乎”所有的对象实例都在这里分配内存
- 栈上分配
- 从实际使用角度上来看:”几乎”所有的对象实例都在这里分配内存
- 数组和对象 可能永远不会存储在栈上,因为栈帧中保存引用,这个引用指向对象或者数组在堆中的位置
- 在方法结束后,堆中国的对象不会马上被移除,仅仅在垃圾收集的时候才会被移除
- 堆,是GC执行垃圾回收的重点区域
在《深入理解Java虚拟机》中关于 Java 堆内存有这样一段描述:
随着 JIT 编译器的发展与 逃逸分析技术 逐渐成熟,栈上分配、标量替换优化技术 将会导致一些微妙的变化,所有的对象都分配到堆上也渐渐变得不那么 绝对 了
在 Java 虚拟机中,对象是在 Java堆 中分配内存的,这是一个普遍的常识。但是,如果经过逃逸分析(Escape Analysis)后发现,一个对象并没有逃逸出方法的话,那么就可能被优化成栈上分配 这样就无需在堆上分配内存,也无需进行垃圾回收了。这也是最常见的对外存储技术。
基于OpenJDK深度定制的TaoBaoVM,其中创新的 GCIH(GC invisible heap)技术实现off-heap,将生命周期较长的 Java对象 从heap中移至heap外,并且GC不能管理 GCIH内部的 Java对象,以此打到降低 GC 的回收频率和提升 GC 的回收效率的目的
逃逸分析
- 将堆上的对象分配到栈,需要使用逃逸分析
- 这是一种可以有效减少 Java 程序中同步负载和内存堆分配压力的跨函数全局数据流分析算法
- 通过逃逸分析,Java HotSpot 编译器能够分析出一个新的对象的引用的适用范围 从而决定是否要将这个对象分配到堆上
- 逃逸分析的基本行为就是分析对象动态作用域:
- 当一个对象在方法中被定义后,对象只在方法内部使用,则认定为没有发生逃逸
- 当一个对象在方法中被定义后,它被外部方法所引用,则认定发生逃逸。例如:作为调用参数传递到其他方法。
- 在 JDK 6u23(JDK 7)版本以后,HotSpot中默认就已经开启了逃逸分析
- 如果使用的是较早的版本,可以通过:
- “-XX:+DoEscapeAnalysis” 显式的开启逃逸分析
- “-XX:+PrintEscapeAnalysis” 查看逃逸分析的筛选结果
服务器参数:
- 参数 -server:启动Server模式,因为在Server模式下,才可以启用逃逸分析
- 参数 -XX:+DoEscapeAnalysis:启用逃逸分析
- 参数 -Xmx10m:指定堆空间最大为10MB
- 参数 -XX:+EliminateAllocations:开启了标量替换(默认开启),允许将对象打散分配在栈上,比如对象拥有id和name两个字段,name这两个字段会被视为两个独立的局部变量进行分配
代码优化
- 栈上分配。将堆分配转化为栈分配。如果一个对象在子程序中被分配,要使指向该对象的指针永远不会逃逸,对象可能是栈分配的候选,而不是堆分配
- JIT编译器在编译期间根据逃逸分析的结果,发现如果一个对象并没有逃逸出方法的话,就可能被油画城栈上分配。分配完成后,继续在调用栈内执行,最后线程结束,栈空间被回收,局部变量对象也被回收。这样就无须进行垃圾回收
- 发生逃逸的场景:给成员变量赋值、方法返回值、实例引用传递
- 同步省略。如果一个对象被发现只能从一个线程被访问到,那么对于这个对象的操作可以不考虑同步
- 线程同步的代价是相当高的,同步的后果是降低并发性和性能
- 在动态编译同步块的时候,JIT编译器可以借助逃逸分析来 判断同步代码块所使用的锁对象是否只能够被一个线程访问而没有被发布到其他线程。如果没有,那么 JIT 编译器在编译这个同步块的时候就会取消对这部分代码的同步。这样就能大大提高并发性和性能。这个取消同步的过程就叫同步省略,也叫 锁清除。
- 分离对象或标量替换。有的对象可能不需要作为一个连续的内存结构存在也可以被访问到,那么对象的部分(或全部)可以不存储在内存,而是存储在CPU寄存器中
- 标量(Scalar)是指一个无法再分解成更小的数据的数据。Java 中的原始数据类型就是标量
- 相对的,那些还可以分解的数据叫做 **聚合量(Aggregate),Java 中的对象就是聚合量,因为他可以分解成其他聚合量和标量
- 在 JIT 阶段,如果经过逃逸分析,发现一个对象不会被外界访问的话,那么经过 JIT 优化,就会把这个对象拆解成若干个其中包含的若干个成员变量来代替。这个过程就是标量替换
- 参数 -XX:+EliminateAllocations:开启了标量替换(默认开启),允许将对象打散分配到栈上
堆的核心概述:
内存细分
- 现代垃圾收集器大部分都基于分代收集理论设计,堆空间细分为:
- Java 7 及之前 堆内存逻辑上分为三部分:新生区 + 养老区 + 永久区
- Young Generation Space 新生区 Young/New
- 又被划分为Eden区和Survivor区 (伊甸区,幸存区)
- Survivor0 、Survivor1 又叫做 from区、 to区
- Tenure Generation Space 养老区 Old/Tenure
- Permanent Space 永久区 Perm
- Java 8 及以后堆内存逻辑上分为三部分:新生区 + 养老区 + 元空间
- Young Generation Space 新生区 Young/New
- 又被划分为Eden区和Survivor区 (伊甸区,幸存区)
- Tenure Generation Space 养老区 Old/Tenure
- Meta Space 元空间 Meta
约定:新生区 = 新生代 = 年轻代 养老区 = 老年区 = 老年代 永久区 = 永久代
Java 7 到 8 内存中的变化:永久区 变成了 元空间
堆空间大小的设置
Java 堆区用于存储 Java 对象实例,那么堆的大小在 JVM 启动时就已经设定好了,可以通过选项”-Xmx”和”-Xms”来进行设置
- “-Xms”:用于表示堆区的起始内存,等价于 -XX:InitialHeapSize
- “-Xmx”:则用于表示堆区的最大内存,等价于 -XX:MaxHeapSize
一旦堆区中的内存大小超过 “-Xmx” 所指定的最大内存时,将会抛出OutOfMemoryError异常
通常会将 -Xms 和 -Xmx 两个参数配置相同的值,其 目的是为了能够在 java垃圾回收机制 清理完堆区后不需要重新分隔计算堆区的大小,从而提高性能
默认情况下,初始内存大小:物理内存大小 / 64
最大内存大小:物理内存大小 / 4
配置新生代与老年代在堆结构的占比
- 默认 -XX:NewRatio=2,表示新生代占1,老年代占2,新生代占整个堆的1/3
- 可以修改 -XX:NewRatio=4,表示新生代占1,老年代占4,新生代占整个堆的1/5
在 HotSpot 中,Eden空间和另外两个Survivor空间缺省所占的比例是 8:1:1
可以通过 “ -XX:SurvivorRatio “ 调整这个空间比例
几乎所有的 Java 对象都是在 Eden区被 new 出来的
绝大部分的 Java 对象的销毁都在新生代进行了
可以使用选项 “ -Xmn “设置新生代最大内存大小 (一般使用默认值)
对象分配过程:概述
为新对象分配内存是一件非常严谨和复杂的任务,JVM 的设计者们不仅需要考虑内存如何分配、在哪里分配等问题,并且由于内存分配算法与内存回收算法密切相关,所以还需要考虑 GC 执行完内存回收后是否会在内存空间中产生内存碎片
- new的对象先放在伊甸园区。此区有大小限制。
- 当伊甸园的空间填满时,程序又需要创建对象,JVM 的垃圾回收器将对伊甸园区进行垃圾回收( Minor GC ),将伊甸园区中的不再被其他对象进行销毁。再加载新的对象放到伊甸园区
- 然后将伊甸园中的剩余对象移动到幸存者0区
- 如果再次触发垃圾回收,此时上次幸存下来的放到幸存者0区的,如果没有回收,就会放到幸存者1区
- 如果再次经历垃圾回收,此时会重新放回幸存者0区,接着再去幸存者1区
- 默认15次后去养老区
- 设置参数:-XX:MaxTenuringThreshold=< N >进行设置
总结
- 针对幸存者s0,s1区的总结:复制之后有交换,谁空谁是to
- 关于垃圾回收:频繁在新生区收集,很少在养老区收集,几乎不在永久区/元空间收集
堆空间的参数设置
- -XX:+PrintFlagsInitial:查看所有的参数的默认初始值
- -XX:+PrintFlagsFinal:查看所有的参数的最终值(可能会修改,不再是初始值)
- -Xms:初始堆空间内存(默认为物理内存的 1/64)
- -Xmx:最大堆空间内存(默认为物理内存的 1/4)
- -Xmn:设置新生代的大小(初始值 以及 最大值)
- -XX:NewRatio:配置新生代与来年代在堆结构的占比
- -XX:SurvivorRatio:设置新生代中Eden和S0/S1空间的比例
- -XX:MaxTenuringThreshold:设置新生代垃圾的最大年龄
- -XX:+PrintGCDetails:输出详细的GC处理日志
- 打印GC简要信息:1. -XX:+PrintGC 2. -verbose:gc
- -XX:HandlePromotionFailure:是否设置空间分配担保
在发生 Minor GC 之前,虚拟机会 检查老年代最大可用的连续空间是否大于新生代所有对象的总空间
- 如果大于,则此次 Minor GC是安全的
- 如果小于,则虚拟机会查看 -XX:HandlePromotionFailure 设置值 是否允许担保失败
- 如果 HandlePromotionFailure=true,那么会继续 检查老年代最大可用联系空间是否大于历次晋升到老年代的对象的平均大小
- 如果大于,则尝试进行一次 Minor GC,但这次 Minor GC依然是有风险的
- 如果小于,则改为进行一次 Full GC
- 如果 HandlePromotionFailure=false,则改为进行一次 Full GC
在 JDK6 update24之后(JDK7),HandlePromotionFailure参数不会再影响到虚拟机的空间分配担保策略。OpenJDK 中的源码变化:虽然源码中还在定义HandlePromotionFailure参数 但是 在代码中已经不会再使用它。JDK6 update24之后的规则变为 只要老年代的连续空间大于新生代对象总大小 或者 历次晋升的平均大小就会进行 Minor GC,否则将会进行 Full GC
方法区
《 Java虚拟机规范》中明确说明:“ 尽管所有的方法区在逻辑上是属于堆的一部分,但一些简单的实现可能不会选择去进行垃圾回收或者进行压缩。”
但对于 HotSpot JVM 而言,方法区还有一个别名叫做 Non-Heap(非堆),目的就是要和堆分开。所以方法区可以看做一块独立于 Java堆的内存空间
- 方法区( Method Area )与 Java 堆一样,是各个线程共享的内存区域
- 方法区在 JVM 启动的时候被创建,并且它的实际物理内存空间和 Java 堆区一样都是可以是不连续的
- 方法区的大小,跟堆空间一样,可以选着固定大小或可扩展
- 方法区的大小决定了系统可以保存多少个类,如果系统定义了太多的类,导致方法区溢出,虚拟机同样会抛出内存溢出错误
- 关闭 JVM 就会释放这个区域的内存
存什么?
《深入理解 Java 虚拟机》书中对方法区(Method Area)存储内容描述如下:它用于存储已被虚拟机加载的 类型信息(类,接口,枚举,注解)、常量、静态变量、即时编译器编译后的代码缓存 等
类型信息:
对每个加载的类型(类,接口,枚举,注解),JVM必须在方法区中存储一下信息
- 这个类型的完整有效的名称(全名 = 包名.类名)
- 这个类型直接父类的完整有效名(对于interface或是java.lang.Object,都没有父类)
- 这个类型的修饰符
- 这个类型直接接口的一个有序列表
域(Field)信息:
- JVM 必须在方法区中保存类型的所有域的相关信息以及域的声明顺序
- 域的相关信息包括:域名称、域类型、域修饰符( public , private , protected , static ,final , volatile , transient的某个子集 )
方法(Method)信息:
- 方法名称
- 方法的返回类型(或void)
- 方法参数的数量和类型(按顺序)
- 方法的修饰符
- 方法的字节码(bytecodes)、操作数栈、局部变量表及大小(abstract和native方法除外)
- 异常表(abstract和native方法除外)
- 每个异常处理的开始位置、结束位置、代码处理在程序计数器中的偏移地址、被捕获的异常类的常量池索引
non-final的类变量
- 静态变量和类关联在一起,随着类的加载而加载,它们成为类数据在逻辑上的一部分
- 类变量被类的所有实例共享,即时没有类实例时你也可以访问它
全局常量:static final
- 被声明为 final 的类变量的处理方法则不同,每个全局常量在编译的到时候就会被分配
运行时常量池:
- 方法区,内部包含了运行时常量池
- 字节码文件,内部包含了常量池
- 加载类的信息都在方法区
- 常量池表(Constant Pool Table)中包含:各种字面量和对类型、域和方法的符号引用
演进细节
- 只有HotSpot才有永久代。BEA JRockit、 IBM J9等来说 是不存在永久代的概念的 原则上如何实现方法区属于虚拟机实现细节 不受《 Java 虚拟机规范》管束,并不要求统一
- HotSpot中方法区的变化
- 1.6及之前:有永久代,静态变量存放在永久代上
- 1.7:有永久代,但已经逐步 ”去永久代“ 字符串常量池静态变量移除,保存在堆中
- 1.8及之后:无永久代,类型信息、字段、方法、常量 保存在本地内存的元空间,但 字符串常量池、静态变量仍在堆
线程
线程是一个程序里的运行单元。JVM允许一个应用有多个线程并行的执行
在HotSpot JVM里,每个线程都与操作系统的本地线程直接映射。
- 当一个Java线程准备好执行以后,此时一个操作系统的本地线程也会同时创建。Java线程执行终止后,本地线程也会回收。
操作系统负责所有线程的安排调度到任何一个可用的CPU上。一旦本地线程初始化成功,它就会调用Java线程中的run()方法。