六、JVM - Java 与线程

文章目录

一、线程的实现
二、Java 线程调度
三、线程状态切换
四、协程

一、线程的实现

目前线程是 Java 里面进行处理器资源调度的最基本单位，不过如果 Loom 项目能够成功为 Java 引用纤程（Fiber）的话，可能就会改变这一点。

主流的操作系统都提供了线程实现，Java 语言刚提供了在不同硬件的操作系统平台下对线程操作的统一处理，每个已经调用过 start() 方法且还未结束的 java.lang.Thread 类的实例就代表着一个线程。Thread 类与大部分的 Java 类库有着显著的差别，它的所有关键方法都被声明为 Native。在 Java 类库 API 中，一个 Native 方法就意味着这个方法没有使用或无法使用平台无关的手段来实现。

实现线程主要有三种方式：使用内核线程实现（1:1实现）；使用用户线程实现（1:N实现）；使用用户线程加轻量级进程混合实现（N:M实现）

内核线程实现

使用内核线程实现的方式也被称为1:1实现。内核线程（Kernel-Level Thread, KLT）就是直接由操作系统内核（Kernel）支持的线程，这种线程由内核来完成线程切换，内核通过操纵调度器（Scheduler）对线程进行调度，并负责将线程的任务映射到各个处理器上。每个内核线程视为一个内核的分身，支持多线程的内核就称为多线程内核（Multi-Threads Kernel）

程序一般不会直接使用内核线程，而是使用内核线程的一种高级接口–轻量级进程（Light Weight Process, LWP），轻量级进程就是我们通常意义上所讲的线程，由于每个轻量级进程都由内核线程支持，因此只有先支持内核线程，才能有轻量级进程。由于内核线程的支持，每个轻量级进程都成为一个独立的调度单元，即使其中某一个轻量级进程在系统调用中被阻塞了，也不会影响整个进程继续工作。

轻量级进程局限性：
- 由于是基于内核线程实现的，而系统调用的代价相对较高，需要在用户态（User Mode ）和内核态（Kernel Mode）中来回切换；
- 每个轻量级进程都需要有一个内核线程的支持，因此轻量级进程要消耗一定的内核资源（如内核线程的栈空间），因此一个系统支持轻量级进程的数量是有限的。
用户线程实现

使用用户线程实现的方式被称为1:N实现。广义上来讲，一个线程只要不是内核线程，都可以认为是用户线程（User Thread, UT）的一种；而狭义上的用户线程指的是完全建立在用户空间的线程库上，系统内核不能感知到用户线程的存在及如何实现的。用户线程的建立、同步、销毁和调度完全在用户态中完成，不需要内核的帮助。

用户线程的优势在于不需要系统内核支援，这种线程不需要切换内核态，因此操作可以是非常快速且低消耗的，也能够支持规模更大的线程数量。劣势也在于没有系统内核的支援，所有的线程操作都需要由用户程序自己去处理。线程的创建、销毁、切换和调用都是用户需要考虑的问题；阻塞如何处理；多处理器系统中如何将线程映射到其他处理器上等问题。
混合实现

既存在用户线程也存在轻量级线程的混合实现，被称为N:M实现。
Java 线程的实现

以 Hotspot 为例，它的每一个 Java 线程都是直接映射到一个操作系统原生线程来实现的，而且中间没有额外的间接结构，所以 Hotspot 自己是不会去干涉线程调度的，全权交给底下的操作系统去处理。

二、Java 线程调度

线程调度是指系统为线程分配处理器使用权的过程，调试方式主要分为两种，协同式（Cooperative Threads-Scheduling）线程调度和抢占式（Preemptive Threads-Scheduling）线程调度。

协同式调度的系统，线程的执行时间由线程本身来控制，线程把自己的工作执行完了之后，就会主动通知系统切换到另一个线程上去。好处：实现简单，且线程要把自己的事情干完后才进行线程切换，切换操作对线程自己是可知的，所以一般没有什么线程同步的问题。坏处：线程执行时间不可控制，甚至如果一个线程的代码编写有问题，一直不告知系统进行线程切换，那么程序就会一直阻塞。

抢占式调度的系统，每个线程将由系统来分配执行时间，线程的切换不由线程本身来决定。好处：线程的执行时间是系统可控的，也不会有一个线程导致整个进程甚至系统阻塞的问题。坏处：线程频繁切换而带来性能损耗。

三、线程状态切换

Java 语言定义了6种线程状态，在任意一个时间点中，一个线程只能一且只有其中的一种状态，并且可以通过特定的方法在不同状态之间转换：

新建（New）：创建后尚未启动的线程处于这种状态
运行（Runnable）：包括操作系统线程状态中的 Running 和 Ready，也就是处于此状态的线程有可能正在执行，也可能正在等待着操作系统为它分配时间。
无限等待（Waiging）：处于这种状态的线程不会被分配处理器执行时间，它们要等待被其他线程显示唤醒。以下方法会让线程陷入无限期的等待状态：
- 没有设置 Timeout 参数的 Object::wait() 方法。
- 没有设置 Timeout 参数的 Thread::join() 方法。
- LockSupport::park() 方法。
限期等待（Timed Waiting）：处于这种状态的线程也不会被分配处理器执行时间，不过无须等待被其他线程显示唤醒。在一定时间后他们会由系统自动唤醒。以下方法会让线程进入期限等待状态：
- Thread::sleep() 方法；
- 设置了 Timeout 参数的 Obejct::wait() 方法；
- 设置了 Timeout 参数的 Thread::join() 方法；
- LockSupport::parkNanos() 方法；
- LockSupoort::parkUntil() 方法。
阻塞（Blocked）：线程被阻塞了，“阻塞状态”与“等待状态”的区别是“阻塞状态”在等待着获取到一个排它锁，这个事件将在另外一个线程释放这个锁的时候发生；而“等待状态”则是在等待一段时间，或者唤醒动作的发生。
结束（Terminated）：已终止线程的线程状态，线程已经结束执行。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jZar440s-1597066410204)(/Users/apple/Documents/md/JVM/六、Java 与线程.assets/线程状态转换关系.png)]

四、协程

协程靠用户自己模拟多线程程的做法实现的用户线程，由于最初多数的用户线程是被设计成协同式调度（Cooperative Scheduling）的，所以他有了一个别名“协程”（Coroutine）。又由于这时候的协程会完整地做调用栈的保护、恢复工作，所以也被称为“有栈协程”（Stackfull Coroutine）。协程的主要优势是轻量，64位 Linux 上 Hotspot 的线程栈容量默认是 1MB，此外内核数据结构（Kernel Data Structures）还会额外消耗 16KB内存。一个协程的栈通常在几百个字节到几KB之间，所以 Java 虚拟机里线程池容量达到 200 就已经不算小了。而支持协程的应用中，同时并存的协程数量可数以十万计。

纤程就是一种典型的有栈协程。Loom 项目仍在进行中，Quasar 协程库是一个不依赖 Java 虚拟机的独立实现的协程库，。Quasar 的实现原理是字节码注入，在字节码层面对当前被调用的函数中的所有局部变量进行保存和恢复。这种不依赖 Java 虚拟机的现场保护虽然能够工作，但影响性能，对即时编译的干扰也非常大。这些都是未来Loom 项目要解决的问题。