-
BSS_SECTION(0, 0, 0)
-
-
. = ALIGN(PAGE_SIZE);
-
idmap_pg_dir = .;
-
. += IDMAP_DIR_SIZE;
-
swapper_pg_dir = .;
-
. += SWAPPER_DIR_SIZE;
从链接脚本中可以看到预留6个页面存储页表项。紧跟在bss段后面。idmap_pg_dir是identity mapping使用的页表。swapper_pg_dir是kernel image mapping初始阶段使用的页表。请注意,这里的内存是一段连续内存。也就是说页表(PGD/PUD/PMD)都是连在一起的,地址相差PAGE_SIZE(4k)。
如何填充页表的页表项
从链接脚本vmlinux.lds.S文件中可以找到kernel代码起始代码段是".head.text"段,因此kernel的代码起始位置位于arch/arm64/kernel/head.S文件_head
标号。在head.S文件中有三个宏定义和创建地址映射相关。分别是:create_table_entry
、create_pgd_entry
和create_block_map
。
create_table_entry实现如下。
-
/*
-
* Macro to create a table entry to the next page.
-
*
-
* tbl: 页表基地址
-
* virt: 需要创建地址映射的虚拟地址
-
* shift: #imm page table shift
-
* ptrs: #imm pointers per table page
-
*
-
* Preserves: virt
-
* Corrupts: tmp1, tmp2
-
* Returns: tbl -> next level table page address
-
*/
-
.macro create_table_entry, tbl, virt, shift, ptrs, tmp1, tmp2
-
lsr \tmp1, \virt, #\shift
-
and \tmp1, \tmp1, #\ptrs - 1 // table index
-
add \tmp2, \tbl, #PAGE_SIZE
-
orr \tmp2, \tmp2, #PMD_TYPE_TABLE // address of next table and entry type
-
str \tmp2, [\tbl, \tmp1, lsl #3]
-
add \tbl, \tbl, #PAGE_SIZE // next level table page
-
.endm
这里是汇编中的宏定义。汇编中宏定义是以.macro
开头,以.endm
结尾。宏定义中以\x
来引用宏定义中的参数x
。该宏定义的作用是创建一个level的页表项(PGD/PUD/PMD)。具体是哪个level是由virt、shift和ptrs参数决定。我总是喜欢帮你翻译成C语言的形式。C语言如果不懂的话,我也没办法了。既然汇编你不熟悉,没关系,下面帮你转换成C语言的宏定义。
-
#define PAGE_SIZE (1 << 12)
-
#define PMD_TYPE_TABLE (3 << 0)
-
#define create_table_entry(tbl, virt, shift, ptrs, tmp1, tmp2) do { \
-
tmp1 = virt >> shift; /* 1 */ \
-
tmp1 &= ptrs - 1; /* 1 */ \
-
tmp2 = tbl + PAGE_SIZE; /* 2 */ \
-
tmp2 |= PMD_TYPE_TABLE; /* 3 */ \
-
*((long *)(tbl + (tmp1 << 3))) = tmp2; /* 4 */ \
-
tbl += PAGE_SIZE; /* 5 */ \
-
} while (0)
根据virt和ptrs参数计算该虚拟地址virt的页表项在页表中的index。例如计算virt地址在PGD也表中的indedx,可以传递shift = PGDIR_SHIFT,ptrs = PTRS_PER_PGD,tbl传递PGD页表基地址。所以,宏定义是一个创建中间level的页表项。
既然要填充当前level的页表项就需要告知下一个level页表的基地址,这里就是计算下一个页表的基地址。还记得上面说的idmap_pg_dir和swapper_pg_dir吗?页表(PGD/PUD/PMD)都是连在一起的,地址相差PAGE_SIZE。
告知MMU这是一个中间level页表并且是有效的。
页表项的真正填充操作,tmp1 << 3是因为ARM64的地址占用8bytes。
更新tbl,也就只指向下一个level页表的地址,可以方便再一次调用create_table_entry填充下一个level页表项而不用自己更新tbl。
create_pgd_entry的实现如下。
-
/*
-
* Macro to populate the PGD (and possibily PUD) for the corresponding
-
* block entry in the next level (tbl) for the given virtual address.
-
*
-
* Preserves: tbl, next, virt
-
* Corrupts: tmp1, tmp2
-
*/
-
.macro create_pgd_entry, tbl, virt, tmp1, tmp2
-
create_table_entry \tbl, \virt, PGDIR_SHIFT, PTRS_PER_PGD, \tmp1, \tmp2
-
create_table_entry \tbl, \virt, SWAPPER_TABLE_SHIFT, PTRS_PER_PTE, \tmp1, \tmp2
-
.endm
create_pgd_entry可以用来填充PGD、PUD、PMD等中间level页表对应页表项。虽然名字是创建PGD的描述符,但是实际上是一级一级的创建页表项,最终只留下最后一级页表没有填充页表项。老规矩转换成C语言分析。
-
#define SWAPPER_TABLE_SHIFT PUD_SHIFT
-
#define create_pgd_entry(tbl, virt, tmp1, tmp2) do { \
-
create_table_entry(tbl, virt, PGDIR_SHIFT, PTRS_PER_PGD, tmp1, tmp2); /* 1 */ \
-
create_table_entry(tbl, virt, SWAPPER_TABLE_SHIFT, PTRS_PER_PTE, tmp1, tmp2); /* 2 */ \
-
} while (0)
这里的tbl参数相当于PGD页表地址,调用create_table_entry创建PGD页表中virt地址对应的页表项。
填充下一个level的页表项。这里是PUD页表。由于使用了ARM64初期使用section mapping,因此PUD页表就是最后一个中间level的页表,所以只剩下PMD页表的页表项没有填充,virt地址对应的PMD页表项最终会填充block descriptor。假设这里使用4级页表,那么下面还会创建PMD页表的页表项,也就是只留下PTE页表。所以,宏定义是创建所有中间level的页表项,只留下最后一级页表。
在经过create_pgd_entry宏的调用后,就填充好了从PGD开始的所有中间level的页表的页表项的填充操作。现在是不是只剩下PTE页表的页表项没有填充呢?所以最后一个create_block_map就是完成这个操作的。
-
/*
-
* Macro to populate block entries in the page table for the start..end
-
* virtual range (inclusive).
-
*
-
* Preserves: tbl, flags
-
* Corrupts: phys, start, end, pstate
-
*/
-
.macro create_block_map, tbl, flags, phys, start, end
-
lsr \phys, \phys, #SWAPPER_BLOCK_SHIFT
-
lsr \start, \start, #SWAPPER_BLOCK_SHIFT
-
and \start, \start, #PTRS_PER_PTE - 1 // table index
-
orr \phys, \flags, \phys, lsl #SWAPPER_BLOCK_SHIFT // table entry
-
lsr \end, \end, #SWAPPER_BLOCK_SHIFT
-
and \end, \end, #PTRS_PER_PTE - 1 // table end index
-
9999: str \phys, [\tbl, \start, lsl #3] // store the entry
-
add \start, \start, #1 // next entry
-
add \phys, \phys, #SWAPPER_BLOCK_SIZE // next block
-
cmp \start, \end
-
b.ls 9999b
-
.endm
create_block_map宏的作用是创建虚拟地址(从start到end)区域映射到到phys物理地址。传入5个参数,分别如下意思。
tbl:页表基地址
flags:将要填充页表项的flags
phys:创建映射的物理地址
start:创建映射的虚拟地址起始地址
end:创建映射的虚拟地址结束地址
我们还是依然翻译成C语言分析。
-
#define SWAPPER_BLOCK_SHIFT PMD_SHIFT
-
#define SWAPPER_BLOCK_SIZE (1 << PMD_SHIFT)
-
#define create_block_map(tbl, flags, phys, start, end) do { \
-
phys >>= SWAPPER_BLOCK_SHIFT; /* 1 */ \
-
start >>= SWAPPER_BLOCK_SHIFT; /* 2 */ \
-
start &= PTRS_PER_PTE - 1; /* 2 */ \
-
phys = flags | (phys << SWAPPER_BLOCK_SHIFT);/* 3 */ \
-
end >>= SWAPPER_BLOCK_SHIFT; /* 4 */ \
-
end &= PTRS_PER_PTE - 1; /* 4 */ \
-
\
-
while (start != end) { /* 5 */ \
-
*((long *)(tbl + (start << 3))) = phys; /* 6 */ \
-
start++; /* 7 */ \
-
phys += SWAPPER_BLOCK_SIZE; /* 8 */ \
-
} \
-
} while (0)
针对phys的低SWAPPER_BLOCK_SHIFT位进行清零,和第三步骤的phys << SWAPPER_BLOCK_SHIFT收尾呼应。相当于对齐(这里的情况是2M对齐)。
计算起始地址start的页目录项的index。
构造描述符。
计算结束地址end的页目录项的index。
循环填充start到end的页目录项。
根据页表基地址tbl和当前的start变量填充对应的页表项。start << 3是因为ARM64地址占用8 bytes。
更新下一个页表项。
更新下一个block的物理地址。
如何使用上述三个接口创建映射关系呢?其实很简单,首先我们需要先调用create_pgd_entry宏填充PGD以及所有中间level的页表项。最后的PMD页表的填充可以调用create_block_map宏来完成操作。
如何创建页表
在汇编代码阶段的head.S文件中,负责创建映射关系的函数是create_page_tables。create_page_tables函数负责identity mapping和kernel image mapping。前文提到identity mapping主要是打开MMU的过度阶段,因此对于identity mapping不需要映射整个kernel,只需要映射操作MMU代码相关的部分。如何区分这部分代码呢?当然是利用linux中常用手段自定义代码段。自定义的代码段的名称是".idmap.text"。除此之外,肯定还需要在链接脚本中声明两个标量,用来标记代码段的开始和结束。可以从vmlinux.lds.S中找到答案。
-
#define IDMAP_TEXT \
-
. = ALIGN(SZ_4K); \
-
VMLINUX_SYMBOL(__idmap_text_start) = .; \
-
*(.idmap.text) \
-
VMLINUX_SYMBOL(__idmap_text_end) = .;
从链接脚本中可以看出idmap_text_start和idmap_text_end分别是.idmap.text段的起始和结束地址。在创建identity mapping的时候会使用。另外我们同样从链接脚本中得到_text和_end两个变量,分别是kernel代码链接的开始和结束地址。编译器的链接地址实际上就是最后代码期望运行的地址。在KASLR关闭的情况下就是kernel image需要映射的虚拟地址。当我们编译kernel后,可以根据符号表System.map文件查看哪些函数被放在".idmap.text"段。当然你也可以看代码,但是我觉得没有这种方法简单。
-
ffff200008fbc000 T __idmap_text_start
-
ffff200008fbc000 T kimage_vaddr
-
ffff200008fbc008 T el2_setup
-
ffff200008fbc054 t set_hcr
-
ffff200008fbc118 t install_el2_stub
-
ffff200008fbc16c t set_cpu_boot_mode_flag
-
ffff200008fbc190 T secondary_holding_pen
-
ffff200008fbc1b4 t pen
-
ffff200008fbc1c8 T secondary_entry
-
ffff200008fbc1d4 t secondary_startup
-
ffff200008fbc1e4 t __secondary_switched
-
ffff200008fbc218 T __enable_mmu
-
ffff200008fbc26c t __no_granule_support
-
ffff200008fbc290 t __primary_switch
-
ffff200008fbc2b0 T cpu_resume
-
ffff200008fbc2d0 T cpu_do_resume
-
ffff200008fbc340 T idmap_cpu_replace_ttbr1
-
ffff200008fbc370 T __cpu_setup
-
ffff200008fbc3f0 t crval
-
ffff200008fbc408 T __idmap_text_end
create_page_tables的汇编代码比较简单,就不转换成C语言讲解了。create_page_tables实现如下。
-
__create_page_tables:
-
mov x7, SWAPPER_MM_MMUFLAGS
-
/*
-
* Create the identity mapping.
-
*/
-
adrp x0, idmap_pg_dir /* 1 */
-
adrp x3, __idmap_text_start // __pa(__idmap_text_start) /* 2 */
-
create_pgd_entry x0, x3, x5, x6 /* 3 */
-
mov x5, x3 // __pa(__idmap_text_start) /* 4 */
-
adr_l x6, __idmap_text_end // __pa(__idmap_text_end)
-
create_block_map x0, x7, x3, x5, x6 /* 5 */
-
/*
-
* Map the kernel image.
-
*/
-
adrp x0, swapper_pg_dir /* 6 */
-
mov_q x5, KIMAGE_VADDR + TEXT_OFFSET // compile time __va(_text)
-
add x5, x5, x23 // add KASLR displacement /* 7 */
-
create_pgd_entry x0, x5, x3, x6 /* 8 */
-
adrp x6, _end // runtime __pa(_end)
-
adrp x3, _text // runtime __pa(_text)
-
sub x6, x6, x3 // _end - _text
-
add x6, x6, x5 // runtime __va(_end)
-
create_block_map x0, x7, x3, x5, x6 /* 9 */
x0寄存器PGD页表基地址,这里是idmap_pg_dir,是为了创建identity mapping。
adrp指令可以获取__idmap_text_start符号的实际运行物理地址。
填充PGD及中间level页表的页表项。
因为我们为了创建虚拟地址和物理地址相等的映射,因此这里的x5和x3值相等。
调用create_block_map创建identity mapping,注意这里传递的参数物理地址(x3)和虚拟地址(x5)相等。
创建kernel image mapping,PGD页表基地址是swapper_pg_dir。
KASLR默认关闭的情况下,x23的值为0。
填充PGD及中间level页表的页表项。
填充PMD页表项。因为采用的是section mapping,所以一个页表项对应2M大小。注意汇编中的注释,va()代表得到的事虚拟地址,pa()得到的是物理地址。
经过以上初始化,页表就算是初始化完成。kernel映射区域从先行映射区域迁移到VMALLOC区域在哪里体现呢?答案就是KIMAGE_VADDR宏定义。KIMAGE_VADDR是kernel的虚拟地址。其定义在arch/arm64/mm/memory.h文件。
-
#define VA_BITS (CONFIG_ARM64_VA_BITS)
-
#define VA_START (UL(0xffffffffffffffff) - (UL(1) << VA_BITS) + 1)
-
#define PAGE_OFFSET (UL(0xffffffffffffffff) - (UL(1) << (VA_BITS - 1)) + 1)
-
#define KIMAGE_VADDR (MODULES_END)
-
#define VMALLOC_START (MODULES_END)
-
#define VMALLOC_END (PAGE_OFFSET - PUD_SIZE - VMEMMAP_SIZE - SZ_64K)
-
#define MODULES_END (MODULES_VADDR + MODULES_VSIZE)
-
#define MODULES_VADDR (VA_START + KASAN_SHADOW_SIZE)
-
#define MODULES_VSIZE (SZ_128M)
-
#define VMEMMAP_START (PAGE_OFFSET - VMEMMAP_SIZE)
-
#define PCI_IO_END (VMEMMAP_START - SZ_2M)
-
#define PCI_IO_START (PCI_IO_END - PCI_IO_SIZE)
-
#define FIXADDR_TOP (PCI_IO_START - SZ_2M)
-
#define TASK_SIZE_64 (UL(1) << VA_BITS)