PDF解析流程

PDF解析流程:

a)从trailer中找到Root关键字,Root是指向Catalog字典,Catalog是一个PDF文件的总入口,它包含Page tree,Outline hierarchy等。

b)从Catalog中找到Pages关键字,Pages是PDF所有页面的总入口,即Page Tree Root。

c)从Pages中找到Kids和Count关键字,Kids中包含Page子节点,Count列出该文档的总页数。到这里我们已经知道PDF文件有多少页了。

d)从Page字典中获取MediaBox、Contents、Resources等信息,MediaBox包含页面宽高信息,Contents包含页面内容,Resources包含页面所需要的资源信息。

e)从Contents指向的内容流中获取页面内容。

简单流程

trailer→ Root→ Catalog→ Pages→ Page→ Contents

猜你喜欢

转载自blog.csdn.net/fghler/article/details/106022346
今日推荐