python识别pdf中的表格并保存execl

识别pdf中的表格并保存execl
pdf每个页码保存一个Execl Sheet页

		# 识别pdf表格保存到Execl
    def Get_Table_From_PDF(self,filePath,):
        y = 0
        j = 0
        # 定义保存Excel的位置
        self.workbook = xlwt.Workbook()                 #定义workbook
        self.sheet = self.workbook.add_sheet('Sheet')   #添加sheet
        pdf = pdfplumber.open(filePath)
        for page in pdf.pages:
            #根据pdf页码生成对应的Execl sheet页数
            if j<len(pdf.pages):
                 j =j+ 1
                 self.sheet = self.workbook.add_sheet('Sheet'+str(j))   #添加sheet
            # 获取当前页面的全部文本信息,包括表格中的文字
            # print(page.extract_text())                     
            for table in page.extract_tables():
                for row in table:  
                    for j in range(len(row)):
                        self.sheet.write(y, j, row[j])
                    y =y + 1
        pdf.close()
        # 保存Excel表
        self.workbook.save('D:/Python/宜10-8-42井完井卡片.xls')

猜你喜欢

转载自blog.csdn.net/tone1128/article/details/105531465