[Python工具]pdf表格提取camelot安装教程

pdf表格提取camelot安装教程

经过测试,macos 与win10 均可以用一下方式安装

Camelot: 一个友好的PDF表格数据抽取工具

一个python命令行工具,使任何人都能很轻松的从PDF文件中抽取表格数据。

怎样使用Camelot

使用Camelot从PDF文档提取数据非常简单

.Camelot允许你通过调整设置项来精确控制数据的提取过程

.可以根据空白和精度指标来判断坏的表格,并丢弃,而不必手动检查

.每一个表格数据是一个panda的dataframe,从而可以很方便的集成到ETL和数据分析工作流中

.可以把数据导出为各种不同的格式比如 CSV、JSON、EXCEL、HTML

  • pip 安装指令:

首先在电脑上安装python3.6,然后再命令行输入:

pip install camelot-py
  • 进入python命令行测试
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
......
    import chardet  # For str encoding detection in Py3
ModuleNotFoundError: No module named 'chardet'
>>>

如果如同上述情况报错:No module named ‘chardet’,返回系统命令行,执行:

pip install chardet

安装chardet成功后,再次进入python命令测试:

(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
  File "F:\APP\Ides\Anaconda3\envs\CLOT\lib\site-packages\camelot\image_processing.py", line 5, in <module>
    import cv2
ModuleNotFoundError: No module named 'cv2'
>>>

报错:ModuleNotFoundError: No module named ‘cv2’,这是应为opencv库没有安装。
再次返回系统命令行,安装opencv库:

pip install opencv-python

执行完上述操作,就安装成功了。

  • 安装成功,测试一下

再次进入python,输入:

import camelot as cl

不再会报错了。
输出其版本号:

print(cl.__version__)

测试过程如下:

(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
>>> cl.__version__
'0.3.2'
>>>

安装完成了,后面就是开始使用,后面有机会,我也会把使用的心得更新上来。

猜你喜欢

转载自blog.csdn.net/xiaosongshine/article/details/83928594