Word からコンテンツを読み取り、必要な形式で Excel に出力します。

1.単語を読む

python-docx ライブラリは
Microsoft Word (.docx) ファイルを作成、編集、更新できます (doc ファイルは処理できません)

関数ライブラリと使用構文

基本的な考え方は、Word ファイルをドキュメント オブジェクトとみなして、各段落オブジェクトが処理され、テキストが段落内のテキスト コンテンツに対応するというものです。
表や写真などのオブジェクトも加工できます。

ライブラリのインポートとインスタンス化

from docx import Document
document = Document()

エラーが報告された場合は、pip

pip install python-docx

関数の構文

- document.add_heading()	#	添加标题
- document.add_paragraph()	#	添加段落(style='ListBullet'/'ListNumber')
- document.add_picture()	#	添加照片
- document.add_table()	#	添加表格
- document.add_page_break()	#	添加分页符
- document.save('demo.docx')	#	保存文件

2. Excel への書き込み

関数のインポートと使用法

import xlwt
# 创建workbook,工作簿,即一个excel
workbook = xlwt.Workbook(encoding = 'utf-8')
# 创建worksheet,即在工作簿上的一个工作表sheet
worksheet = workbook.add_sheet(’Sheet1‘)

# 写入Excel
worksheet.write(0,0,'context')	#	行,列,值

# 保存
worksheet.save('demo.xls')

3. 正規表現

Runoob/Rookie チュートリアル: 正規表現チュートリアル
re モジュールを使用すると、Python 言語ですべての正規表現関数を使用できるようになります。

よく使う機能と使い方

>>>import re
>>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小写
>>> m = pattern.match('Hello World Wide Web')
>>> print m                               # 匹配成功,返回一个 Match 对象
<_sre.SRE_Match object at 0x10bea83e8>
>>> m.group(0)                            # 返回匹配成功的整个子串
'Hello World'
>>> m.span(0)                             # 返回匹配成功的整个子串的索引
(0, 11)
>>> m.group(1)                            # 返回第一个分组匹配成功的子串
'Hello'
>>> m.span(1)                             # 返回第一个分组匹配成功的子串的索引
(0, 5)

>>> pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
>>> m = pattern.match('666')        # 查找头部

pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)

プロジェクト全体を完了するためのアイデア:
Word を読んで
docx ファイル内のすべての段落を取得し、特定の共通の特性 ('[') によってすべての段落を分割します。分割されたすべての項目を取得した後、次のステップの結果を取得するために、グループ化を渡します。ルールに従って、すべての項目をフィルタリングし、必要なコンテンツを取得した後、dic を介して特定の方法でそれを保存します。これは、リストとして dic に保存されます。
Excel に書き込んで
dic のキーを介して値を読み取り、それを特定の行と列に Excel に書き込みます。

おすすめ

転載: blog.csdn.net/qq_32301683/article/details/104200849