1.単語を読む
python-docx ライブラリは
Microsoft Word (.docx) ファイルを作成、編集、更新できます (doc ファイルは処理できません)
関数ライブラリと使用構文
基本的な考え方は、Word ファイルをドキュメント オブジェクトとみなして、各段落オブジェクトが処理され、テキストが段落内のテキスト コンテンツに対応するというものです。
表や写真などのオブジェクトも加工できます。
ライブラリのインポートとインスタンス化
from docx import Document
document = Document()
エラーが報告された場合は、pip
pip install python-docx
関数の構文
- document.add_heading() # 添加标题
- document.add_paragraph() # 添加段落(style='ListBullet'/'ListNumber')
- document.add_picture() # 添加照片
- document.add_table() # 添加表格
- document.add_page_break() # 添加分页符
- document.save('demo.docx') # 保存文件
2. Excel への書き込み
関数のインポートと使用法
import xlwt
# 创建workbook,工作簿,即一个excel
workbook = xlwt.Workbook(encoding = 'utf-8')
# 创建worksheet,即在工作簿上的一个工作表sheet
worksheet = workbook.add_sheet(’Sheet1‘)
# 写入Excel
worksheet.write(0,0,'context') # 行,列,值
# 保存
worksheet.save('demo.xls')
3. 正規表現
Runoob/Rookie チュートリアル: 正規表現チュートリアル
re モジュールを使用すると、Python 言語ですべての正規表現関数を使用できるようになります。
よく使う機能と使い方
>>>import re
>>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小写
>>> m = pattern.match('Hello World Wide Web')
>>> print m # 匹配成功,返回一个 Match 对象
<_sre.SRE_Match object at 0x10bea83e8>
>>> m.group(0) # 返回匹配成功的整个子串
'Hello World'
>>> m.span(0) # 返回匹配成功的整个子串的索引
(0, 11)
>>> m.group(1) # 返回第一个分组匹配成功的子串
'Hello'
>>> m.span(1) # 返回第一个分组匹配成功的子串的索引
(0, 5)
>>> pattern = re.compile(r'\d+') # 用于匹配至少一个数字
>>> m = pattern.match('666') # 查找头部
pattern = re.compile(r'\d+') # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
プロジェクト全体を完了するためのアイデア:
Word を読んで
docx ファイル内のすべての段落を取得し、特定の共通の特性 ('[') によってすべての段落を分割します。分割されたすべての項目を取得した後、次のステップの結果を取得するために、グループ化を渡します。ルールに従って、すべての項目をフィルタリングし、必要なコンテンツを取得した後、dic を介して特定の方法でそれを保存します。これは、リストとして dic に保存されます。
Excel に書き込んで
dic のキーを介して値を読み取り、それを特定の行と列に Excel に書き込みます。