顺序遍历docx文档

顺序遍历doc文档的核心代码如下：

from docx import Document
from docx.document import Document as _Document
from docx.oxml.text.paragraph import CT_P
from docx.oxml.table import CT_Tbl
from docx.table import _Cell, Table
from docx.text.paragraph import Paragraph
"""
   Generate a reference to each paragraph and table child within *parent*,
   in document order. Each returned value is an instance of either Table or
   Paragraph. *parent* would most commonly be a reference to a main
   Document object, but also works for a _Cell object, which itself can
   contain paragraphs and tables.
"""
def iter_block_items(parent):
    if isinstance(parent, _Document):
        parent_elm = parent.element.body
    elif isinstance(parent, _Cell):
        parent_elm = parent._tc
    else:
        raise ValueError("something's not right")
    for child in parent_elm.iterchildren():
        if isinstance(child, CT_P):
            yield Paragraph(child, parent)
        elif isinstance(child, CT_Tbl):
            yield Table(child, parent)

"""
main function to extract tables
"""
def extract_tables(document):
    count = 0
    current_context=''
    #iterator the blocks in doc
    for block in iter_block_items(document):
        # print(block.text if isinstance(block, Paragraph) else '<table>')
        if isinstance(block, Paragraph):
            # print("------------------text--------------------")
            print("text:  " + block.text)
        elif isinstance(block, Table):
            current_context=''
            for row in block.rows:
                row_data = []
                for cell in row.cells:
                    text_cell=''
                    for paragraph in cell.paragraphs:
                        text_cell += paragraph.text.strip()
                    if text_cell is '':
                        text_cell="NULL"
                    row_data.append(text_cell)
                print("|".join(row_data))
if __name__ == '__main__':
    document = Document('./xxxxx.docx')
    extract_tables(document)

以上代码核心思想是顺序取出docx中的每个block然后判断该block是table还是paragraph对象，如果是table在解析table,将里面的内容按行输出。

顺序遍历doc文档的核心代码如下：

猜你喜欢