Pythonは、テキストメッセージのファイル形式のすべての種類を読む|ドキュメント、エクセル、HTML、MHT

入門

 

我々はすべて知っているように、Pythonは最も強力な場所である、Pythonの概要コミュニティは、技術より多くの開発者が改善することができるオープンソースを、サードパーティのライブラリの富を持っています。

 

pythonの完成。

 

人工知能の未来、ビッグデータの方向、ブロック鎖が識別され、パイソンの拡大を中心に進められます。

 

エヘン咳!広告を掲載するために少し疑わしいと思われます。

 

現在の共有、インターネット情報化時代、最も重要なことは何ですか?データ。最も貴重とは何ですか?これは、データです。何が最も直感的な技術のレベルを反映しているのですか?それともデータ。

 

だから、私たちはあなたと共有したい、今日は次のとおりです。各ファイル形式のテキスト情報を取得する方法。

 

、TXT、プレーンテキストメッセージ、ドキュメントのワード文書、HTMLウェブコンテンツスプレッドシートのデータだけでなく、特殊なMHTファイルをエクセル:一般的なファイル形式は、一般的に分割されています。

 

、PythonのプロセスHTMLウェブページ情報

HTMLテキストデータ型は、コンテンツがフロントエンドコードラベル+テキストデータ形式で記述され、直接、ブラウザのChromeを開き、クリアテキスト形式を示すことができます。

Pythonのhtmlファイルは、ファイルTXT同じ内容やアクセス方法を得るそれを読むために直接ファイルを開きます。

次のようにコードを読みます:

with open(html_path, "r", encoding="utf-8") as f:
    file = f.read()

htmlファイルはテキストファイルです。これは、コンテンツのラベルのWebページ形式です。

P ython情報は、Excelスプレッドシートを処理します

Pythonは、直接操作は、フォーム、xlrdエクセルxlwtサードパーティのライブラリを持っています。対応する方法は、スプレッドシートのデータを読み書きできる優れ呼び出します。

次のようにExcelが操作コードを読み取ります:

filepath = "C:\\Users\Administrator\Desktop\新建文件夹\笨笨 前程6份 武汉.xls"
sheet_name = "UserList"
rb = xlrd.open_workbook(filepath)

sheet = rb.sheet_by_name(sheet_name)

# clox_list = [0, 9, 14, 15, 17]
for row in range(1, sheet.nrows):
    w = WriteToExcel()
    # for clox in clox_list:
    name = sheet.cell(row, 0).value
    phone = sheet.cell(row, 15).value
    address = sheet.cell(row, 9).value
    major = sheet.cell(row, 14).value
    age = sheet.cell(row, 8).value

前記行は、特定の数の細胞株、カラム特定データの数を取得し、フォームデータに対応する行番号です。

 

三、Pythonのドキュメントは、ドキュメントデータを読み込みます

 

Pythonのドキュメントは、ドキュメントが最も厄介であるお読みください。処理ロジックの複雑さ。マナーも多くあります。

 

docxファイルは直接、サードパーティのライブラリをPythonの文書処理ドキュメントは、ありませんが、サードパーティのライブラリのプロセスがあります。ドキュメントのDOCXファイルにファイルを変換することで、その文書の内容を読み取るために、サードパーティのライブラリpydocxパイソンドキュメントを呼び出します。

 

それは注意すべきで、直接変更するサフィックスのdocのdocxファイルを変更しないでください。DOCXは直接取得したファイルの接尾辞を変更することで、pydocxは、内容を読み取ることができません。

 

私たちは、docxファイルとしてドキュメントを修正するために別のライブラリを使用することができます。

 

具体的なコードは次のよう:

def doSaveAas(self, doc_path):
    """
    将doc文档转换为docx文档
    :rtype: object
    """
    docx_path = doc_path.replace("doc", "docx")
    word = wc.Dispatch('Word.Application')
    doc = word.Documents.Open(doc_path)  # 目标路径下的文件
    doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False)  # 转化后路径下的文件
    doc.Close()
    word.Quit()

所望の符号パケットインタフェース:

import os
import zipfile
from win32com import client as wc
import xlrd
from bs4 import BeautifulSoup
from pydocx import PyDocX
from lxml import html
from xpath_content import XpathContent
from write_to_excel import WriteToExcel

pythonのdocx文書処理方法は、多くの、特定の用途がありますが、個々のニーズに応じて決定されます。

No.1の解凍ファイルのDOCX

原理のdocxファイルは、解凍後を通じて、各ファイルの元の内容を取得することができ、自然の中で圧縮されたzipファイルです。

解凍後のDOCXファイル構造は以下:

テキストのdocxファイルの格納構造は次のとおりです。

テキストは、単語/ document.xmlファイルに保存されています。

第一の方法は、我々は最初のzipファイルに縮小して、zipファイルを解凍、OK語/ document.xmlファイルの内容を読み取ることができますDOCX。

具体的な動作のコードは次のよう:

def get_content(self):
    """
    获取docx文档的文本内容
    :rtype: object
    """
    os.chdir(r"C:\Users\Administrator\Desktop\新建文件夹")  # 改变目录到文件的目录
    #
    os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP")  # 重命名为zip文件
    f = zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r')  # 进行解压
    xml = f.read("word/document.xml")

    wordObj = BeautifulSoup(xml.decode("utf-8"))
    # print(wordObj)
    texts = wordObj.findAll("w:t")
    content = []
    for text in texts:
        content.append(text.text)
    content_str = "".join(content)
    return content_str

最後に、文書は、すべてのデータのテキストですDOCXてもらいます。

 

pythonを扱うことができるテキスト形式に2番コンバートのdocx文書

 

第一の方法には、直接読み取りのdocx文書内容のアプローチが存在しない、DOCX文書の原則、少し面倒なプロセスに従ってデータを取得するのですか?答えは、家庭用洗浄睡眠を行く、いや、それを忘れて間違いです。

 

直接それを容易に扱うことができるテキスト形式のpythonへのdocx文書を変換する能力がない、のdocx文書の方法ではない読みますか?

 

これは、先に述べたかもしれないのpythonは最終的に見つかった莫大な苦難を経験した後、サードパーティ製のライブラリがDOCX文書形式、pydocx、pydocxライブラリを変換することができ、(最初の私は大のpythonを誇る波)の豊富なサードパーティのライブラリをたくさん持っていますメソッドpydocx.to_htmlは直接どのように、htmlファイルとしてのdocx文書を変換することができます)(ありますか?イタリア驚くことではない、驚きの驚き!

 

次のように第二の方法は、テキスト変換コードであります:

def docx_to_html(self, docx_path):
    """
    docx文档转换成html响应
    :rtype: object
    """
    # docx_path = "C:\\Users\Administrator\Desktop\新建文件夹\\51 2014.09.12 1份Savannah.docx"
    response = PyDocX.to_html(docx_path)

レスポンスは、HTMLファイルの内容を取得することです。

 

四、Pythonの治療MHTファイル

 

MHTファイルは、IEブラウザ上のテキスト形式でのみ表示され、ブラウザクロムがゴミの束で開きます。

 

No.1の偽造IEは、コンテンツファイルMHTを要求します

 

最も基本的な方法は、テキスト偽造MHT IEブラウザのリクエストを読むことです。

 

ライブラリの要求を呼び出し、リクエストはリクエストヘッダのWebリンク、IEの建設を取得し送信します。

 

理論的には、このアプローチが可能です。我々はすべて知っているので、しかし、その後、それは、推奨されません。

 

 

2番のファイル形式を変換します

 

MHTファイルを推測するために真剣に良い方法は、直接それを読むために他のファイル形式に変更することができますか?

 

DOCX、ノー; HTML、しないだろう。無用Excelは、言うこと。

 

唯一の真実!

 

直接改変したDOCXサフィックスが、読み取ることができません。

 

そう、どのような方法で我々はそれについて考えます。はい、それは、doc文書に変更されます。

 

この方法では信じられないですが、それはまた、現在に触発されています。

 

サフィックスを変更することにより、MHTは、直接DOCファイル、上記のプロセスのドキュメントにドキュメントの特定の参照を読み取るのドキュメントのテキスト原稿読取方法に変換することができます。

 

HTMLテキストの内容を取得する方法?

HTML形式のWebコンテンツは、テキストラベルのデータ構造であり、テキストモードから取り出される:再規則的またはXPathの。

 

フォローアップ、必要な小さなパートナーが存在し、その後、再、xapth使用ルールの詳細については、章を開きます。

おすすめ

転載: blog.csdn.net/weixin_44786530/article/details/92392135