HTMLは何をすべきかの断片を取得するために使用することができますか?
分割するために使用することができ、それはまた、HTMLドキュメントを分析することができます
beautifulsoupの使用?
インストールbeautifulsoupライブラリ:ピップインストールbeautifulsoup4
BSのデフォルトが十分ライブラリhtmlの互換性はありませんが、また、実装するためのライブラリをインストールするために:PIPがインストールhtml5lib
次のコードは、bs1.htmlのスクリーンショットを添付されています。
コードの実装によって:
#BSの操作対象が文字列である、我々は最初のテキスト文字列を読み出す必要があり、あなたがHTMLテキスト解析を作りたいとします。
:Fとして( 'bs.html'、コード= 'UTF8')オープンと
html_doc = f.read()
#インポート関連ライブラリ、html5libない輸入、BSは自動的に引用符
BS4のインポートからBeautifulSoup
文書を解析するためにHTML5libによって指定された#
スープ= BeautifulSoup(html.doc、「html5lib」)#最初のパラメータはテキストを解析することで、2番目のパラメータは、解析自体もhtmllibにライブラリの使用を指定します
#印刷(soup.title)位の最初のタイトルの内容をプリントアウト
#プリント(soup.find( 'タイトル'))
#印刷(soup.title.name)#GETネームタグ
#タグ(ラベル)のテキストを取得
#プリント(soup.title.string)
#もできます:
#プリント(soup.title.get_text())
#あなたが親タグのタグを取得したい場合
#プリント(soup.title.parent)
#プリント(soup.title.parent.name)
#あなたは、プロパティ値の要素を取得したい場合
#プリント(soup.div [ 'ID'])
#プリント(soup.p [ 'スタイル'])
最初のラベルを見つける#印刷(soup.a)
#印刷(soup.find_all(「」))ラベルのすべてを見つけるために
添字に応じて、第2のタグを見つける#プリント(soup.find_all(「」)[1])
対応するタグを見つけるためにid属性に基づいて、#を印刷(soup.find(「」、ID =「リンク1」))
#印刷(soup.find( ''、のhref = 'のhttp://example.com/lacie'))#ラベルを見つけるために、適切なハイパーリンクによると
webdriverをの提供ポジショニングの8つの基本要素:
)(find_element_by_id:要素のid属性を選択することによって、
要素のname属性を選択することで:find_element_by_name()
要素がclasssで選択した属性:find_element_by_class_nameを()
タグにより、(タグ)選択した要素の属性:find_element_by_tag_name()
)(find_element_by_link_text:リンク要素を選択することによって、
partial_linkことで(曖昧マッチング)場所:find_element_by_partial_link_text()
XPathのselect要素で:find_element_by_xpath()
)(find_element_by_css_selector:CSSの要素を選択することによって、