pyquery
jQueryのと同じように解析するライブラリ
初期化
初期化文字列
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
初期化ファイル
from pyquery import PyQuery as pq
doc = pq(filename='')
URL初期化
from pyquery import PyQuery as pq
doc = pq(url='https://cnblogs.com/dbf-')
セレクタ
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
doc('#i1') # id 选择器
doc('.c1') # class 选择器
doc('div') # 标签选择器
doc('#i1, #i2') # 组合选择器 id==i1 或 id==i2
doc('#i1.c1') # 组合选择器 id==i1 且 id==i2
doc('#i1 .c1') # 层级选择器 id==i1 下所有 class==c1 的标签
doc('div > .c1') # 层级选择器 id==i1 下一层 class==c1 的标签
疑似クラスセレクタ
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
doc('p:first-child') # p 标签的第一个子标签
doc('p:last-child') # p 标签的最后一个子标签
doc('p:nth-child(2)') # p 标签的第二个子标签
doc('p:gt(2)') # p 标签的第三个之后的子标签
その他のセレクタます。https://www.w3school.com.cn/cssref/css_selectors.asp
検索要素
子孫要素
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
doc('#i1').find('.c1') # == doc('#i1 .c1') 获取 id==i1 元素的子孙元素
doc('#i1').children('.c1') # == doc('#i1 > .c1') 获取 id==i1 元素的子元素
祖先
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
doc('#i1').parent() # 获取 id==i1 元素的父元素
doc('#i1').parents() # 获取 id==i1 元素的所有祖先元素
doc('#i1').parents('.c1') # 获取 id==i1 元素的所有 class==c1 的祖先元素
兄弟
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
doc('#i1').parent() # 获取 id==i1 元素的父元素
doc('#i1').parents() # 获取 id==i1 元素的所有祖先元素
doc('#i1').parents('.c1') # 获取 id==i1 元素的所有 class==c1 的祖先元素
.items()
発電機を返します。
情報へのアクセス
プロパティ
プロパティ名でプロパティを取得
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
doc('#i1').attr('href')
doc('#i1').attr.href
コンテンツ
.text()
ラベルテキストの中に入ることができます
によって.html()
あなたは、タグのHTMLを取得することができます
DOM操作
addClass()&removeClass()
addClass()
&removeClass()
あなたが選択した要素のクラスを追加または削除することができます
ATTR&CSS
attr()
&css()
要素を選択することができますが、ATTRを変更、追加するには、CSS(スタイル属性)
from pyquery import PyQuery as pq
html = ''
doc = pq(html)
doc('#i1').attr('href')
doc('#i1').attr('href', 'https://cnblogs.com/dbf-')
doc('#i1').css('color', 'red')
取り除きます
remove
選択された要素を削除することができます