Pythonのクローラ(5) - BeautifulSoup&ドッカーベース

基本的な戦闘BeautifulSoup

インストール:インストールbeautifulsoup4ピップ

共通コマンド:

from bs4 import BeautifulSoup as bs
import urllib.request
data=urllib.request.urlopen("https://www.cnblogs.com/mcq1999/").read().decode("utf-8","ignore")
bs1=bs(data)
print(bs1.prettify()) #格式化输出
print(bs1.title) #获取标签title,bs对象.标签名
print(bs1.title.string) #获取标签title的文字
print(bs1.title.name) #获取标签名,如title
print(bs1.a.attrs) #获取属性列表 键值对
print(bs1.a['name']) #获取某个属性对应的值
print(bs1.find_all('a')) #提取所有某个节点的内容,传参是标签名
print('---------------------------------')
print(bs1.find_all(['a','ul']))
k1=bs1.ul.contents #提取当前节点的所有子节点,返回一个列表
k2=bs1.ul.children #返回一个生成器
allulc=[i for i in k2]

PhantomJS基本的な戦闘

効率は高くありませんが、問題は、抗登るの多くを解決することができ、本質的に非ブラウザインタフェース、コマンドライン(やPython)操作です。一般urllibはscrapyのまたは後続の処理を、その後、データを書き込むPhantomJSによって部分的に困難。

PhantomJSとセレンは後で学び、解体されました。

分散型クローラのドッキングウィンドウの基礎

ミラー:あなたは、内容を変更することはできません

コンテナ:あなたは、デフォルトでは、仮想マシンと同等の内容を、変更することができますが、相互に閉じ

長所:光が展開する、コスト削減、導入が容易な移行

安装:YUM -yインストールドッカ

起動と停止:

ドッキングウィンドウを起動しsystemctl

systemctlストップドッキングウィンドウ

起動する場合

このブログは、以下を参照してください、私は成功し、他の方法は役に立たないでした

https://blog.csdn.net/w1316022737/article/details/83692701

そして、それ以外の場合は非常にゆっくりと実行して、最高のソース]ドッキングウィンドウをミラーリングするように変更します。

https://blog.csdn.net/julien71/article/details/79760919

ビュー既存のミラー:ドッキングウィンドウの画像

ミラーダウンロード:ドッカプル

ドッキングウィンドウの実行-tid:コンテナを作成します。

ビューコンテナ:ドッキングウィンドウのps -a

容器に:ドッカ添付する

終了コンテナ:それはコンテナを停止しますので、一般的に、終了しないでください。Pの+ qを、私たちは、Ctrlを押しながら+を使用することができます。

容器に動作すると、仮想マシンと同等のユニットに影響を与えるし、仮想マシンを開くことができません

コンテナを起動します。ドッキングウィンドウの開始を...

包装容器鏡像である:ドッキングウィンドウは、2D6のMyTestにコミット:V1

コンテナベースの名前にミラーリング:ドッキングウィンドウは、(testabsという名前のコンテナを作成するために基づいて、A2Aこの画像)-tid --name testabc A2Aを実行します

ドッキングウィンドウは-tid --nameのH1のMyTestを実行します。V1を

ドッキングウィンドウは-tid --name h2はH1のMyTest --link実行します:V1(通信を行うことであるH1、H2とH1にリンクされているH2コンテナ)

ここで私はUbuntuのがping、yumのコマンドを見つけるミラーリングなどではありませんので、CentOSのミラー・イメージへのスイッチを使用します。

[ルート@ hadoop106のMCQ]#ドッキングウィンドウFE3添付
[ルート@ fe3489945006 /]#猫の/ etc / hosts
127.0.0.1 localhostの
:: 1 localhostのIP6-localhostのIP6-ループバックを
FE00 :: 0 IP6-localnetに
FF00 :: 0 IP6-mcastprefix
FF02 :: 1 IP6-れるallnodes
FF02 :: 2 IP6-allrouters
172.17.0.6 C1 4c3dab0e013c
172.17.0.7 fe3489945006
[ルート@のfe3489945006 /]#pingを172.17.0.6

パッケージファイルの画像ドッキングウィンドウ:-o /mytest.tar c3e8保存ドッカ

おすすめ

転載: www.cnblogs.com/mcq1999/p/11469119.html
おすすめ