機能要件:1、データ収集、定期的にネットワークからの情報に関連したホット言葉のフィールドをクロール
図2に示すように、データクリーニング:熱自動的に生成されたワードディレクトリ情報フィールドを生成するために、熱ワード情報データクレンジング、及び自動分類及び計数。
説明するために3、熱い言葉:自動的に各ホットワード名詞のための中国の説明を追加します(Baiduの百科事典やウィキペディアを参照してください)
4、熱い言葉が引用:熱い言葉と参照最近のニュース記事へのハイパーリンクやディレクトリを生成するために標識、ユーザーがアクセスするためにクリックすることができます。
図5は、データの視覚化を示して:①文字や単語グラフ熱と可視化を示し雲;②関係図の近さとは、ホットワードを同定することができます。
6、レポートデータ:すべてが熱い言葉ディレクトリにすることができ、用語集は、輸出の形で報告書のWORDのバージョンを生成します。
いくつかの関数の完了の最初のステップは、クロール・パークは、テキストにニュースのブログのタイトルと内容を推奨しました、
アイデア:ページとページの間に、法律の観察
ページを変更することで、ページのリンクを変更します。また、見つかりました
HREFアドレスの対応ニュースの詳細図であるWebリンク
だから、相当の物品の特定のアドレスのhrefのリンクをクロールリサイクル。次のように特定のコード
インポート要求 lxmlのインポートetreeから インポート時 のインポートpymysql インポート日時 インポートurllibはの 輸入JSON :getDetail(HREF、タイトル)デフ #print(HREF) プリント(タイトル) ヘッド= { 'クッキー': '_ GA = GA1.2.617656226.1563849568。__gads = ID = c19014f666d039b5:T = 1563849576:S = ALNI_MZBAhutXhG60zo7dVhXyhwkfl_XzQ。UM_distinctid = 16cacb45b0c180-0745b471080efa-7373e61-144000-16cacb45b0d6de。__utmz = 226521935.1571044157.1.1.utmcsr =百度| utmccn =(有機)| utmcmd =有機。__utma = 226521935.617656226.1563849568.1571044157.1571044156.1。SyntaxHighlighter =パイソン。.Cnblogs.AspNetCore。クッキー= CfDJ8Nf-Z6tqUPlNrwu2nvfTJEgfH-Wr7LrYHIrX6zFY2UqlCesxMAsEz9JpAIbaPlpJgugnPrXvs5KuTOPnzbk1pa_VZIVlfx1x5ufN55Z8sb63ACHlNKd4JMqI93TE2ONBD5KSWd-ryP2Tq1WfI9e_uTiJIIO9vlm54pfLY0fIReGGtqJkQ5E90ahfHtJeDTgM1RHXRieqriLUIXRciu-3QYwk8x5vLZfJIEUMO5g_seeG6G6FW2kbd6Uw3BfRkkIi-g2O_LSlBqj0DdbJFlNmd-TnPmckz5AENnX9f3SPVVhfmg7zINi4G2SSUcYWSvtVqdUtQ8o9vbBKosXoFOTUNH17VXX_IX8V0ODbs8qQfCkPFaDjS8RWSRkW9KDPOmXyqrtHvRXgGRydee52XJ1N8V-Mu0atT0zMwqzblDj2PDahV1R0Y7nBvzIy8uit15vGtR_r0gRFmFSt3ftTkk63zZixWgK7uZ5BsCMZJdhqpMSgLkDETjau0Qe1vqtLvDGOuBZBkznlzmTa-oZ7D6LrDhHJubRpCICUGRb5SB6WcbaxwOqE1um40OSyila-PgwySA。.CNBlogsCookie = 9F86E25644BC936FAE04158D0531CF8F01D604657A302F62BA92F3EB0D7BE317FDE7525EFE154787036095256D48863066CB19BB91ADDA7932BCC3A2B13F6F098FC62FDA781E0FBDC55280B73670A89AE57E1CA5E1269FC05B8FFA0DD6048B0363AF0F08。_GID = GA1.2.1435993629.1581088378。__utmc = 66375729。= = __utmz 66375729.1581151594.2.2.utmcsr cnblogs.com | utmccn =(紹介)| = utmcmd紹介| utmcct = /; __utma = 66375729.617656226.1563849568.1581151593.1581161200.3。__utmb = 66375729.6.10.1581161200 " } URL2 = "https://news.cnblogs.com" + HREF R2 = requests.get(URL2、ヘッダー=ヘッド) #print(r2.status_code) HTML = r2.content.decode( "UTF-8") #もしタイトル== '病毒、一条静止的河流': #print(HTML) HTML1 = etree.HTML(HTML) #print(HTML1) content1 = html1.xpath( '// divの[ID @ = "news_body"]' ) プリント(content1) 場合LEN(content1)== 0: 印刷( "异常") 他: content2 = content1 [0] .xpath( '文字列()') #print(content2) 含有量= content2.replace(」 \ R ' '').replace( '\ T'、 '').replace( '\ n'は、 '').replace(' ''') 「) プリント(コンテンツ) 、F =オープン( "news.txt"、 "+"、コード=' UTF-8' ) f.write(タイトル+ ' '+コンテンツ+' \ n 'は) #&EMSP 場合__name __ ==' __ MAIN__': I範囲内(0100)のために: プリント( "*************** ******************** ") プリント(I) ページ= I + 1 のurl =" https://news.cnblogs.com/n/recommend?page= "+ STR(ページ) R = requests.get(URL) HTML = r.content.decode(" UTF-8 ")、 印刷("ステータスコード:」、r.status_code) HTML1 = etree.HTML(HTML) HREF = html1.xpath( '// H2 [@クラス= "news_entry"] / A / @ hrefの') タイトル= html1.xpath( '// H2 / A /テキスト()[クラス= "news_entry" @]')// H2 [クラス@ = "news_entry"] / /テキスト() ') プリント(LEN(HREF)) について範囲内(0.18): getDetail(HREF [A]、タイトル[])
クロールの結果は、(表示部、タイトルとコンテンツは、スペースで区切られた、データの各行はタイトルとコンテンツクロールである)として、以下のとおりです。
概要:プラス頭クッキーによる審査は、この問題を解決することができた後、ログイン画面のページに直接移動、その後、ポケットの過程で遭遇クロールにあまりにも多くの連続アクセスが検出され、