07熱い言葉は、ブログのニュースコンテンツ推薦公園をクロールするための最初のステップのフィールド分析と解釈に情報を分類しました

機能要件:1、データ収集、定期的にネットワークからの情報に関連したホット言葉のフィールドをクロール

      図2に示すように、データクリーニング:熱自動的に生成されたワードディレクトリ情報フィールドを生成するために、熱ワード情報データクレンジング、及び自動分類及び計数。

      説明するために3、熱い言葉:自動的に各ホットワード名詞のための中国の説明を追加します(Baiduの百科事典やウィキペディアを参照してください)

      4、熱い言葉が引用:熱い言葉と参照最近のニュース記事へのハイパーリンクやディレクトリを生成するために標識、ユーザーがアクセスするためにクリックすることができます。

      図5は、データの視覚化を示して:①文字や単語グラフ熱と可視化を示し雲;②関係図の近さとは、ホットワードを同定することができます。
      6、レポートデータ:すべてが熱い言葉ディレクトリにすることができ、用語集は、輸出の形で報告書のWORDのバージョンを生成します。

いくつかの関数の完了の最初のステップは、クロール・パークは、テキストにニュースのブログのタイトルと内容を推奨しました、

      

 

 アイデア:ページとページの間に、法律の観察

 

 ページを変更することで、ページのリンクを変更します。また、見つかりました

 

 HREFアドレスの対応ニュースの詳細図であるWebリンク

 

 だから、相当の物品の特定のアドレスのhrefのリンクをクロールリサイクル。次のように特定のコード

インポート要求
lxmlのインポートetreeから
インポート時
のインポートpymysql 
インポート日時
インポートurllibはの
輸入JSON 


:getDetail(HREF、タイトル)デフ
    #print(HREF)
    プリント(タイトル) 
    ヘッド= {
        'クッキー': '_ GA = GA1.2.617656226.1563849568。__gads = ID = c19014f666d039b5:T = 1563849576:S = ALNI_MZBAhutXhG60zo7dVhXyhwkfl_XzQ。UM_distinctid = 16cacb45b0c180-0745b471080efa-7373e61-144000-16cacb45b0d6de。__utmz = 226521935.1571044157.1.1.utmcsr =百度| utmccn =(有機)| utmcmd =有機。__utma = 226521935.617656226.1563849568.1571044157.1571044156.1。SyntaxHighlighter =パイソン。.Cnblogs.AspNetCore。クッキー= CfDJ8Nf-Z6tqUPlNrwu2nvfTJEgfH-Wr7LrYHIrX6zFY2UqlCesxMAsEz9JpAIbaPlpJgugnPrXvs5KuTOPnzbk1pa_VZIVlfx1x5ufN55Z8sb63ACHlNKd4JMqI93TE2ONBD5KSWd-ryP2Tq1WfI9e_uTiJIIO9vlm54pfLY0fIReGGtqJkQ5E90ahfHtJeDTgM1RHXRieqriLUIXRciu-3QYwk8x5vLZfJIEUMO5g_seeG6G6FW2kbd6Uw3BfRkkIi-g2O_LSlBqj0DdbJFlNmd-TnPmckz5AENnX9f3SPVVhfmg7zINi4G2SSUcYWSvtVqdUtQ8o9vbBKosXoFOTUNH17VXX_IX8V0ODbs8qQfCkPFaDjS8RWSRkW9KDPOmXyqrtHvRXgGRydee52XJ1N8V-Mu0atT0zMwqzblDj2PDahV1R0Y7nBvzIy8uit15vGtR_r0gRFmFSt3ftTkk63zZixWgK7uZ5BsCMZJdhqpMSgLkDETjau0Qe1vqtLvDGOuBZBkznlzmTa-oZ7D6LrDhHJubRpCICUGRb5SB6WcbaxwOqE1um40OSyila-PgwySA。.CNBlogsCookie = 9F86E25644BC936FAE04158D0531CF8F01D604657A302F62BA92F3EB0D7BE317FDE7525EFE154787036095256D48863066CB19BB91ADDA7932BCC3A2B13F6F098FC62FDA781E0FBDC55280B73670A89AE57E1CA5E1269FC05B8FFA0DD6048B0363AF0F08。_GID = GA1.2.1435993629.1581088378。__utmc = 66375729。= = __utmz 66375729.1581151594.2.2.utmcsr cnblogs.com | utmccn =(紹介)| = utmcmd紹介| utmcct = /; __utma = 66375729.617656226.1563849568.1581151593.1581161200.3。__utmb = 66375729.6.10.1581161200 "
    } 
    URL2 = "https://news.cnblogs.com" + HREF 
    R2 = requests.get(URL2、ヘッダー=ヘッド)
    #print(r2.status_code)
    HTML = r2.content.decode( "UTF-8") もしタイトル== '病毒、一条静止的河流':
        #print(HTML)
    HTML1 = etree.HTML(HTML)
    #print(HTML1)
    content1 = html1.xpath( '// divの[ID @ = "news_body"]' )
    プリント(content1)
    場合LEN(content1)== 0:
        印刷( "异常")
    他:
        content2 = content1 [0] .xpath( '文字列()')
        #print(content2)
        含有量= content2.replace(」 \ R ' '').replace( '\ T'、 '').replace( '\ n'は、 '').replace(' ''') 「) 
        プリント(コンテンツ)
        、F =オープン( "news.txt"、 "+"、コード=' UTF-8' )
        f.write(タイトル+ ' '+コンテンツ+' \ n 'は)
        #&EMSP 
場合__name __ ==' __ MAIN__':
    I範囲内(0100)のために:
        プリント( "*************** ******************** ")
        プリント(I)
        ページ= I + 1 
        のurl =" https://news.cnblogs.com/n/recommend?page= "+ STR(ページ)

        R = requests.get(URL)
        HTML = r.content.decode(" UTF-8 ")
        印刷("ステータスコード:」、r.status_code)
        HTML1 = etree.HTML(HTML)
        HREF = html1.xpath( '// H2 [@クラス= "news_entry"] / A / @ hrefの')
        タイトル= html1.xpath( '// H2 / A /テキスト()[クラス= "news_entry" @]')// H2 [クラス@ = "news_entry"] / /テキスト() ') 
        プリント(LEN(HREF))
        について範囲内(0.18):
            getDetail(HREF [A]、タイトル[])
       

  

クロールの結果は、(表示部、タイトルとコンテンツは、スペースで区切られた、データの各行はタイトルとコンテンツクロールである)として、以下のとおりです。

 

 

  概要:プラス頭クッキーによる審査は、この問題を解決することができた後、ログイン画面のページに直接移動、その後、ポケットの過程で遭遇クロールにあまりにも多くの連続アクセスが検出され、

 

おすすめ

転載: www.cnblogs.com/xcl666/p/12285733.html