ことを避けるために、Pythonの爬虫類ピットを指向在庫データとの株式市場への深い海、

オリジナルリンク: https://mp.weixin.qq.com/s?src=11×tamp=1572071300&ver=1935&signature=qnaaYinEQI2c-OPnhgjyW3xv7y5pmIkUJHKev7I92tL5VyIDqfNAneVRiW4fNVlv177W8RXWmXLZCaSBUNhs3o1*uGmEgZAhJ5GFFKdwPRQR2nlY1G8Clu93WzsrCcVm&new=1

特長

  • 目標:上海証券取引所と深セン証券取引所およびすべての株式取引情報の名前を取得します。
  • 出力:ファイルに保存します。
  • 技術ロードマップ:リクエスト-BS4-RE
  • 言語:python3.5

説明

  • サイトの選択原則:株価情報は、静的なHTMLページ内に存在し、非jsのコード生成、無Robbtsプロトコルの制限。
  • 選択:Webページを開き、株価データの検索ページがソースコードに存在する場合、ソースコードを表示します。

オープンネットとしてシーナの株式、下図のように:
ここに画像を挿入説明
左上の画像は、株価の天山の株式は13.06で示す、インタフェースページです。ページのソースコードのための権利は、クエリは、ソースコードで見つかった13.06を見つけていません。このプロジェクトには適していません、ページ生成JSのデータを使用して決定されます。Webページのようにします。

以下に示すようにBaiduは、その後、株式のURLを開きます。
ここに画像を挿入説明
上の図から、在庫データBaiduのhtmlコード生成、プロジェクトのコンプライアンス、このプロジェクトのURL Baiduの株式の選択で見つけることができます。

それは我々がdongfangcaifuwangインターフェイスを選択し、現在のすべての株式市場、株式、のリストを必要とするので、情報Baiduの株式のみの単一株式ので、以下に示すように:
ここに画像を挿入説明

原理分析

各株式のURLのためのBaiduの株価を表示します。https://gupiao.baidu.com/stock/sz300023.html、URLが番号300023で見つけることができることは、深セン証券取引所を代表SZ、ちょうど株式数です。したがって、我々は次のようにプログラムが構成されて構築さ:

  • ステップ1:東富のネットワークからの株式のリストを取得します。
  • ステップ2:1つの銘柄記号で1取得し、Baiduの株式へのリンクを追加し、一つ一つが株式情報へのアクセスを得るために、これらのリンクの最後。
  • ステップ3:ファイルに結果。

次のように次のようにして、各証券のHTMLコードのBaiduの在庫情報ページのソースコードを、格納された発見情報を参照してください:
ここに画像を挿入説明
我々は、各在庫情報を格納する場合したがって、参照は、実施形態上記のHTMLコード画像に格納されてもよいです。各情報源、すなわち、格納されたキーと値のペアを介して、情報値に対応します。Pythonの辞書の種類でウェイキーと値のペアを使用することができます。そこで、本プロジェクトでは、各株式の情報を保存するために辞書を使用して、すべての株式レコードの辞書情報を使用して、ファイルへの最終的な出力データ・ディクショナリ。

プロジェクトの完全なプログラム

import requests
from bs4 import BeautifulSoup
import traceback
import re
'''
更多Python学习资料以及源码教程资料,可以在群821460695 免费获取
'''
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue
def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名称': name.text.split()[0]})
            
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
                count = count + 1
                print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
        except:
            count = count + 1
            print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
            continue
def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)
main()

おすすめ

転載: blog.csdn.net/fei347795790/article/details/102756353