ECプラットフォームの商品データクローラ解析(テストフェーズではドッキングテストも可能)

1. 簡単な説明

Jingdong、Taobao、Tmall、Taote、Pinduoduo、Alibaba、1688、Douyin、Suning、Amazon China、lazada、AliExpress および世界の 50 以上の有名なプラットフォームがデータを取得し、データベースに保存して分析します。

2. DIC をつかみます

the_basic_info = { 
                    'search_keyword': self.keyword, "使用されたキーワード" 
                    'last_crawling_timestamp': datetime.now(), "現在のクロール時間" 
                    'platform': 'JD', "クロール プラットフォーム" 
                    'product_name': product_name , "製品Name" 
                    'seller_name': seller_name, "ビジネス名" 
                    'sku_id': _data_pid, "ProductId" 
                    'default_price': float(final_price), "最終価格" ' 
                    final_price': 0, 
                    'item_url': _http, "製品の Web アドレス" 
                    'comments_ave_score':float(score_avg), "商品の評価" 
                    'comments_count': comment_count, "商品レビューの数"
                    'images': img, "商品画像アドレス" 
                    'current_stock': location_list, "商品保管アドレス" 
                    'search_rank': Rank, "現在の検索インデックスでの順位" 
                    'search_order': order, "現在のインデックス(売上高順、価格、人気など)" 
                    'seller_url': sell_url, "販売者のWebページアドレス" 
                    'comments_list': comment_list "特定のコメント、100件のコメントのクロールをサポート" 
                }

一例:

Product_name Dell Inspiron 15PR-6748B 15.6 インチ ゲーミング ノートパソコン (i7-7700HQ 8G 128GSSD+1T GTX1050 4G IPS) ブラック last_crawling_timestamp 2017-12-28 20:20:09.684290 sell_name Dell JD 自社運営旗艦店 sku_ id 482 4733
デフォルト
価格
6599.0
商品
URL  【 DELL Inspiron 15PR-6748B】デル DELL Inspiron 15.6インチ ゲーミングノートパソコン (i7-7700HQ 8G 128GSSD+1T GTX1050 4G 独立ディスプレイ IPS 高速放熱) ブラック【見積価格評価】 - 京東 comments_count 72000 comments_ave_score 5.0 画像 [
'
http
: // img13.360buyimg.com/n7/jfs/t12472/179/736139380/319777/f266f597/5a128bf6N079a87ba.jpg ']
search_rank 1
sell_url  Dell の自社運営の JD.com ショップの公式フラッグシップ - JD.com
comments_list [{'content_score': 5, 'content_time': '2017-12-05 18:54:31', 'content_title': None, 'content': '1 か月近く使用されています、教えてくださいその経験について。11月9日の早朝に購入し、その日の午後に届きました。梱包は合理化されており、京東バッグの中にデルの箱が入っています。このコンピュータは外観が良く、A 面スキンタイプで、背面の冷却通気口が非常に優れています。パソコンは出来が良いので少し厚みがあるので軽くて薄いというわけではありませんが、これはちょっとゲームブックっぽいです。寮にはShadow Elf 2proとR720もあり、2proキーボードと比較するとかなり柔軟にタイピングできますが、バックライトは他の2つほど明るくありません。個人的にはR720が一番鍵盤タッチが良くてキーも大きいと思います。R720 と 2PRO とゲーム ボックスの比類のない点、つまりサブウーファーについて話しましょう。音質は非常に良く、ルームメイト 3 人は揃ってゲーム ボックスの音質を賞賛し、羨ましがっていました。それで私のコンピュータも寮のステレオになりました。画面はips45色域です。これまでTNスクリーンを使っていた人にとっては、このPCスクリーンはかなり良いと感じます。パフォーマンスについて話しましょう。実際、パフォーマンスについて言及するのは最後です。構成はすべて揃っています。Master Lu の実行スコアはほぼ 18,000 です。1050ti はほとんどの大規模なスタンドアロン ゲームを処理でき、画質はゲームはスムーズに実行できます。大規模なゲームを実行すると、ファンがフル回転し、音が少し大きくなります (良好な放熱と低騒音を同時に達成することはできません)。ファンの音が大きくても、かなり刺激的な音になります。ソリッド ステート (nvme プロトコルではない) および機械式ハード ドライブは比較的性能が悪く、起動に約 10 秒かかります。要約しましょう。長所: 1. 外観が高い 2. 放熱性が良い 3. 仕上がりが優れている 4. サブウーファーの構成 短所: 1. ローエンドの IPS スクリーン 2. やや厚くて重い 3. ハードディスクが貧弱'}]

3. テストしますか?

if __name__ == "__main__": 
    j = JDMonitoringEngine() 
    j.set_searching_url(_keyword="dell", _page_limit=1, _order=["sales"]) 
    url_list = j.url_list 
    for _index, url_dict in enumerate(url_list): 
        logger.info("基本情報抽出に {0}/{1} の URL 辞書を送信します".format( 
            (_index + 1), len(url_list))) 
        results = list(map(lambda x: j.get_basic_info(x)) 、url_dict))

jd_monitoring_engine メイン メソッドの _keyword、_page_limit、および _order を
テストするサンプルに変更します。3 つのパラメータは、キーワード、検索ページ、検索インデックスです。

4. インターフェースのカプセル化コード

1.リクエストメソッド:HTTPS GET POST

2. 公開パラメータ:

名前 タイプ しなければならない 説明
はい 呼び出しキー (GET モードの URL に接続する必要があります)
ひみつ はい 呼び出しキー (vxin:Taobaoapi2014 をコピー)
api_name はい APIインターフェース名(リクエストアドレスに含まれる) [item_search、item_get、item_search_shopなど]
キャッシュ いいえ [はい、いいえ] デフォルトははいです。キャッシュされたデータが呼び出され、速度は比較的高速です。
結果の種類 いいえ [json,jsonu,xml,serialize,var_export] はデータ形式を返します。デフォルトは json で、jsonu によって出力されたコンテンツは中国語で直接読み取ることができます。
ラング いいえ [cn,en,ru] 翻訳言語、デフォルト cn 簡体字中国語
バージョン いいえ APIバージョン

3. リクエストパラメータ:

設定:q=start_price=0&end_price=0&page=1&cat=0&discount_only=&sort=&seller_info=no&nick=&seller_info=&nick=&ppath=&imgid=&filter=

パラメータ説明: q: 検索キーワード、サポートURL
cat: カテゴリID
start_price: 開始価格
end_price: 終了価格
sort: 並べ替え [bid,_bid,_sale,_review,_new]
  (bid: 合計価格、sale: 販売数量、レビュー数、新しい新製品、大から小まで並べ替えるには _ プレフィックスを追加します) <
ページ: 

4. リクエスト コード サンプル、高同時リクエストのサポート (CURL、PHP、PHPsdk、Java、C#、Python...) 

# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-vxin.Taobaoapi2014.cn/jd/item_search/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&q=女装&start_price=0&end_price=0&page=1&cat=0&discount_only=&sort=&seller_info=no&nick=&seller_info=&nick=&ppath=&imgid=&filter="
headers = {
    "Accept-Encoding": "gzip",
    "Connection": "close"
}
if __name__ == "__main__":
    r = requests.get(url, headers=headers)
    json_obj = r.json()
    print(json_obj)

5. 記事の文字数制限のため、当面の間、回答例は表示されません。

おすすめ

転載: blog.csdn.net/tbprice/article/details/130217449