Análisis del rastreador de datos de productos básicos de la plataforma de comercio electrónico (la prueba de acoplamiento está disponible en la fase de prueba)

1. Breve descripción

Jingdong, Taobao, Tmall, Taote, Pinduoduo, Alibaba, 1688, Douyin, Suning, Amazon China, lazada, AliExpress y más de 50 plataformas conocidas en el mundo capturan datos, los almacenan en la base de datos y los analizan

2. Tome el DIC

the_basic_info = { 
                    'search_keyword': self.keyword, "palabra clave utilizada" 
                    'last_crawling_timestamp': datetime.now(), "actual crawling time" 
                    'platform': 'JD', "crawling platform" 
                    'product_name': product_name , "Product Name" 
                    'seller_name': seller_name, "Business Name" 
                    'sku_id': _data_pid, "ProductId" 
                    'default_price': float(final_price), "Final Price" ' 
                    final_price': 0, 
                    'item_url': _http, "Dirección web del producto " 
                    'comentarios_ave_puntuación':float(score_avg), "calificación del producto" float(score_avg), "calificación del producto" 
                    'comments_count': comment_count, "número de reseñas de productos"
                    'imágenes': img, "dirección de la imagen del producto" 
                    'stock_actual': lista_ubicaciones, "Dirección de almacenamiento del producto" 
                    'ranking_búsqueda': clasificación, "Clasificación bajo el índice de búsqueda actual" 
                    'order_búsqueda': orden, "Índice actual (por volumen de ventas, Precio, popularidad, etc.)" 
                    'seller_url': seller_url, "Dirección de la página web del vendedor" 
                    'comments_list': comment_list "Comentarios específicos, soporte para rastrear 100 comentarios" 
                }

un ejemplo:

Nombre del producto Laptop para juegos Dell Inspiron 15PR-6748B de 15,6 pulgadas (i7-7700HQ 8G 128GSSD+1T GTX1050 4G IPS) negro last_crawling_timestamp 2017-12-28 20:20:09.684290 nombre del vendedor Dell JD tienda insignia autónoma sku_ id
482473
3
default_price
6599.0
item_url  【 DELL Inspiron 15PR-6748B】Portátil para juegos Dell DELL Inspiron de 15,6 pulgadas (i7-7700HQ 8G 128GSSD+1T GTX1050 4G Pantalla independiente IPS Disipación de calor rápida) Negro【Evaluación de precio de cotización】-Jingdong comments_count 72000 comments_ave_score 5.0 imágenes [
'
http
: // img13.360buyimg.com/n7/jfs/t12472/179/736139380/319777/f266f597/5a128bf6N079a87ba.jpg ']
search_rank 1
seller_url  El buque insignia oficial autónomo de Dell de JD.com Shop - JD.com
comments_list [{'content_score': 5, 'content_time': '2017-12-05 18:54:31', 'content_title': Ninguno, 'content': 'Se ha usado durante casi un mes, déjame decirte sobre la experiencia Lo compré en la madrugada del 9 de noviembre y me llegó en la tarde del mismo día. El empaque es aerodinámico y hay una caja de Dell en la bolsa de Jingdong. La computadora tiene una buena apariencia, tipo de piel del lado A, y la rejilla de ventilación trasera es muy atractiva. La computadora no es liviana y delgada, porque es un poco gruesa debido a la buena mano de obra, pero es un poco como un libro de juegos. También hay Shadow Elf 2pro y R720 en el dormitorio Comparado con el teclado 2pro, es bastante flexible para escribir, pero la luz de fondo no es tan brillante como los otros dos. Personalmente, creo que el R720 tiene el mejor toque de teclado y las teclas son más grandes. Hablemos de lo incomparable entre R720 y 2PRO y la caja del juego, ese es el subwoofer, la calidad del sonido es muy buena, los tres compañeros de cuarto elogiaron y envidiaron la calidad del sonido de la caja del juego. Así que mi computadora también se convirtió en el estéreo de nuestro dormitorio. . . La pantalla tiene una gama de colores ips45. Para aquellos que han estado usando pantallas TN antes, siento que esta pantalla de computadora es bastante buena. Hablemos del rendimiento. De hecho, el rendimiento es lo último que hay que mencionar. La configuración está ahí. Master Lu tiene una puntuación de casi 18 000. 1050ti puede manejar la mayoría de los juegos independientes a gran escala y la calidad de imagen en el el juego puede funcionar sin problemas. Cuando se ejecuta un juego grande, el ventilador funcionará a plena capacidad y el sonido es un poco alto (no se puede lograr una buena disipación de calor y un bajo nivel de ruido al mismo tiempo), presto más atención a la disipación de calor, por lo que no importa si el ventilador es más fuerte, suena bastante emocionante. Los discos duros mecánicos y de estado sólido (no el protocolo nvme) son relativamente malos y tardan unos diez segundos en arrancar. Resumámoslo. Ventajas: 1. Alta apariencia 2. Buena disipación de calor 3. Excelente mano de obra 4. Configure el subwoofer Desventajas: 1. Pantalla ips de gama baja 2. Ligeramente gruesa y pesada 3. El disco duro es pobre'}]

3. ¿Prueba?

if __name__ == "__main__": 
    j = JDMonitoringEngine() 
    j.set_searching_url(_keyword="dell", _page_limit=1, _order=["sales"]) 
    url_list = j.url_list 
    for _index, url_dict in enumerate(url_list): 
        logger.info("Enviando {0}/{1} url dict a la extracción de información básica".format( 
            (_index + 1), len(url_list))) 
        resultados = list(map(lambda x: j.get_basic_info(x) , url_dict))

Cambie _keyword, _page_limit y _order en el método principal jd_monitoring_engine
a los ejemplos que desea probar. Los tres parámetros son palabras clave, páginas de búsqueda e índice de búsqueda.

4. Código de encapsulación de interfaz

1. Método de solicitud: HTTPS GET POST

2. Parámetros públicos:

nombre tipo debe describir
llave Cadena Clave de llamada (debe empalmarse en la URL en modo GET)
secreto Cadena Clave de llamada (copiar vxin:Taobaoapi2014)
nombre_api Cadena Nombre de la interfaz API (incluido en la dirección de la solicitud) [item_search, item_get, item_search_shop, etc.]
cache Cadena No [sí, no] El valor predeterminado es sí, se llamará a los datos almacenados en caché y la velocidad es relativamente rápida
tipo_resultado Cadena No [json,jsonu,xml,serialize,var_export] devuelve el formato de datos, el valor predeterminado es json, y el contenido generado por jsonu se puede leer directamente en chino
idioma Cadena No [cn,en,ru] idioma de traducción, predeterminado cn chino simplificado
versión Cadena No versión de la API

3. Solicitar parámetros:

Configuración:q=start_price=0&end_price=0&page=1&cat=0&discount_only=&sort=&seller_info=no&nick=&seller_info=&nick=&ppath=&imgid=&filter=

Descripción del parámetro: q: palabra clave de búsqueda, url de soporte
cat: ID de categoría
precio_inicial: precio inicial
precio_final: precio final ordenar
: ordenar [oferta,_oferta,_venta,_revisión,_nuevo]
  (oferta: precio total, venta: volumen de ventas, número de reseñas , nuevo producto nuevo, agregue el prefijo _ para ordenar de mayor a menor) <
página: 

4. Solicite muestras de código, admita solicitudes concurrentes elevadas (CURL, PHP, PHPsdk, Java, C#, Python...) 

# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-vxin.Taobaoapi2014.cn/jd/item_search/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&q=女装&start_price=0&end_price=0&page=1&cat=0&discount_only=&sort=&seller_info=no&nick=&seller_info=&nick=&ppath=&imgid=&filter="
headers = {
    "Accept-Encoding": "gzip",
    "Connection": "close"
}
if __name__ == "__main__":
    r = requests.get(url, headers=headers)
    json_obj = r.json()
    print(json_obj)

5. Debido al límite de caracteres del artículo, el ejemplo de respuesta no se mostrará por el momento.

Supongo que te gusta

Origin blog.csdn.net/tbprice/article/details/130217449
Recomendado
Clasificación