Rastreador: rastrea la información del billete del destino al que deseas ir

Prefacio:

Este artículo se utiliza principalmente como un pequeño ejercicio para un proyecto de rastreador, para brindarle un proceso de análisis general de los rastreadores y ayudarlo a tener una comprensión más clara en la redacción futura de rastreadores.

Uno: configuración del entorno

Versión de Python: 3.7

IDE:PyCharm

Bibliotecas requeridas: solicitudes, bs4, xlwt

Dos: análisis de páginas web

1 Necesitamos encontrar el agente de usuario.

Tres: escribir código 

1: importar las bibliotecas necesarias

import requests
from bs4 import BeautifulSoup
import xlwt

2: escribir encabezados y parámetros de solicitud

url = 'https://trains.ctrip.com/TrainBooking/Search.aspx'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
    'Cookie':'Union=OUID=index&AllianceID=4897&SID=155952&SourceID=&createtime=1693561627&Expires=1694166426834; MKT_OrderClick=ASID=4897155952&AID=4897&CSID=155952&OUID=index&CT=1693561626835&CURL=https%3A%2F%2Fwww.ctrip.com%2F%3Fsid%3D155952%26allianceid%3D4897%26ouid%3Dindex&VAL={}; _ubtstatus=%7B%22vid%22%3A%221693561626984.ex3rp%22%2C%22sid%22%3A1%2C%22pvid%22%3A1%2C%22pid%22%3A102001%7D; MKT_CKID=1693561627205.kumds.y2nu; MKT_CKID_LMT=1693561627205; GUID=09031035213146004963; _jzqco=%7C%7C%7C%7C1693561627595%7C1.1256646287.1693561627210.1693561627210.1693561627210.1693561627210.1693561627210.0.0.0.1.1; _RF1=183.230.199.69; _RSG=..qaukvM.m2ykJjUVrQ3T8; _RDG=28437eee4e4c56259b173f8be0c752f59b; _RGUID=2c3e5b9b-b893-4fbe-8743-6b57deb53bbc; MKT_Pagesource=PC; _bfaStatusPVSend=1; _bfi=p1%3D102001%26p2%3D0%26v1%3D1%26v2%3D0; _bfaStatus=success; nfes_isSupportWebP=1; nfes_isSupportWebP=1; Hm_lvt_576acc2e13e286aa1847d8280cd967a5=1693561632; UBT_VID=1693561626984.ex3rp; __zpspc=9.1.1693561627.1693561631.3%232%7Cwww.baidu.com%7C%7C%7C%25E6%2590%25BA%25E7%25A8%258B%7C%23; _resDomain=https%3A%2F%2Fbd-s.tripcdn.cn; Hm_lpvt_576acc2e13e286aa1847d8280cd967a5=1693580464; _bfa=1.1693561626984.ex3rp.1.1693580463154.1693580623580.1.6.10650065554; _pd=%7B%22_o%22%3A30%2C%22s%22%3A154%2C%22_s%22%3A1%7D'
}
params={
    'from':'wushan',
    'to':'chongqing',
    'dayday':'false',
    'fronCn':'巫山',
    'toCn':'重庆',
    'date':'2023-09-02',
}

3: envíe la solicitud, escriba el encabezado y escriba los datos en el archivo de Excel.

response=requests.get(url=url,headers=headers,params=params)
soup=BeautifulSoup(response.text,'html.parser')
ticket_list=soup.select('#div_Result > .list_item')


workbook =xlwt.Workbook(encoding='utf-8')
worksheet=workbook.add_sheet('Ticket Info',cell_overwrite_ok=True)

worksheet.write(0,0,label='车次')
worksheet.write(0,1,label='出发时间')
worksheet.write(0,2,label='到达时间')
worksheet.write(0,3,label='历时')
worksheet.write(0,4,label='余票')

row=1
for ticket in ticket_list:
    train_no=ticket.select('.num>a')[0].text.strip()
    start_time=ticket.select('.cds > .start_time')[0].text.strip()
    end_time = ticket.select('.cds > .end_time')[0].text.strip()
    duration = ticket.select('.cds > .time')[0].text.strip()
    remarks = ticket.select('.cds > .note')[0].text.strip()


    ticket_url = 'https://trains.ctrip.com/TrainBooking/TrainQuery.aspx'
    ticket_params={
        'from':'wushan',
        'to':'chongqing',
        'dayday':'false',
        'date':'2023-09-02',
        'trainNo':train_no,
    }
    ticket_response=requests.get(ticket_url,headers=headers,params=ticket_params)
    ticket_soup=BeautifulSoup(ticket_response.text,'html.parser')
    ticket_remaining=ticket_soup.select('.new_situation > p >span')[0].text.strip()


    worksheet(row,0,label=train_no)
    worksheet(row, 1,label=start_time)
    worksheet(row, 2,label=end_time)
    worksheet(row, 3,label=duration)
    worksheet(row, 4,label=ticket_remaining)
    row +=1
    print(train_no,start_time,end_time,duration,remarks,ticket_remaining)
workbook.save('ticket_info.xls')

Lo anterior es el código fuente básico. Dado que el sitio web oficial 12306 tiene un estricto mecanismo anti-escalada, no se recomienda rastrear el sitio web oficial 12306. Si no está autorizado, asumirá las responsabilidades relevantes, así que elija otro software para demostración, pero otro software también Con algunos mecanismos anti-rastreo, provocará fallas de rastreo.

Supongo que te gusta

Origin blog.csdn.net/qq_52351946/article/details/132632101
Recomendado
Clasificación