爬虫:新浪详情新闻爬取总结

url=

http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml

需求是获取新闻内容,图片,视频,并记录媒体文件的位置。

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")

1.xpath 的 videoList0 记录是否有视频,如果有视频,则返回element元素。

2. 根据element 元素,在response内容用正则提取vid

3.

res = requests.get('http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml')

resp = res.content.decode()

pat = re.compile(r'video_id: (\d+?),')

res = etree.HTML(resp)

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")

for i in con:
    if i == 'videoList0':
        pat = re.compile(r'video_id: (\d+?),')
        i = '/data/videos/...'
    print(i)
print(pat.findall(resp))

澎湃新闻
/data/videos/...
  原标题:
女子:不公开道歉,泄露个人隐私还要起诉狗主人
  封面新闻讯(见习记者田之路何方迪记者李逢春)12日上午,封面新闻记者和沸沸扬扬的“疑索酬不成摔死小狗”一事当事人小吴取得联系,小吴详细讲述了凌晨在派出所对方道歉的一些细节。整个过程中,龙泉警方积极组织双方见面,妥善处理此事。
http://n.sinaimg.cn/news/transform/w550h401/20180112/jfMB-fyqnick9907892.jpg
  12日临近中午,经过记者努力,终于第一次和何某一方进行了联系,不过站出来回应此事的并非何某本人。何某一方表示,此事不准备公开道歉,小吴泄露了他们的个人隐私,他们要去法院起诉。
  12日上午,记者一直拨打何某的电话,但仍无法接通。最终,记者通过电话和何某的老公取得了联系,这也是此事引发全国网友关注后,何某一方首次站出来面对媒体说几句。
  不过,何某的老公显然很抗拒媒体来采访此事,表示希望私下解决此事,不会像小吴要求的那样公开道歉。
  记者表明身份后,他表示:“请你们跟警方联系,我们也在积极配合。”“那就这样子吧……”随后挂断了电话。
责任编辑:桂强 
['253193142']

猜你喜欢

转载自blog.csdn.net/Chen_chong__/article/details/79043741