爬取笔趣阁小说（一念永恒） - 代码天地

爬取笔趣阁小说（一念永恒）

其他 2018-05-27 13:51:45 阅读次数: 0

！：编码格式。编码格式。编码格式

!!：http://xiaorui.cc/2016/02/19/%E4%BB%A3%E7%A0%81%E5%88%86%E6%9E%90python-requests%E5%BA%93%E4%B8%AD%E6%96%87%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98/

!!!:https://www.zhihu.com/question/264878732

!!!!:xx.apparent_encoding

import requests
from bs4 import BeautifulSoup
import re
import sys
article={}
ll=[]
def getlink(url):
    res=requests.get(url)
    res.encoding = res.apparent_encoding
    soup = BeautifulSoup(res.text,'html.parser')
    for i in range(12,20):
        t1=soup.find_all('dd')[i]
        for t2 in t1:
            t3 = t2.get('href')
            #print(t3)
            ll.append(t3)
    return ll
def gettext(url):
    res=requests.get(url)
    res.encoding = res.apparent_encoding
    li=[]
    soup = BeautifulSoup(res.text,'html.parser')
    li=getlink(url)
    filename=soup.select('.info h2')[0].text
    #print(filename)
    #print(type(filename))
    #with open("%s.txt" %filename ,'wb+') as f
    f = open("%s.txt" %filename ,'a')
    for k in range(0,3):
        #print(li[k])
        link='http://www.biqukan.com'+li[k]
        t=requests.get(link)
        t.apparent_encoding #t.encoding='gbk'
        st = BeautifulSoup(t.text,'html.parser')
        article['title']=st.select('.content h1') [0].text
        article['content'] = st.select('.showtxt') [0].text.replace('\r',' ').replace('\u3000','').replace('\xa0','').rstrip('http://www.biqukan.com/1_1094/17967679.html请记住本书首发域名：www.biqukan.com。笔趣阁手机版阅读网址：m.biqukan.com')
        #print(type(article['title']))
        #print(article['content'])
        f.write(article['title']+'\n')
        f.write(article['content']+'\n')
    f.close()
url='http://www.biqukan.com/1_1094/'
gettext(url)

猜你喜欢

转载自www.cnblogs.com/leolaosao/p/9095746.html

爬取笔趣阁小说（一念永恒）

笔趣阁的小说爬取

爬取笔趣阁小说

Python 爬取笔趣阁小说

python爬取笔趣阁小说

scrapycrawl 爬取笔趣阁小说

爬取笔趣阁网站小说

python3.6.5爬虫之一：笔趣阁小说爬取（首页爬取法）

Python爬虫练习二：爬取笔趣阁小说

用Scrapy爬取笔趣阁小说

学习笔记（爬虫）：爬取笔趣阁小说

java爬虫爬取笔趣阁小说

用Python实现笔趣阁小说爬取

python爬虫--小说爬取--笔趣阁篇

爬虫初学（一）：爬取笔趣阁小说（萌新用-详细讲解）

Python爬虫——从笔趣阁爬小说

Python爬取新笔趣阁小说

python爬取书趣阁小说

scrapy框架爬取笔趣阁

爬取笔趣阁文章

爬虫练习——爬取笔趣阁

Python3中BeautifulSoup爬取笔趣阁小说网

python3.6.5爬虫之四：多线程同时爬取笔趣阁小说

Python BeautifulSoup 爬取笔趣阁所有的小说

爬虫学习：request+xpath爬取笔趣阁小说

python爬取笔趣阁小说（TK可视化）

学习笔记（爬虫）：爬取笔趣阁剑来小说

通过python爬取笔趣阁小说，获取图片保存本地，数据保存mysql

用Python实现笔趣阁小说爬取 GUI版

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)