python爬虫-1环境安装

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jiang425776024/article/details/88920044

1.基本配置的安装Linux

1.1Mongodb

执行安装命令:

sudo apt-get install mongodb

 通过"pgrep mongo -l "查看进程是否已经启动。

运行“locate mongo”命令查看系统默认把mongo装到了哪里。

输入mongo进入数据库:

如果是系统非正常关闭,这样启动会报错,由于mongodb自动被锁上了,这是需要进入mongodb数据库文件所在的目录(/var/lib/mongodb/),删除目录中的mongodb.lock文件,然后再进行上述操作。

关闭/启动:sudo service mongodb stop   sudo service mongodb start

重新启动服务$ mongod –auth

创建连接用户$ mongo

    >use admin

    switched to db admin

    >db.addUser("root","123456")

这样能创建最高权限的用户,修改文件,执行:sudo vi /etc/mongo.conf

修改net部分,以允许远程访问:

net:

     port:27017

     bindIp:0.0.0.0

添加权限认证:

security:

    authorization:enabled

之后重启服务器:sudo service mongod restart


1.2 Redis 安装

sudo apt-get -y install redis-server

输入redis-cli进入Redis命令模式:

进行操作:

设置可远程连接:修改/etc/redis/redis.conf 注释的 bind 127.0.0.1

密码设置:取消requirepass  foobared注释

foobared为当前密码,可自行修改。

重启服务器:sudo /etc/init.d/redis-server restart

停止服务器:sudo /etc/init.d/redis-server stop

启动服务器:sudo /etc/init.d/redis-server start


1.3 三方Python连接库

数据库:

pip3 install pymysql

pip3 install pymongo

pip3 install redis

web库:Flask,pip3 install flask

实例:

from flask import Flask
app = Flask(__name__)


@app.route('/')
def hello():
    return '<h1/>hello</h1>'


if __name__ == "__main__":
    app.run()

后续会利用Flask+Redis维护动态代理池和Cookies池

Tornado:一个异步的web框架,非阻塞I/O流,支持成千上万开放连接,效率高。

pip3 install tornado


1.4 爬虫库的安装

Scrapy:conda install Scrapy

Scrapy-Redis:分布式爬虫扩展模块

猜你喜欢

转载自blog.csdn.net/jiang425776024/article/details/88920044