Linux服务器爬虫+Mysql琐碎笔记01

这两天搞了个爬虫放在服务器上面爬机器学习的数据,有一些细碎的东西分享。

  1. 一开始用的sqlite3作为数据库,后来没过几个小时就报错database is locked了。。在这里提醒大家爬大量的数据尤其是刷新频率精确到秒的。。千万别用sqllite3。。。
  2. 然后安装mysql,mysql对于ubuntu不大友好,很多依赖的库和命令(比如libaio.so)等等缺少,实在麻烦,后来把系统换成了CentOS,果然是好东西。。

$yum install mysql
$yum install mysql-devel
$wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm
$rpm -ivh mysql-community-release-el7-5.noarch.rpm
$yum install mysql-community-server
$service mysqld restart
$mysql -u root

就可以成功安装了。。

  1. mac上管理数据库可以用 Sequel pro ,这个免费的好东西。
  2. 想后台在服务器上运行python脚本,千万不要直接python *.py,用nohup工具,也就是$nohup python *.py 然后终端会提示所有的脚本输出信息会被重定向到nohup.out文件里面。需要注意的是,nohup可能会找到系统默认的python解释器而不是你自己安装的anaonda的python解释器,即使你把anaconda的python解释器添加到了环境变量中 ,保险起见,调用python解释器的时候请输入绝对路径,如:nohup /usr/anaconda3/bin/python *.py
  3. 查看网络使用情况、上行下行情况可以用:iftop命令
  4. 查看进程用 ps -ef命令。尤其是python写了个死循环用nohup后台,想终止的时候肯定要用到。
  5. 关闭某个后台进程 kill <进程号> 用上面的命令查看了那些py程序想终止的,直接用kill就能关掉。

就先这么多了,以后有什么在继续分享~

猜你喜欢

转载自blog.csdn.net/weixin_42744102/article/details/86676124