Жизнь коротка, группа чистые США ползут все данные города с Python, друзья не продают ставки 5000

Предупреждение: Данная статья является блоггером оригинальной статьи, следовать CC 4.0 BY-SA авторского соглашения, воспроизведенный, пожалуйста , приложите ссылку первоисточника и это утверждение.
Эта ссылка: https://blog.csdn.net/weixin_45523154/article/details/102750379

В последнее время Python рептилии группы видел много людей внутри данных онлайн лицом группы США очень заинтересованы, но и дает некоторым людям цену также очень впечатляет, ползать группы красоты данных, то ставки 5000? ? ? ? В то время невежественной силы, и когда я полз все данные и обнаружил, что 5000 чувства меньше!

Рептилия идеи

Есть много пресмыкающихся рамок, я использовал следующие грубые идеи для достижения инкрементного ползания.

  • запросы (селен), ползающие операции;

  • Определение, существует ли уже ползут данные в базе данных;

  • Сохранить в объекте dataframe;

  • Поставлен в базу данных.

После получения всех предприятий к URL, теперь к последнему шагу, но следует отметить, что различные типы страниц данных отличаются. Например, гостиницы

Таким образом, для различных типов, вам нужно написать различные аналитические функции. В последний раз ползал не следует проводить быстро, очень строгие ограничения группы США, лучший многопоточного запрос через несколько секунд. Затем медленно дайте ему

Базовая конфигурация среды

Версия: Python3.6

Система: Windows

Модуль: CSV, время, запросы, JSON

Часть кода

Ползающие результаты делятся на четыре категории:

Кино 8195

Отель 211 129

Продовольственные категории 490 928

Категория Life 432 803


对Python感兴趣或者是正在学习的小伙伴,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每天都有大牛定时讲解Python技术,分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地
总共 115万 条数据

看到这么多的数据,我突然感觉5K都少了呀!

рекомендация

отblog.csdn.net/weixin_45523154/article/details/102750379