В последнее время Python рептилии группы видел много людей внутри данных онлайн лицом группы США очень заинтересованы, но и дает некоторым людям цену также очень впечатляет, ползать группы красоты данных, то ставки 5000? ? ? ? В то время невежественной силы, и когда я полз все данные и обнаружил, что 5000 чувства меньше!
Рептилия идеи
Есть много пресмыкающихся рамок, я использовал следующие грубые идеи для достижения инкрементного ползания.
-
запросы (селен), ползающие операции;
-
Определение, существует ли уже ползут данные в базе данных;
-
Сохранить в объекте dataframe;
-
Поставлен в базу данных.
После получения всех предприятий к URL, теперь к последнему шагу, но следует отметить, что различные типы страниц данных отличаются. Например, гостиницы
Таким образом, для различных типов, вам нужно написать различные аналитические функции. В последний раз ползал не следует проводить быстро, очень строгие ограничения группы США, лучший многопоточного запрос через несколько секунд. Затем медленно дайте ему
Базовая конфигурация среды
Версия: Python3.6
Система: Windows
Модуль: CSV, время, запросы, JSON
Часть кода
Ползающие результаты делятся на четыре категории:
Кино 8195
Отель 211 129
Продовольственные категории 490 928
Категория Life 432 803
对Python感兴趣或者是正在学习的小伙伴,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每天都有大牛定时讲解Python技术,分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地
总共 115万 条数据
看到这么多的数据,我突然感觉5K都少了呀!