затмение проект развития Scrapy рептилии, рептилии прилагаются Благословения учебника уровня

ОТ РЕДАКЦИИ

Рептилий чувствовать себя учебный процесс должен привести в порядок после вступления, но и оставить след его.

Scrapy также настроить среду собственного Baidu, на самом деле, это не сложно (только для окна системы, конфигурации CentOS в течение двух дней, до сих пор не поняло все)

После установки питона загрузки пип, пип установки, Пип установки, а затем загружены на линии (pyspider так настроен).

Основная информация адрес ссылки прилагается

Scrapy учебники адрес https://www.bilibili.com/video/av13663892?t=129&p=2

затмить развития Scrapy https://blog.csdn.net/ioiol/article/details/46745993

Прежде всего, чтобы убедиться, что хост настроен затмение, питон там пип среды

Метод монтажа рамы Scrapy

Введите CMD интерфейс

:: команда обновления пип

пункт установить --upgrade пип

:: пункт установить Scrapy

пип intall SCRAPY

После завершения установки, вы можете использовать

CMD среда демонстрационный процесс создал SCRAPY

Во-первых, создать каталог, случайное местоположение, а затем войти в каталог, введите командный режим для просмотра Scrapy

startproject создать команду проекта. Проект формат имени SCRAPY startproject

genspider создать команду гусеничной, проект может иметь несколько сканеров. Формат SCRAPY имя genspider рептилий (и не может проецировать то же имя) гусеничные IP - адрес начального значения

Цель состоит в том, чтобы получить содержание дома tmooc боковой панели (вспомогательный текст дочернего элемент дочерних элементов пролета)

tmooc Главная

Sidebar содержание

Редактировать item.py, позиция паук в каталоге на том же уровне (код просто не вставить код а)

Редактировать test.py

раздел кода

# - * - кодирование: UTF-8 - * -

импорт SCRAPY

# Лидер пакета необходимо, метод вводится для создания элемента

от demo.items импорта DemoItem

Класс TestSpider (scrapy.Spider):

# Reptile имя для использования при работе

Name = 'тест'

# Ограниченную домен, не выходит за рамки процесса, может быть опущены

allowed_domains = [ ' http://www.tmooc.cn ']

# Начальный адрес

start_urls = [ ' http://www.tmooc.cn/ ']

# Обратный вызов функции

Защита синтаксического анализа (я, ответ):

# Reptile характер программы является рассмотрение запроса, разобрать ответ, а затем запросить следующий адрес еще раз

# Таким образом, основная часть рептилий заключается в том, как работать с объектами реагирования

узлы = response.xpath ( "// Ли [@ класс = 'суб']")

для узла в узлах:

#Item, сгенерированный способом паука items.py в том же самом каталоге, похож на словарь (Java карты) Тип

Пункт = DemoItem ()

Пункт [ 'имя'] = node.xpath ( "./ а / SPAN / текст ()"). извлечения () [0]

#yield подобного возвращения, деталь Baidu.

пункт выход

Компиляция test.py, запустить паук

сканирование выполняются команды паука. Название Формат SCRAPY ползать рептилия [-o имя файла]

-o параметры Кроме того , роль данных , хранящихся в паука ползать. Хранится в команде операции каталог может быть сохранен в формате CSV (Excel таблицу) JSon jsonl XML ... другие форматы

Результаты показывают,