El análisis de componentes Desarrollo caso || Programador

Listo para usar WebMagic realizar la función de rastreo de datos. Aquí es una implementación más completa.

Aquí logramos se centra rastreador web, el rastreo sólo los datos relacionados con el reclutamiento.



Análisis de Negocios

Para lograr la actualidad se está arrastrando https://www.51job.com/ coches usados. Sólo la información de rastreo "Aplicaciones informáticas" y "e-comercio por Internet," las dos industrias

En primer lugar el acceso a la página y la búsqueda de los dos sectores. Los resultados son como sigue

Haga clic en la página de detalles del empleo, nuestro análisis encontró que hay alguna página de detalles de los datos que se debe buscar:

Título, nombre de la empresa, lugar de trabajo, salarios, publicado, trabajos, información de la empresa, la empresa Info





tabla de la base

CREATE TABLE `job_info` (
  `id` BIGINT(20) NOT NULL AUTO_INCREMENT COMMENT '主键id',
  `company_name` VARCHAR(100) DEFAULT NULL COMMENT '公司名称',
  `company_addr` VARCHAR(200) DEFAULT NULL COMMENT '公司联系方式',
  `company_info` TEXT COMMENT '公司信息',
  `job_name` VARCHAR(100) DEFAULT NULL COMMENT '职位名称',
  `job_addr` VARCHAR(50) DEFAULT NULL COMMENT '工作地点',
  `job_info` TEXT COMMENT '职位信息',
  `salary_min` INT(10) DEFAULT NULL COMMENT '薪资范围,最小',
  `salary_max` INT(10) DEFAULT NULL COMMENT '薪资范围,最大',
  `url` VARCHAR(150) DEFAULT NULL COMMENT '招聘信息详情页',
  `time` VARCHAR(10) DEFAULT NULL COMMENT '职位最近发布时间',
  PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='招聘信息';


proceso de implementación

Necesidad de analizar la página ofertas de trabajo, obtener página de detalles de la oferta, y luego analizar la página para obtener los datos.

Obtener la dirección URL del proceso es el siguiente

Pero aquí hay un problema: al analizar la página, es probable que analizar a cabo la misma dirección URL (como el título del producto y las imágenes, hipervínculos y la misma url), si no se trata, el mismo proceso muchas veces van a analizar url desperdicio de recursos. Por lo tanto tenemos que tener una función pesada url



Programador de componentes

WebMagic ofrece Scheduler puede ayudarnos a resolver el problema anterior.

Planificador es administrado componentes WebMagic de la URL. En general, Scheduler incluye dos efectos:

  • gestión de colas URL rastreo tratar.

  • La URL para ser rastreada deduplicación.

WebMagic construido varios Programador popular. Si no eres más que en la implementación local del tamaño relativamente pequeño del reptil, a continuación, la necesidad básica de Programador de costumbre, pero vistazo a algunos Programador facilitada o significativa.

Deduplicación solo se ha convertido en una parte de las interfaces abstractas: DuplicateRemover , por lo que puede optar por ir de una manera diferente, con una pesada Scheduler, para adaptarse a diferentes necesidades, en la actualidad ofrece dos maneras de ir pesada.

RedisScheduler se establece el uso de Redis de-pesado, el otro programador predeterminada utiliza HashSetDuplicateRemover a ir fuerte.

Si está utilizando BloomFilter, hay que añadir las siguientes dependencias:

 <!--WebMagic对布隆过滤器的支持-->
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>16.0</version>
        </dependency>

 

Publicados 434 artículos originales · ganado elogios 105 · Vistas a 70000 +

Supongo que te gusta

Origin blog.csdn.net/qq_39368007/article/details/105047966
Recomendado
Clasificación