python reptil tutorial: Pitón de arrastre muchos tipos de método de páginas instancia

Pequeño para dar en este artículo en el que estamos terminando el rastreo pitón en múltiples tipos de contenido instancia métodos de la página, hay una necesidad de amigos pueden aprender bajo.
Y una colección bien de páginas que debe rastrear diferentes predefinidos, agarra un sitio dentro de la cadena va a traer todo un reto que no sabe qué hacer. Afortunadamente, hay varias maneras básicas para identificar el tipo de página.
por URL

Un sitio web todos los artículos del blog pueden contener toda una URL (por ejemplo http://example.com/blog/title-of-post).
La presencia o ausencia de un campo en particular a través del sitio
si una página contiene una fecha, pero no incluye el nombre del autor, que se pueden clasificar como un comunicado de prensa. Si tiene un título, la imagen principal, el precio, pero no el contenido principal, entonces puede ser una página de producto.
Identificar una página en particular por la etiqueta aparece la página
, si no agarrar los datos dentro de una etiqueta, todavía se puede utilizar esta etiqueta. Puede encontrar reptiles similares

class Website:
"""所有文章/网页的共同基类"""
def __init__(self, type, name, url, searchUrl, resultListing,
resultUrl, absoluteUrl, titleTag, bodyTag):
self.name = name
self.url = url
self.titleTag = titleTag
self.bodyTag = bodyTag
self.pageType = pageType

Si ordena las páginas en una base de datos SQL de clase, esto significa tipo de modelo que estas páginas deben ser almacenados en la misma mesa, y la adición de una columna de quiénes somos? Adicional.
Si recorta una página o varía de contenido (que contienen diferentes tipos de campos), es necesario crear un nuevo tipo de objeto para cada página. Por supuesto, algunas cosas son comunes a todas las páginas - todos ellos tienen una dirección URL, que pueden tener un nombre o título de la página. Este caso es ideal para los sub-categorías:

class Website:
"""所有文章/网页的共同基类"""
 
def __init__(self, name, url, titleTag):
self.name = name
self.url = url
self.titleTag = titleTag

Este no es un tema de su rastreador para utilizar directa, pero se hará referencia a los tipos de páginas de objetos:

class Product(Website):
"""产品页面要抓取的信息"""
def __init__(self, name, url, titleTag, productNumber, price):    
Website.__init__(self, name, url, TitleTag)
self.productNumberTag = productNumberTag
self.priceTag = priceTag
class Article(Website):
"""文章页面要抓取的信息"""
def __init__(self, name, url, titleTag, bodyTag, dateTag):
Website.__init__(self, name, url, titleTag)
self.bodyTag = bodyTag
self.dateTag = dateTag

Me dirijo a usted, para todo el mundo para recomendar una muy amplia recolección de recursos de aprendizaje pitón, haga clic para entrar, aquí hay un programador senior antes de aprender a compartir experiencias, notas de estudio, hay una posibilidad de experiencia en los negocios, y para todo el mundo para organizar cuidadosamente un cero pitón la base de los datos de proyecto real, pitón diariamente para que en la última tecnología, las perspectivas, aprender a dejar un mensaje de pequeños detalles

Este producto se extiende la clase base página de sitio web, y se unió sólo se aplica a productos Productnumber y atributos de los precios, y el artículo tipo se unió a las propiedades del cuerpo y de la fecha, estos dos atributos no son aplicables al producto.
Puede utilizar estas dos clases de agarrar un sitio web tienda, que además del producto, también puede contener un blog o un comunicado de prensa.

Publicado 38 artículos originales · ganado elogios 26 · Vistas a 40000 +

Supongo que te gusta

Origin blog.csdn.net/haoxun09/article/details/104741566
Recomendado
Clasificación