B se arrastra encima de la principal estación de simio programa, mono hasta programa de análisis de qué tipo de vídeo va a ser popular

prefacio

Yo, un levanto todos los días antes de ir a la cama va a cepillar el plato de la estación B simio programa de pollo de ayer para ver un simio programa dinámico hasta la principal preocupación de la liberación, estaba muy molesto, por lo que sólo pensar en hacer este contenido
Aquí Insertar imagen Descripción
al final el programa de mono de los principales tipos de vídeo será lo que hay que hacer por el público como él?

Haga clic en la imagen para ver el texto que no desea ver a mi estación de vídeo B parece que se puede importar vídeo directamente antes, y ahora no sé por qué falla iframe

trabajo comenzado

1. En primer lugar necesidad de recoger datos

Seleccione la búsqueda para buscar simio programa, y luego seleccionar el vídeo, la mayor barrera (es decir, personas reales que miran más), para obtener un enlace a cada vídeo.
Aquí Insertar imagen Descripción
Así llegamos a la página de detalles de cada enlace de vídeo, y luego usamos XPath para obtener el título de la página de detalles, por nombre, hasta la página de inicio y otra información (directamente desde el reproductor de vídeo y el número de puntos como el número del último resultado guardado en esta página es valores atípicos), el número de puntos y similares con un número de jugadores para conseguir API.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
api solamente Identificación del vídeo puede devolver el resultado JSON correspondiente, es relativamente fácil de obtener, y finalmente guardado en un archivo csv.

Código de reptiles:

import requests
from lxml import etree
import time
import pandas as pd
import re
import json

#https://search.bilibili.com/video?keyword=%E7%A8%8B%E5%BA%8F%E7%8C%BF&order=dm&duration=0&tids_1=36&tids_2=122&page=32

def get_html(url,header):
    html=requests.get(url,headers=header).text
    return html

def get_all_page(n):
    urls=[]
    for i in range(1,n+1):
        url=f"https://search.bilibili.com/video?keyword=%E7%A8%8B%E5%BA%8F%E7%8C%BF&order=dm&duration=0&tids_1=36&tids_2=122&page={i}"
        html=get_html(url,headers)
        selector = etree.HTML(html)
        li_list=selector.xpath("//ul[@class='video-list clearfix']")
        for li in li_list:
            urls.extend(li.xpath("//li[@class='video-item matrix']/a/@href"))
    return urls

def get_information(urls,avid):
    space_url=[]
    name_list=[]
    views_list=[]
    dz_list=[]
    video_names=[]
    count=0
    for url in urls:
        count+=1
        if count==10:
            time.sleep(1)
        url=url.replace('//','https://')
        print("正在爬取:",url)
        html=get_html(url,headers1)
        selector = etree.HTML(html)
        space_url.append(selector.xpath("//div[@class='name']/a[1]/@href")[0])
        name_list.append(selector.xpath("//div[@class='name']/a[1]/text()")[0])
        video_names.append(selector.xpath("//h1/@title")[0])
        # views_list.append(selector.xpath("//div[@class='video-data']/span[1]/text()")[0])
        # dz_list.append(selector.xpath("//div[@class='ops']/span[1]/text()")[0])

    for id in avid:
        base_url="https://api.bilibili.com/x/web-interface/view?aid="
        html=get_html(base_url+id,headers2)
        res=json.loads(html)
        video_info = res['data']
        views_list.append(video_info["stat"]["view"])
        dz_list.append(video_info["stat"]["like"])
    return space_url,name_list,views_list,dz_list,video_names


def save(n):
    urls=get_all_page(n)
    avid=[]
    for i in urls:
        avid.append(re.findall("\d+",i)[0])
    space_url,name_list,views_list,dz_list,video_names=get_information(urls,avid)
    data=pd.DataFrame({"空间链接":space_url,"up主":name_list,"视频名":video_names,"视频播放次数":views_list,"视频点赞数":dz_list})
    data.to_csv('./B站程序猿up主视频信息.csv',encoding='utf8')
    print("所有数据爬取完毕")



if __name__ == '__main__':
    headers = {
        'Host': 'search.bilibili.com',
        'Referer': 'https//www.bilibili.com/',
        'Sec-Fetch-Mode': 'navigate',
        'Sec-Fetch-Site': 'same-origin',
        'Sec-Fetch-User': '?1',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
    }

    headers1 = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',
        'Host': 'www.bilibili.com',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive'
    }


    headers2={
        'Host': 'api.bilibili.com',
        'Sec-Fetch-Mode': 'navigate',
        'Sec-Fetch-Site': 'none',
        'Sec-Fetch-User': '?1',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 79.0.3945 .130Safari / 537.36'
    }
    n=int(input("请输入想要爬取的页数:"))
    save(n)

Me arrastré hasta diez, un total de 200 datos
Aquí Insertar imagen Descripción

2. Análisis de los datos de inicio

bibliotecas básicas de orientación y los datos de importación, y cambiar el nombre del nombre de la columna
Aquí Insertar imagen Descripción
y los datos y la limpieza previa, valores atípicos ver los valores que faltan. Sin embargo, dado que los datos de la estación B más amigable, ninguna anormalidad valores que faltan.
Aquí Insertar imagen Descripción
Entonces el número de análisis de subgrupos punto igual que muchos y jugar un poco más arriba
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
de esta parte con GroupBy es muy sencillo de implementar, por lo que sólo el análisis del punto de elogio código de dibujo

# 找到视频点赞数最多的up主
most_dz=data.groupby(by=data['up主名'],as_index=False)['视频点赞数'].sum()
most_dz.columns=['up主名','视频点赞总数']
most_dz.head()

#降序排序
most_dz=most_dz.sort_values(by=['视频点赞总数'],ascending=False)
most_dz.head(10)

# 可视化点赞数前20的up主
plt.figure(figsize=(13,10))
sns.barplot(most_dz['up主名'][:20],most_dz['视频点赞总数'][:20])
plt.title('程序猿up主视频点赞总数前20', fontsize=22)
plt.grid()
plt.xticks(rotation=90)
plt.show()

Véase la Fig. 3. Cada uno del primer tipo de vídeo

Aquí Insertar imagen Descripción
He encontrado un maestro confusa de programación de vídeo en cuestión es relativamente pequeño, la mayoría relacionados con el funcionamiento del video uso de la computadora todos los días de orden superior. Parece que más adelante si así lo desean señalar algunos puntos debe ser menor elogio y más involucrado en la programación, el punto extra para hacer que el uso diario de los espectadores de vídeo después de todo clase de programación videos de instrucción están enterrados en los favoritos, mi carpeta de favoritos hay una gran cantidad de
Aquí Insertar imagen Descripción
Nani, sólo el 7,37 million + un video en el número de jugadores, que es demasiado fuerte. Sino también que todavía hay muchas personas que todavía están dispuestos a aprender la programación en la estación B, en particular, parece ser fuego pitón de vídeo especialmente relevante

4. Ser Resumen

resumen:

  1. En la enseñanza de la clase de vídeo estación B tiene una gran probabilidad de ser puesto en favoritos para comer cenizas, por lo que el mono programa hasta propietarios para aprovechar las preferencias del público para crear un vídeo, como la serie de pitón de vídeo de instrucción es muy popular (la razón es pitón buen estado ecológico, fácil de aprender), o un video enseñando algunas de las operaciones diarias de la computadora de orden superior, estos son relativamente fáciles de atraer al público.

  2. Estimado ovejas desde el frente del programa 20 no puede entrar más conscientes de este problema: la calidad de vídeo ovejas programa es muy alta, pero no lo suficientemente bueno para grupos debido a la casi totalidad de su charla de vídeo práctica simio programa, no muy fácil de aprender en cambio, el programa de APE en su mayoría que piensan que tiene sentido, pero la escucha de afuera para mirar ignorantes, simplemente escuchar la misma biblia. Jaja, pero para aquellos de nosotros simios para el programa esto es simplemente el principal tesoro arriba, es precisamente porque él eligió hablar de algunos de los contenidos del programa de simio más beneficiosa, renunciar a algunas otras ventajas, esto también nos permite aprender más y más buen conocimiento.

  3. Echemos un vistazo a algunos de los diferentes puntos de partida mono programa de seguimiento, tales como hojas de arroz al día. Él podría haber visto la razón número para un elevado número de puntos tal y alabanza es su vídeo sólo tiene en cuenta los simios programa, mono usando el programa se deriva puede traer alegría a nosotros, sino también cuidar de otros grupos, a partir de algunos de los conocimientos menos esotérica de ordenadores salida, se puede dejar que el público sepa más sobre la vida del mono del programa, y ​​la longitud de cada vídeo es muy corto, en línea con las tendencias actuales en el vídeo de corta duración.

  4. En la lista no es difícil encontrar el hasta familiar,, grasa técnica convencional ...... De hecho, estos son los propietarios y que comparten sus conocimientos e ideas sentimientos. No están en la lista, pero me gustaría hablar de hasta siete metros maestro, usted tiene el pie en boxes, Cai Cai, las piezas, Wang Zhe, mucho, mucho tiempo .net gran Dios Anduin antes ...... algunos de ellos puede que no tienen muy fuego, tal vez porque algunos entornos, una variedad de factores han llevado a dejar comentarios, pero creo que es su intención de vídeo de marca. Siete metros y el profesor Wang Zhe ir a hablar el idioma del video relevante, análisis de datos Cai Cai, aprendizaje automático, más de un conocimiento corta pitón de vídeo, se habla de pisar obras maestras algoritmo de pozo, un día antes, en la parte superior de los que me componen más y más conocimiento de ganancia, por lo que esta es una importante razón por la que la estación de amor cepillo B. Aunque no sé qué más piezas fuera durante tanto tiempo, pero aún así espero que pueda volver a actualizar los conocimientos de los pequeños pitón un minuto antes.

finalmente

A través del análisis anterior sabemos que la mayor parte del vídeo tiene varias características atractivas:
1. amplia audiencia
2. divertido fácilmente
3. principalmente corta de vídeo basado en
4 popular y fácil de aprender técnicas como el vídeo es también muy popular (por ejemplo, pitón)
, sino que también tienen que liberar a los que van videos de instrucción significativos o vídeo, que es más ayuda a mejorar la calidad.

Por supuesto, estos análisis sólo la superficie, podemos descubrir a más, llegar a tales extremos para obtener subir a los propietarios populares del vídeo, donde la partición, perfiles, vídeo ...... aluvión, la cantidad de tiempo de vídeo, análisis de los sentimientos de texto, y más análisis de perspectiva, para encontrar los mayores factores que influyen.

Tenga en cuenta que estos datos no reflejan el icono y la información más auténtica , porque sólo se arrastra las primeras páginas de diez, y en la que no están relacionados con el contenido del programa se buscará resultado mono en la interferencia de datos, por lo que sólo tiene que añadir los datos y se ha hecho en mi resumen del análisis de las principales preocupaciones de éstos, y no puedo del todo cierto, pero presentado una serie de ideas y sugerencias.

Publicado 85 artículos originales · ganado elogios 55 · Vistas a 20000 +

Supongo que te gusta

Origin blog.csdn.net/shelgi/article/details/104509693
Recomendado
Clasificación