„Bilibili“-Analyse von Benutzerverhaltensdaten basierend auf dem Python-Data-Mining-Algorithmus

Sammeln und folgen Sie, um nicht verloren zu gehen


Vorwort

  Nach Jahren der Entwicklung hat sich Online-Video zu einer der Hauptanwendungen im Internet entwickelt. Derzeit zeichnen sich Online-Videos durch große Menge, schnelle Veröffentlichung, große Wirkung und großen Einfluss aus. Das Bilili Barrage Video Network (kurz Bilibili) ist derzeit die führende Barrage-Video-Website in China. Eine Befragung von Videos über alle Plattformen zeigt, dass der Anteil der von Nutzern auf Station B erstellten Videos sogar bei 85 % liegt. Für Videokünstler ist die weitere Analyse und Untersuchung heißer Videos im komplexen Datenmeer im Internet zu einem schwierigen Forschungsproblem geworden. Die Daten dieses Artikels stammen von Station B im August 2020. Es handelt sich hauptsächlich um heiße Videodaten zum Lebensabschnitt, eine große Anzahl heißer Wörter, Kommentare und anderer Daten für die Analyse und Recherche werden ausgewählt und schließlich wird eine visuelle Recherche durchgeführt Daten. Sie können nicht nur den allgemeinen Trend der öffentlichen Online-Meinung in diesem Zeitraum verstehen, die psychologische Einstellung der Benutzer erfassen, das interaktive Feedback des Publikums stärken und das Interesse der Benutzer an der Erkundung der Bilibili-Kultur wecken.
Schlüsselwörter Bilibili; Analyse des Benutzerverhaltens; heiße Videos;

1. Moduldesign

   Die Struktur dieser Plattform ist in Abbildung 2 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 2 Plattformstrukturdiagramm

3.1 Daten-Crawling-Modul

  Beim Data Mining mit Python werden die entsprechenden Benutzerdateninformationen hauptsächlich durch Crawler-Programme und Datenvorverarbeitung gesammelt. Die Implementierung von Webcrawlern verwendet häufig den von Benutzern beim Hochladen von Videos verwendeten Hilfscode und wählt über Anfragen die URL von Station B aus, wodurch letztendlich relevante Daten gesammelt werden. Die Datenvorverarbeitung wird hauptsächlich zum Crawlen grundlegender Dateninformationen im Videoerfassungsprozess und zum Ausführen verwandter Vorgänge verwendet. (1) Die Datenbereinigungstechnologie verwendet hauptsächlich die reguläre Ausdruckstechnologie in der Python-Sprache, um eine große Menge an Zieldaten zu sammeln und diese weiter zu extrahieren. (2) Die Datenkonvertierungstechnologie verwendet hauptsächlich die Lademethode, um die in den Quelldaten gesammelten Zeichenfolgen gemäß den entsprechenden Regeln und Sequenzen in Wörterbücher umzuwandeln.
(3) Um Daten zu deduplizieren, verwenden Sie die einzigartige Methode, um ein Array oder eine Liste ohne doppelte Elemente zurückzugeben. Nach der Vorverarbeitung in einer CSV-Datei speichern.

3.2 Data-Mining- und Analysemodul

  „Data Mining analysiert und fasst hauptsächlich vorhandene Daten mithilfe entwickelter Algorithmen zusammen und führt eine Stimmungsanalyse entsprechend den Merkmalen der Daten durch. Bei der Verarbeitung statistischer Daten wird häufig die Klassenbibliothek snownlp verwendet, um diese grundlegende Stimmungsanalyseoperation zu implementieren, und die Tendenz wird durch Berechnen des Datenwerts des Sperrfeuers analysiert. Sentiment wird in der Sentimentanalyse häufig verwendet, um den tatsächlichen Sentimentwert anzugeben. Je näher die Daten an 1 liegen, desto positiver sind sie, und je näher sie an 0 liegen, desto negativer sind sie. Die relevanten Ergebnisdaten können als Grunddaten der Stimmungsanalyse abgerufen werden.

3.3 Datenvisualisierungsmodul

  „Das Datenvisualisierungsmodul verwendet hauptsächlich Kreisdiagramme, Wortwolken, Liniendiagramme und andere Mittel, um eine endgültige Datenvisualisierung zu erreichen. Und verwenden Sie die Matplotlib-Bibliothek und andere Technologien, um die Eigenschaften der Daten weiter zu untersuchen und zu analysieren und schließlich die tiefe Bedeutung der Daten durch Diagrammmuster anzuzeigen. Das Visualisierungsmodul umfasst visuelle Grafiken wie Diagramme zum Anteil der Videowiedergabelautstärke in jedem Zeitraum, Diagramme zur Statistik von Schlagworten, Liniendiagramme zur Videowiedergabelautstärke zu verschiedenen Zeiten der Woche und Diagramme zum Anteil der Emotion.

2. Entwicklungsumgebung

  Grundsätzlich werden alle Python-Crawler-Einsteiger mit zwei Tool-Bibliotheken in Berührung kommen, Requests und BeautifulSoup. Als gängigste Basisbibliotheken werden sie auf völlig unterschiedliche Weise verwendet. Die Requests-Tool-Bibliothek wird hauptsächlich verwendet, um den Quellcode von Webseiten zu erhalten muss URL-Anforderungsanweisungen an den Server senden; beautifulsoup wird hauptsächlich zum Lesen und Analysieren der Quellsprache der Webseite, einschließlich, aber nicht beschränkt auf HTML\xml, und zum Extrahieren wichtiger Informationen verwendet. Diese beiden Bibliotheken simulieren den Prozess des Besuchs von Webseiten, des Lesens von Webseiten sowie des Kopierens und Einfügens entsprechender Informationen durch Personen und können Daten schnell stapelweise erfassen. Der Vorgang ist in Abbildung 1 dargestellt.
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 1 Flussdiagramm zur Datenerfassung und -analyse

3. Datenvorverarbeitung

Löschen Sie Nullwerte und doppelte Werte, verarbeiten Sie die Daten vor, ersetzen Sie den None-Wert durch 0, behalten Sie nur chinesische Zeichen bei, teilen Sie den Titel in kurze Wörter auf, verarbeiten Sie Tags auf die gleiche Weise, legen Sie einen Rundungscode fest und Berechnen Sie das Verhältnis von drei aufeinanderfolgenden Spielen: Like-Rate = Likes/Spielvolumen100 %; Münzrate = Münzen/Spielvolumen100 %; Sammelrate = Sammlung/ Anzeigevolumen100 %; Weiterleitungsrate = Weiterleitung/Anzeigevolumen100 %; Sperrrate = Sperrstufe/Anzeigevolumen100 %; Kommentarrate = Kommentare/Wiedergabelautstärke100 %

4.2 Implementierung jedes Funktionsmoduls

4.2.1 Datenanalyse und Visualisierung heißer Videos

Überprüfen Sie zunächst die verarbeiteten Videodateninformationen, wie in Abbildung 3 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 3 Videodateninformationen
Es gibt insgesamt 88.350 UP-Besitzer. Statistiken zur Anzahl der Videos in jedem Wiedergabeintervall zeigen, dass es 213.115 Videos im [0,9999 ] Intervall, das 93,86 % der Stichprobe ausmacht. %, Es gibt 10731 Elemente im Intervall [10000,99999], die 4,73 % der Stichprobe ausmachen, und 2436 Elemente im Intervall [100000,499999], die 1,07 % ausmachen der Stichprobe und 464 Elemente im Intervall [500000,999999], die 0,14 der Stichprobe ausmachen. %, es gibt 320 Intervalle in [1000000,∞], die 0,02 % des Stichprobenintervalls ausmachen. Zeichnen Sie ein Kreisdiagramm wie folgt dargestellt in Abbildung 4:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 4 Diagramm zum Verhältnis der Wiedergabelautstärke
Wenn nur Inhalte mit mehr als 10.000 Wiedergaben angezeigt werden, zählen Sie die Anzahl der Videos in jedem Wiedergabebereich und die Gesamtzahl der Videos im [ 10000,99999] Intervall 10731, was 76,92 % der Stichprobe entspricht. Es gibt 2436 im Intervall [100000,499999], was 17,46 % der Stichprobe ausmacht. Es gibt 464 im Intervall [500000,999999], was 3,33 ausmacht % der Stichprobe. Es gibt 320 im Intervall [1000000,∞], die 2,29 % des Stichprobenintervalls ausmachen. Zeichnen Sie ein Kreisdiagramm, wie in Abbildung 5 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 5 Diagramm zum Anteil des Spielvolumens (über 10.000 Spiele)
Die Statistik zeigt die zwanzig besten UP-Hosts mit den meisten Spielen. Die statistischen Ergebnisse sind in Abbildung 6 dargestellt: :< /a >
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 6 Rangfolge der Wiedergabelautstärke
Die spezifischen Daten der Top 20 nach Wiedergabelautstärke geordnet werden angezeigt. Die Ergebnisse sind in Abbildung 7 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 7 Spezifische Datenanzeige
Sortieren Sie das Gesamtspielvolumen jedes UP im August entsprechend der UP-Hauptgruppe. Die Sortierergebnisse sind in Abbildung 8 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 8 Anzeige des gesamten Spielvolumens jedes UP im August

Die Anzahl der Videos mit mehr als 10.000 Aufrufen, die jede Woche in verschiedenen Zeiträumen veröffentlicht werden, wird zusammengefasst. Die Ergebnisse sind in Abbildung 13 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 13 Lautstärkestatistik anzeigen (Videowiedergabevolumen ist größer als 10.000)
Zeichnen Sie eine Wortwolke und verwenden Sie die Wortwolke, um die „Themen“-Hotwords anzuzeigen, wie in Abbildung gezeigt 14:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 14 Heiße Wörter zum Thema
Verwenden Sie die Wortwolke, um die heißen Wörter von mehr als 10.000 Video-„Themen“ anzuzeigen, wie in Abbildung 15 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 15 Topic-Wörter (Wiedergabelautstärke größer als 10.000)
Verwenden Sie die Wortwolke, um die Hotwords des Videos „Thema“ mit mehr als 100.000 Aufrufen anzuzeigen. Die Ergebnisse werden angezeigt in Abbildung 16: < /span>
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 16 Topic-Wörter (Wiedergabelautstärke größer als 100.000)
Verwenden Sie eine Wortwolke, um die Hotwords des Videos „Thema“ mit mehr als 1 Million Aufrufen anzuzeigen. Die Ergebnisse sind in Abbildung 17 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 17 Heiße Wörter im Thema (mehr als 1.000.000 Mal angesehen)

4. Fazit

  In diesem Artikel werden die voreingestellten Module einzeln analysiert und die Grundmodule wurden implementiert. Analysieren Sie visuell den Einfluss von heißen Wörtern, Likes, Münzen, Sammlungen, Kommentaren, Kommentaren und anderen Daten zu beliebten Videos auf die Videowiedergabelautstärke.
  In diesem Artikel werden nur verwandte Videos aus dem lustigen Bereich von Bilibili als Forschungsobjekt ausgewählt. Der Auswahlbereich der Datenproben bezieht sich hauptsächlich auf einen einzelnen Videotyp. Seine Einzigartigkeit bestimmt, dass das Video nicht beeinträchtigt wird von anderen Themenvideos. Die tatsächlichen Benutzergruppen von Station B sind größtenteils diejenigen, die in den 1990er Jahren geboren wurden. Die spezifische Altersgruppe der Benutzer macht die Benutzerattribute relativ einzigartig, was sich von der Unternehmensvideoplattform unterscheidet. In zukünftigen vertiefenden Forschungen können erstens Dateninformationen zu mehreren Themen gesammelt werden und zweitens können plattformübergreifende Umfragen durchgeführt werden, um die Authentizität der Schlussfolgerungen durch eine Erhöhung der Stichprobenvielfalt zu erhöhen.

Inhaltsverzeichnis

Inhalt
Kapitel 1 Einleitung 1
1.1 Hintergrund und Bedeutung des Themas 1
1.2 Forschungszweck und Bedeutung 2
1.3 Aktueller Forschungsstand im In- und Ausland 2
Kapitel 2 Schlüsseltechnologien 2
1.1 Crawler-Technologie 4
2.2Python 4
Kapitel 3 Moduldesign 4
3.1 Daten-Crawling-Modul 5
3.2 Data Mining und Analyse Modul 5
3.3 Datenvisualisierung Modul 5
Kapitel 4 Data Mining und Analyse 6
4.1 Stichprobenauswahl und Datenquellen 7 4.2 Implementierung jedes Funktionsmoduls 12 Danksagungen 35 Referenz 33 Kapitel 5 Zusammenfassung 32 4.2.2 Video-Sperrdaten 27 4.2.1 Datenanalyse und Visualisierung heißer Videos 12 4.1.2 Datenvorverarbeitung 11
4.1.1 Daten-Crawling 7






Supongo que te gusta

Origin blog.csdn.net/QQ2743785109/article/details/133799981
Recomendado
Clasificación