Pythonは、Son of Tomorrow(Tencent Video)のコメントと弾幕をクロールして、誰もが話していることを確認します

WeChat公式アカウントへの元のリンク

この夏、さまざまなテレビおよびビデオプラットフォームが、人気の「バンドの夏」、「明日の息子」、「心の音」、「私は歌手」、「中国の新しいラップ」など、多くの音楽のバラエティ番組を同時に放送します「、中国のグッドボイス」など

以下は、これらのプログラムのDoubanからのスコアです。バンドの夏は8ポイントを超えるスコアで1位にランクされました。私は歌手7.6、明日の息子6.5、音6.1、良い中国語の声5.3、新しい中国語ラップ5.2ポイント。

Xiao Bencongは、誤って「Sons of Tomorrow」という番組について話している女の子を何人か聞いたので、興味津々だったので、「Sons of Tomorrow」のレビューと弾幕をクロールして、みんなが話していることを確認しようと考えました。

 

1.コメントおよび弾幕データの取得

Tencent Videoは「Sons of Tomorrow」の再生プラットフォームです。クロール動画のレビューと弾幕データは、一般に固定形式であることを知っています。最も重要なことは、対応する番号を見つけるために、動画のvideoIDとコメントまたは弾幕を格納するファイルを取得することです。

Google Chromeでビデオ再生アドレスを開き、数ページ下にスライドしてコメントをロードし、開発者ツール(F12)を使用してソースコードのcommentidを確認します。ここでは、パケットキャプチャツールを使用する必要があります。原則は、URLアドレスを見つけてコピーし、コメントを格納する次のIDまでループして、コメントを取得できるようにすることです。

ヘッダーは、ブラウザーでCookieを確認するためのものです。弾幕は、Tencentビデオのdanmuと呼ばれる複数のjsに保存されます。また、おそらくコメントを取得する方法と同じ時間間隔を使用する必要があります。

1  # -*- coding: utf-8 -*-
2  import urllib.request
3  import re
4  import urllib.error
5  import sys
6  non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)
7  headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36     
         (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36")
8  openr = urllib.request.build_opener()
9  openr.addheaders = [headers]
10 urllib.request.install_opener(openr)
11 commentid= '6555778066593331820'
12 url = "https://video.coral.qq.com/varticle/4005898499/comment/v2? 
        callback=_varticle4005898499commentv2&orinum=10&oriorder=o&pageflag=1&cursor="+
        commentid+"&scorecursor=0&orirepnum=2&reporder=o&reppageflag
        =1&source=132&_=&_=1564890413257"
13 for i in range(0, 100):
14    data = urllib.request.urlopen(url).read().decode()
15    patnext = '"last":"(.*?)"'
16    nextid = re.compile(patnext).findall(data)[0]
17    # print(nextid)
18    patcom = '"content":"(.*?)",'
19    comdata = re.compile(patcom).findall(data)
20    for j in range(0, len(comdata)):
21        print("---第"+str(j)+"条评论内容是:")
22        print(eval('u"'+comdata[j]+'"').translate(non_bmp_map))
23    url = "http://video.coral.qq.com/filmreviewr/c/upcomment/0dfpyvfa7tp0ewe?commentid=" 
          + nextid + "&reqnum=3&callback=jQuery1124028619190818429263_1528385498744&_
          =1528385498747"
24    # print(url)

この記事は、「Sons of Tomorrow」の1-10号とパイロット映画の10w以上のレビューと弾幕を獲得します。テキストは、以下のさまざまな側面で分析されます(記事の最後にあるデータ分析コード)。

2.データ分析と視覚化

1.誰が最も心配していますか?

ほとんどの人は、自分の意見を表明するときに、サポートしたいスターやプレーヤーの名前を持ってくるでしょう。これも良い分析ポイントになります。単語頻度TOPランキングのトップ16の名前は、チューターも含めて分析されます。そして選手たち。もちろん、誰もがスターやプレーヤーに関連するいくつかのエイリアスについて話しています。以下は、名前がグループ化された後のデータです。たとえば、Hua ChenyuにはHuahua、Big Brother、Zhang Yuqiにはキャプテン、ヒーロー、その他のエイリアスがあります。

他のタイプミスもマージされました。より頻繁な人々はより多くのニックネームを持っています、ビッグブラザーフア、ビッグブラザーシャンジー、ビッグブラザースなどのようなビッグブラザーと呼ばれる人がいます。

上の写真は、Hua Chenyuが最初のディスカッションヒートを占める8707単語の頻度の絶対的な利点であることを示しています。もちろん、これは彼が多くのプログラムに参加し、近年多くのファンを獲得したという事実とも関連しています。

出場者の中で、5,981語の頻度を持つZhang Yuqi(ファイナルで最強のラベルを持つ)は間違いなくディスカッションのトップです。ディスカッションのトップ4プレイヤーは、Zhang Yuqi、By2、Hong Yinuo、Feng Xiyaoです。

 

2.ファンはどんなコメントが好きですか?

10wデータで、pythonを使用して単語の頻度をカウントし、最初の200単語を出力します。人の名前を削除した後、データの前の部分を傍受し、各母集団で最も頻繁に使用される単語が非常に肯定的な単語であることを確認します。など、応援、かわいい、いい、サポート、強さなど しかし、音楽に関連する単語はまだほとんどなく、そのほとんどはプレイヤー自身に関連しています。次の図の右上隅は単語の出現頻度であり、ピンク色の領域の面積も出現頻度の合計を表しています。

(上記の背景画像は、明日の息子の公式スタイルのものであり、単語頻度分析とは関係ありません)

TOP200の単語頻度に出現する単語は、以下のように単語クラウドマップ化され、名前が出現する確率が高くなり、記載されている他の単語ほど肯定的です。単語の雲のアウトラインには、明日のクリスタルエイジのアイコンが使用されています。

 

3.名前について言及するとき、ファンは何と言っていますか?

以下は、6人のメンターと6人のプレーヤーを含むいくつかのホットな名前を選別し、排他的な名前の単語の雲を作り、誰もがそれらについて議論していることを確認します。

データによると、By2を参照するときの単語はダンスであり、優れており、苦痛であり、Veegeeは特別で適切であり、Feng Xiyaoはサポートと味があり、Hong Yinuoはスタイル、印象的、レトロ、North JiangsuはSu Ge、面白い、Zhang Yuqiはサポート、スーパー、期待してください。

Hua Chenyuはかわいい、解説、コンサート、Long Danniはボス、Long Jie、解説、Maoは予約するのは簡単ではない、恥ずかしがり屋、スーパースター、Meng Meiqiは山の枝、ああ、格好良い、Song Dandanは先生、花、音楽、おかしい、Sun Yanziは歌い、女神、プロです。

ただし、プレイヤー全体で話題になっている注目の言葉の中には、あまり変わっていないものもあり、全体の話題の話題と似ており、特にプレイヤーの特徴を浮き彫りにするものではありません。

4.聴衆の感情分析はどうですか?

すべてのデータに対して感情分析を実行し、Pythonの中国の感情分析パッケージSnowNLPを使用して、スコアが0〜1の感情値を出力します。0に近いほど、感情は否定的で、1に近いほど、感情は肯定的です。

そして、次の頻度分布ヒストグラムを描きます。観客の感情はポジティブな感情に圧倒的に偏っていて、もちろんいくつかのネガティブな感情についての意見があることがわかります。

各俳優、各エピソードの感情を大まかに分析したところ、あまり変化がなく、前向きな傾向にあることがわかりました。

以下は、コメントスコアを部分的に選別し、センチメントスコアを0.1未満に抑えて単語の雲の画像を作成します。つまり、これらの否定的なコメントの意味を確認します。

いくつかの否定的なコメントがTencentのビデオについて不満を言っていることがわかります、いくつかはお互いのファンの一部であり、そしてプレイヤーのプログラムの問題について批判があります。

 

もちろん、このプログラムの良し悪しには悲鳴と怒りがあり、プログラムを一般公開するという決定は、プログラムだけでなく、そのプレーヤーも、特に最近の人気の音楽プログラムを非難される危険があることを意味します。しかし、それでも誰もが文明的に視聴するように促し、カジュアルな会話を楽しくしないでください。

 

上記は「Sons of Tomorrow」のレビューと弾幕をクロールし、分析を視覚化するプロセスです。WeChat公開アカウント「プログラミングを学ぶ金融学習者」「舞台裏の返信」「明日の子」ソースコードを入手。【終了】

WeChat公式アカウントへの元のリンク

過去におすすめ

1. 放浪地球の映画レビューをクロールする

2. 北上海、広州、深センの賃貸住宅図書

3. 大学ランキングの可視化

4. Douyinビデオのクロール

5. 母の日の祝福コード

あなたの「いいね」と注意が私の最大のサポートです!

 

公開された11元の記事 ウォン称賛11 ビュー5720

おすすめ

転載: blog.csdn.net/weixin_39270299/article/details/100175847