淘宝網のセクションコンドームの何千ものPythonと分析は、これらの興味深い結果に到着しました

--- ---復元コンテンツ始まります

今まで、私たちはチュートリアル淘宝網タイトルIVを書かれている、最初の3つは、次のとおりです。

  • Pythonのアナログは、淘宝網にログイン淘宝網のPC側の要求をログに記録するライブラリを使用する方法を詳細に説明します。
  • 淘宝網は自動的に2.0を記録し、新しいクッキーのシリアライズは、クッキーに保存する方法をお教えし。
  • 淘宝網の商品コンドームをクロールPythonは、淘宝網の端PCの製品情報をクロールする方法をお教えし。

今日、我々は、シリーズの淘宝網の第四を見てみましょう

私たちは、淘宝網のデータがダウンクロールします最後の時間にされているが、データ分析をしませんでした。だから、今日、この記事では、データを分析し、いくつかの有用な結論を描画する方法をお教えします!

どこの利点は、他の言語のPython言語と比較されていますか?小扁は見なさデータ分析、人工知能二つの大きな部分を、この需要は徐々に両方の方向に増加しますので、勉強したいが、学生は両方の方向を開発することが考えられる学習の目標に向かってのPythonを知らない人!

まず、分析対象

我々は我々の目標を見つけるために、つまり、明らかに彼らは、分析データ解析の前に望むものを知っている必要があります。同社は、同社の業績、ユーザー増分変更、商品の人気なので、上の文の一部であってもよいです。

今日の我々の目標というか、何をしますか?のは、見てみましょう:

  1. 高周波コンドームタイトルキーワードの分析
  2. 高周波キーワードとコンドームのタイトルとの関係の数量分析
  3. 高周波コンドームのタイトル、キーワードの分析と平均販売関係
  4. 高周波コンドームのタイトル、キーワードの分析と平均販売価格の関係
  5. 商品価格帯コンドームの配布関係の分析
  6. 財分析間隔分布の関係のコンドーム販売
  7. コンドームコモディティ価格の範囲と平均販売関係の分析
  8. 企業の数との関係のコンドーム分析の全国分布
  9. 全国平均販売分析コンドームのビジネス関係

注意:  すべての2500のモデルに基づいて、上記のデータ分析は、淘宝網の商品は、最後の(デフォルトのソート)クロール、すべての淘宝網のコンドームの商品を表すものではありません!

第二に、分析の実現

あなたは明確な目標を持っていたら、私たちは、技術選択を開始します。

まず、これは十分に確立されたデータ処理ライブラリは、基本的にはありnumpyのパンダ 2つの本質的なライブラリを、私たちはまず、これらのライブラリの両方がインストールされていることを確認してください。

そして、データの可視化ライブラリそれ?だから、多くの可視化ライブラリはどのように選択するには?あなたが選択する方法がわからない場合は、その後のXiaobianはあなたがお勧め:pyechartsを  この開発を中国の人々の可視化ライブラリによって、チャートの種類、あなたはドキュメントがラインの内側に、次の見つけたいです。

中国の文書:https://pyecharts.org/#/zh-cn/intro
ソースアドレス:https://github.com/pyecharts/pyecharts

最後に、技術の選択が完了すると、私たちはノックコードの正式な分析を開始することができます。(ヘッダ上記の分析の分析および1つの対応をターゲット)

0データクレンジング

我々はデータを分析する前に、データが我々を洗浄する必要があります。データをダウンクロール商品販売、::淘宝網のデータからダウンクロールするなどの標準的なデータではないため、25,000人+支払い、我々はそれをオンにする必要があります:25000(整数)、それ以降の側面となるよう対処!

クリーニングが必要これらのデータを見て、のクロール淘宝網からの生データを見てみましょう
ここに画像を挿入説明
、ライブラリはクリーニング二つのデータニーズを持っていることを小さなシリーズでの経験に基づいて:1、売上高は整数2に変わり、唯一の地域の地方に変身含まれてい具体的には、どのように直接コードそれを見て私たちをきれいに!
ここに画像を挿入説明
最後に、我々は小さなシリーズを見ると、Excelからの新しい生活に提出することができ、目的は、生データを汚染しないで、元のデータは非常に重要であるため、私たちは、その後のデータ処理で元のデータを維持しようとする必要があり、さらには、いくつかのバックアップされません余分な!

高周波コンドームのタイトルのキーワードの1分析

データクリーニングが完了した後、我々は分析を開始することができます。

高周波キーワードのタイトルの分析はこれが当たり前のプロセスであり、それは、jiebaワードの使用であり、かつ単語頻度統計、そして最終的に単語の雲を生成します。小扁は、PythonのデータとPDFのセットを終えPythonの学習教材を学ぶ必要があるグループに追加することができます:631 441 315、とにかくアイドルそれがアイドル状態で、たくさんの友人~~学ぶために優れている
ここに画像を挿入説明
のは、レンダリングを見てみましょう、取得するためにコードのダースラインをそれを
ここに画像を挿入説明
分析の結論:

  1. 単語の楽しみのために全体の商人という名前の好みに
  2. 材料からの尿酸の大部分を見てください
  3. 機能的にはより多くの粒子を見てからは、スレッド

PS:その尋ね、単語のお気に入りの小さなシリーズを聞かないで遅延を

2.コンドームタイトルの関係の高周波キーワードと量分析

上に私たちは、あなたがそれを行う方法を具体的なデータを参照する必要がある場合の特徴は、人気があるだけかについて参照してください?

我々は、下の写真の下に同じコードを説明するために、データの項目数は、これらのキーワードの高周波それを含んで、統計を見ています!
ここに画像を挿入説明
私たちは、あなたが+1にキーワード値が含まれている場合、キーワードが含まれているタイトル内のすべてのデータによって、その後20個のキーワードの最高周波数を取る、と。それのヒストグラム生成効果を見てみましょう!
ここに画像を挿入説明
分析の結論:

  1. 単語楽しい商品が46%の数の合計(2500 +モデル)を占め、1150のモデルを持っている含まれています。
  2. トップ3は以下のとおりです。楽しい、尿酸、粒子

PS:紳士は、古いドライバをお願いしたい質問がある:  使い捨ては  再生する方法ですか?

高周波キーワードやタイトルコンドームの平均販売関係の3.分析

この分析は興味深いですし、コンドームやユーザーが好む機能材料の同等。

ここに画像を挿入説明
ここに画像を挿入説明
実装の平均高周波キーワードや販売データも、それはキーワードが含まれている場合、(リスト)内のキーワードの売上値のデータを入れて、すべてのデータのタイトルを横断している分析、統計後その後、各キーワードの値を平均化し、最終的に平均売上高に応じてソート。効果にそれを表示するには!

ここに画像を挿入説明
分析の結論:

  1. 最高の平均販売機能、みんなのお気に入りのスレッド
  2. 最初の三つの機能での平均売上高は以下のとおりです。糸、粒子、スパイク
  3. 小さくても、リスト、ハハ

PS:多くの学生が尋ねる:薄いのはなぜか?スリム自身がクールである、あなたはガールフレンドを持つことができますか?

高周波キーワードと平均販売価格の関係を見出しコンドーム4.分析

あなたが好きな機能の完全な分析、の価格でどのようにこれらの機能を分析してみましょうか?より高価なコンドームのどのような機能、それ?
ここに画像を挿入説明
ここに画像を挿入説明
高周波のキーワードの平均価格との原則との関係を分析し、使用したのと同じ方法でも同様である、単にそれのレンダリングを見て、元の販売価格を交換!
ここに画像を挿入説明
結果:

  1. 最前列で見ることができるいくつかの基本的な材料であり、
  2. ゼラチン、ヒアルロン、使い捨ての3の中央値に高価、100以上の海

PS:ゲル状の透明な物質は、使い捨ての古いどのドライバが使用され、一般的には違いは何ですか?

商品のコンドーム配布関係解析の価格帯

商品のタイトルと機能解析がほぼ完成され、我々はそれの価格を分析する必要があります!
ここに画像を挿入説明
ここに画像を挿入説明
人工の小さなシリーズの価格は、合計に分けた: '0-20'、'21 -40 ''41 -60' 、'61 -80'、'81 -100' 、 '101-120'、 「121-150」、「151から200」、9「200以上」のセクションでは、データは、統計は、ソートカット、そして最後にヒストグラムやパイを生成します。
ここに画像を挿入説明
ここに画像を挿入説明
分析の結論:

  1. 約31%を占め21-40 778モデルではほとんどの商品の価格帯。
  2. 1:百を超える商品の価格よりも少ないと百比率は約7であります

PS:私は100以上の非常に多くを期待していなかった、私はコンドームの200価格はどのような気持ちでお願いしたいと思いますか?

販売商品のコンドームの分布範囲との関係の6解析

当然の価格帯を分析した後、販売を分析することです

ここに画像を挿入説明
ここに画像を挿入説明
販売期間分布解析実現の原理:パーティションが販売されていることを、大まかに分ける:「千の中で」、「1000から5000」、「5000から10000」、「10000から50000」、「5万へ10万「」半分百万」、6つの範囲に渡って、その後、統計上記の方法は、最終外観をソートします。
ここに画像を挿入説明
ここに画像を挿入説明
分析の結論:

  1. 1000年の中で最も売上高では、約90%を占めます
  2. また、万人以上を販売だけで10モデルの合計、本当に少し説明の爆発モデル
  3. 10万人以上を販売したとしてもコンドームがあります。

7.コンドーム商品の価格帯と平均販売との関係を分析します

あなたはコンドームの販売されている場合は、新しいコンドームを導入し、販売数が比較的高くなりますよう価格を知りたいですか?

今回は、データ分析の値の一つである実際の価格データと、商品の価格と販売数量の関係を分析することができます。

ここに画像を挿入説明
商品や実装の原則との関係の分析の平均販売価格の範囲は次のとおりです。視覚化した後に効果を確認するために、平均し、売り上げデータパケット、パンダ12個のパーティションに分割自動パーティションの価格を使用しています。
ここに画像を挿入説明
分析の結論:

  1. この価格帯の31.9から39社の最高の平均売上高に893
  2. 販売価格未満10元、実際に二番目に高いです

PS:10の箱の中にコンドームを使用し、出て行きます

ビジネス関係のコンドームの8.全国分布の定量分析

タイトル、価格は、売上高が分析され、そして最終的に我々は、商人の場所でデータを分析します。

地方コンドームビジネス、その後、熱や棒グラフに作られた数の客観的統計分析。
ここに画像を挿入説明
ビジネス統計の数時間のクリーニングのデータはデータのみの地方を保持している前に、私たちがしているので、比較的簡単なので、直接value_countsは()あなたはそれがどのように動作するか確認したいデータになります!
ここに画像を挿入説明
ここに画像を挿入説明
分析の結論:

  1. コンドーム上位3つの事業:広東省、上海市、浙江省

PS:貴州は、コンドームの周りのすべてを売却する理由、それはないでしょうか?それは、関連すると地理ですか?

9.全国平均コンドーム販売事業との関係を分析します

企業の数完全な分析の後、我々は地方それの平均売上高を見てください。
ここに画像を挿入説明
全国平均販売の原則を達成するためのビジネス関係解析:我々は新しいピボットテーブルを作成し、売上高は、平均して、並べ替え、最後に熱や棒グラフを生成します。
ここに画像を挿入説明
ここに画像を挿入説明

分析の結論:

  1. 驚くべきことに39人の山西商人の平均売上高は、最初に1535年であることが判明しました。

PS:なぜ平均販売山西省は、最初のでしょうか?その理由は有効であると理解することはできません

第三に、要約

上記のデータを分析することにより、我々はいくつかの興味深い結論を得ます:

  1. ユーザ嗜好糸、粒子、およびその他の機能槐
  2. ゼラチン、ヒアルロン、使い捨ての3の中央値に高価、100以上の海
  3. 約31%を占め21-40 778モデルではほとんどの商品の価格帯、
  4. 1000年の中で最も売上高では、約90%を占めます
  5. この価格帯の31.9から39社の最高の平均売上高に893
  6. 広東省、上海市、浙江省:上位3つの事業のコンドーム数
  7. 山西省、山西省、最も高い平均販売

コンドームのビジネスのような小さなシリーズは、製品を起動したい場合は、上記の分析を通じて、これのいくつかは、より人気があり、31.9から39000000で、顆粒は、スパイクは、価格が設定されているスレッドのタイトルを設定します。

カミソリなどのデータ分析、使用が適切にあなたのビジネスの重要な支点として使用することができます場合は、他の人が見ることができないものを見てください!

私たちはパンダを学ぶ必要があり、データ分析を学びたい:最後に、小扁はあなたにアドバイスの1枚を送信します!

---終わり---コンテンツを復元

おすすめ

転載: www.cnblogs.com/qingdeng123/p/11567960.html