今まで、私たちはチュートリアル淘宝網タイトルIVを書かれている、最初の3つは、次のとおりです。
- 第一章:Pythonのアナログログイン淘宝網は、淘宝網のPC側の要求をログに記録するライブラリを使用する方法を、詳細に説明します。
- 第二:淘宝網は自動的に2.0を記録し、新しいクッキーのシリアライズは、クッキーに保存する方法をお教えし。
- パートIIIは:Pythonは淘宝網の商品コンドームをクロール、淘宝網終端PCの製品情報をクロールする方法をお教えし。
今日、我々は、シリーズの淘宝網の第四を見てみましょう
私たちは、淘宝網のデータがダウンクロールします最後の時間にされているが、データ分析をしませんでした。だから、今日、この記事では、データを分析し、いくつかの有用な結論を描画する方法をお教えします!
どこの利点は、他の言語のPython言語と比較されていますか?紳士と考え、データ分析や人工知能、二つの大きな部分、そして徐々に両方向に増加し、この需要ので、勉強したいが、学生は両方の方向を開発することが考えられる学習の目標に向かってのPythonを知らない人!
まず、分析対象
我々は我々の目標を見つけるために、つまり、明らかに彼らは、分析データ解析の前に望むものを知っている必要があります。同社は、同社の業績、ユーザー増分変更、商品の人気なので、上の文の一部であってもよいです。
今日の我々の目標というか、何をしますか?のは、見てみましょう:
- 高周波コンドームタイトルキーワードの分析
- 高周波キーワードとコンドームのタイトルとの関係の数量分析
- 高周波コンドームのタイトル、キーワードの分析と平均販売関係
- 高周波コンドームのタイトル、キーワードの分析と平均販売価格の関係
- 商品価格帯コンドームの配布関係の分析
- 財分析間隔分布の関係のコンドーム販売
- コンドームコモディティ価格の範囲と平均販売関係の分析
- 企業の数との関係のコンドーム分析の全国分布
- 全国平均販売分析コンドームのビジネス関係
注意:すべての2500のモデルに基づいて、上記のデータ分析は、淘宝網の商品は、最後の(デフォルトのソート)クロール、すべての淘宝網のコンドームの商品を表すものではありません!
第二に、分析の実現
あなたは明確な目標を持っていたら、私たちは、技術選択を開始します。
まず、これは十分に確立されたデータ処理ライブラリは、基本的にはありnumpyのとパンダ 2つの本質的なライブラリを、私たちはまず、これらのライブラリの両方がインストールされていることを確認してください。
そして、データの可視化ライブラリそれ?だから、多くの可視化ライブラリはどのように選択するには?あなたがお勧めする紳士ことを、選択する方法がわからない場合は、次のpyechartsこの開発を中国の人々の可視化ライブラリによって、チャートの種類、あなたはドキュメントがラインの内側に、次の見つけたいです。
中国の文書:https://pyecharts.org/#/zh-cn/intro
ソースアドレス:https://github.com/pyecharts/pyecharts
最後に、技術の選択が完了すると、私たちはノックコードの正式な分析を開始することができます。(ヘッダ上記の分析の分析および1つの対応をターゲット)
0データクレンジング
我々はデータを分析する前に、データが我々を洗浄する必要があります。データをダウンクロール商品販売、::淘宝網のデータからダウンクロールするなどの標準的なデータではないため、25,000人+支払い、我々はそれをオンにする必要があります:25000(整数)、それ以降の側面となるよう対処!
それらのデータをクリーニングする必要があるを見て、のクロール淘宝網からの生データを見てみましょう
2つのデータは、クリーニング必要がある紳士が考えるライブラリを使用しての経験によると:1、売上高は整数2に変わり、唯一の地域の地方に変身含まれ、具体的には、どのように直接コードそれを見て私たちをきれいに!
あなたが最後の紳士を参照し、Excelからの新しい生活に提出することができ、目的は、生データを汚染しないで、元のデータは非常に重要であるため、私たちは、その後のデータ処理で元のデータを維持しようとする必要があり、さらには、いくつかのバックアップされません余分な!
高周波コンドームのタイトルのキーワードの1分析
データクリーニングが完了した後、我々は分析を開始することができます。
高周波キーワードタイトルの分析これはつまり、jiebaワードの使用であり、一般的なプロセスであり、単語頻度の統計情報、および最終的には単語の雲を生成する、私はこれは小さな、数字はそれのすべてを見ての疲れて見える紳士国民はしばしば生徒を見ると信じています閉じた目は、関数となります。
取得するためのコードのダースラインよりも、それはレンダリング時のは、見てみましょう
分析の結論を:
- 単語の楽しみのために全体の商人という名前の好みに
- 材料からの尿酸の大部分を見てください
- 機能的にはより多くの粒子を見てからは、スレッド
PS:これは単語の好きな紳士に聞かないでください、その尋ね遅延を。
2.コンドームタイトルの関係の高周波キーワードと量分析
上に私たちは、あなたがそれを行う方法を具体的なデータを参照する必要がある場合の特徴は、人気があるだけかについて参照してください?
我々は、下の写真の下に同じコードを説明するために、データの項目数は、これらのキーワードの高周波それを含んで、統計を見ています!
私たちは、あなたが+1にキーワード値が含まれている場合、キーワードが含まれているタイトル内のすべてのデータによって、その後20個のキーワードの最高周波数を取る、と。それのヒストグラム生成効果を見てみましょう!
分析の結論:
- 単語楽しい商品が46%の数の合計(2500 +モデル)を占め、1150のモデルを持っている含まれています。
- トップ3は以下のとおりです。楽しい、尿酸、粒子
PS:紳士は、古いドライバをお願いしたい質問がある:使い捨ては再生する方法ですか?
高周波キーワードやタイトルコンドームの平均販売関係の3.分析
この分析は興味深いですし、コンドームやユーザーが好む機能材料の同等。
実装の平均高周波キーワードや販売データも、それはキーワードが含まれている場合、(リスト)内のキーワードの売上値のデータを入れて、すべてのデータのタイトルを横断している分析、統計後その後、各キーワードの値を平均化し、最終的に平均売上高に応じてソート。効果にそれを表示するには!
分析の結論:
- 最高の平均販売機能、みんなのお気に入りのスレッド
- 最初の三つの機能での平均売上高は以下のとおりです。糸、粒子、スパイク
- 小さくても、リスト、ハハ
PS:多くの学生が尋ねる:薄いのはなぜか?スリム自身がクールである、あなたはガールフレンドを持つことができますか?
高周波キーワードと平均販売価格の関係を見出しコンドーム4.分析
あなたが好きな機能の完全な分析、の価格でどのようにこれらの機能を分析してみましょうか?より高価なコンドームのどのような機能、それ?
高周波のキーワードの平均価格との原則との関係を分析し、使用したのと同じ方法でも同様である、単にそれのレンダリングを見て、元の販売価格を交換!
結果:
- 最前列で見ることができるいくつかの基本的な材料であり、
- ゼラチン、ヒアルロン、使い捨ての3の中央値に高価、100以上の海
PS:ゲル状の透明な物質は、使い捨ての古いどのドライバが使用され、一般的には違いは何ですか?
商品のコンドーム配布関係解析の価格帯
商品のタイトルと機能解析がほぼ完成され、我々はそれの価格を分析する必要があります!
紳士の人為の合計に分かれての価格'0-20'、'21 -40 ''41 -60' 、'61 -80'、'81 -100' 、 '101-120'、 「121-150」、「151から200」、9「200以上」のセクションでは、データは、統計は、ソートカット、そして最後にヒストグラムやパイを生成します。
分析の結論:
- 約31%を占め21-40 778モデルではほとんどの商品の価格帯。
- 1:百を超える商品の価格よりも少ないと百比率は約7であります
PS:私は100以上の非常に多くを期待していなかった、私はコンドームの200価格はどのような気持ちでお願いしたいと思いますか?
販売商品のコンドームの分布範囲との関係の6解析
当然の価格帯を分析した後、販売を分析することです
販売期間分布解析実現の原理:パーティションが販売されていることを、大まかに分ける:「千の中で」、「1000から5000」、「5000から10000」、「10000から50000」、「5万へ10万「」半分百万」、6つの範囲に渡って、その後、統計上記の方法は、最終外観をソートします。
分析の結論:
- 1000年の中で最も売上高では、約90%を占めます
- また、万人以上を販売だけで10モデルの合計、本当に少し説明の爆発モデル
- 10万人以上を販売したとしてもコンドームがあります。
PS:私はそのお金コンドームの商品情報、それの10万の以上の販売知りたいですか?コンドーム爆発のモデルは、参照するには:紳士マイクロチャネル公共番号「裸の豚」の再を見てください!
7.コンドーム商品の価格帯と平均販売との関係を分析します
あなたはコンドームの販売されている場合は、新しいコンドームを導入し、販売数が比較的高くなりますよう価格を知りたいですか?
今回は、データ分析の値の一つである実際の価格データと、商品の価格と販売数量の関係を分析することができます。
商品や実装の原則との関係の分析の平均販売価格の範囲は次のとおりです。視覚化した後に効果を確認するために、平均し、売り上げデータパケット、パンダ12個のパーティションに分割自動パーティションの価格を使用しています。
分析の結論:
- この価格帯の31.9から39社の最高の平均売上高に893
- 販売価格未満10元、実際に二番目に高いです
PS:10の箱の中にコンドームを使用し、出て行きます
ビジネス関係のコンドームの8.全国分布の定量分析
タイトル、価格は、売上高が分析され、そして最終的に我々は、商人の場所でデータを分析します。
地方コンドームビジネス、その後、熱や棒グラフに作られた数の客観的統計分析。
ビジネス統計の数時間のクリーニングのデータはデータのみの地方を保持している前に、私たちがしているので、比較的簡単なので、直接value_countsは()あなたはそれがどのように動作するか確認したいデータになります!
分析の結論:
- コンドーム上位3つの事業:広東省、上海市、浙江省
PS:貴州は、コンドームの周りのすべてを売却する理由、それはないでしょうか?それは、関連すると地理ですか?
9.全国平均コンドーム販売事業との関係を分析します
企業の数完全な分析の後、我々は地方それの平均売上高を見てください。
全国平均販売の原則を達成するためのビジネス関係解析:我々は新しいピボットテーブルを作成し、売上高は、平均して、並べ替え、最後に熱や棒グラフを生成します。
分析の結論:
- 驚くべきことに39人の山西商人の平均売上高は、最初に1535年であることが判明しました。
PS:なぜ平均販売山西省は、最初のでしょうか?その理由は有効であると理解することはできません
第三に、要約
上記のデータを分析することにより、我々はいくつかの興味深い結論を得ます:
- ユーザ嗜好糸、粒子、およびその他の機能槐
- ゼラチン、ヒアルロン、使い捨ての3の中央値に高価、100以上の海
- 約31%を占め21-40 778モデルではほとんどの商品の価格帯、
- 1000年の中で最も売上高では、約90%を占めます
- この価格帯の31.9から39社の最高の平均売上高に893
- 広東省、上海市、浙江省:上位3つの事業のコンドーム数
- 山西省、山西省、最も高い平均販売
コンドームの紳士がビジネスとして、あなたが製品を起動したい場合は、上記の分析を通じて、これのいくつかは、より人気があり、31.9から39000000で、顆粒は、スパイクは、価格が設定されているスレッドのタイトルを設定します。
カミソリなどのデータ分析、使用が適切にあなたのビジネスの重要な支点として使用することができます場合は、他の人が見ることができないものを見てください!
最後に、あなたのアドバイスのワンピース送信紳士:データ分析を勉強したいと、私たちはパンダを学ばなければなりません!!!
ソースを取得します:「裸の豚」の再マイクロチャネル公共数に焦点を当てて分析コンドームを得ることができます!