データ分析のための前処理、分析、モデリング

1. データ分析の概要

1.1 核となるアイデア

1. ビジネスデータ分析とは
収集した大量のデータを適切な分析手法で分析し、有益な情報を抽出して結論を​​導き出すプロセスです。

1.2 コースのオリエンテーション

代替

1.3 3 種類のデータ分析

ppJYG4O.png

1.4 データ測定スケール

(1) 分類スケール:

  • 公称測定値
  • 何かのクラスまたはプロパティの尺度
  • 計算可能: 周波数、周波数

例: 性別、都市、職業

(2) 通常の測定

  • 物事間のランクや順序の差の尺度 計算可能: 頻度、頻度、順序

例: 学歴、学年

(3) インターバル測定

  • 物事のクラス間または順序間の距離の尺度。通常は自然単位または物理単位で測定されます。 計算可能: 周波数、周波数、順序、加算および減算

例: 温度

(4) スケール測定

  • 2つの測定値間の比率を測定する機能
  • 計算可能: 頻度、頻度、並べ替え、加算と減算、乗算と除算 (例: 年齢、体重)
  • 絶対的な「ゼロ点」が固定されており、「O」はノーを意味します。

概要:
1. カテゴリ データ、順序データ: カテゴリ、離散、定性データ
2. 区間データ、比率データ:数値的、連続的、定量的なデータ

1.5 データ属性ごとに異なる統計グラフを使用する

変数の数 変数の型 オプションのグラフィックス
単変量 離散 縦棒グラフ、棒グラフ、円グラフ、ドーナツ グラフ
継続的 ヒストグラム、折れ線グラフ、箱ひげ図
二変量 離散 + 離散 積み上げ縦棒グラフ
離散 (個別の型) + 連続 (数値) 折れ線グラフ (2 つのグループ)、グループ化された箱ひげ図
連続+連続 散布図
多変量 離散 + 複数の連続 複数の系列を含む散布図
3つ続けて バブルチャート
複数の連続した レーダーチャート、複数時系列の折れ線グラフ

一般的な説明:

  • 一変量離散型: 属性値の差に応じて特定の属性列をカウントします。
  • 単変量連続型:一定区間の経済価値をカウントするヒストグラムを描画、一定期間の属性数を折れ線グラフで描画【時系列で収入の推移を記述する】
  • 二変量離散 + 離散: 積み上げヒストグラム [映画カテゴリと映画の制限レベルは関連していますか?]
  • 二変量離散+連続: ある属性列xの異なる属性値の影響で、どのくらいの経済価値yが生み出されるか、グループ化箱ひげ図を描く[興行収入に対するカテゴリの影響を計算する]; 折れ線グラフ[説明する]時間的収入と支出の順序上の関係]

図は次のとおりです

ppJYb24.png

1.6 応用分野

データ分析はすでにさまざまな業界や産業に浸透しており、主にインターネット、電子商取引、金融および保険、オンライン教育、製造、生物医学、輸送および物流、食品配達、エネルギー、都市管理、スポーツおよびエンターテイメント、その他の業界が含まれます。
ppJdhNt.png

2. データソース

外部ソース: データ購入、データスクレイピング、無料およびオープンソースデータなど
内部ソース: 販売データ、財務データ、ソーシャルコミュニケーションデータなど

ソースアドレス:
中国インターネット情報センター
分析分析
国家データ
国家統計局
UCI
オープンソース データ プラットフォーム Web サイトのリソース アドレス

3. データの前処理

ppJaZZR.jpg

4. 継続的に更新されるデータの前処理操作

1. データ属性列の NAN 値の処理方法:パラメータの
説明: : デフォルトは 0、つまり行を削除します。1 または columns : delete メソッドで列を削除しますany は少なくとも 1 つの NaN を含む行/列を削除し、all はすべての NaN を含む行/列を削除します。 : しきい値。int、少なくとも n 個の NaN 値を含む削除する行/列: リスト。列またはインデックス、指定された列/行のみを削除しますdropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
axis
how
thresh
subset

2. 特殊文字に従って関数を分割します。

each = each[0].split(',')

3. データ属性列の先頭のスペースを削除します: each.strip()
4. 属性列の特殊文字を削除します: item.append(each.strip('["{","/","}"]'))
.5. 中国語の文字を置き換えます。

# 也可以用于去除非法字符
df_1 = df_1.replace('--', np.nan)

6..renameメソッド、列名またはインデックス名を変更します。
7. 属性インデックス列に従ってデータフレームの特定のデータ列を取り出します。

df_1 = df.iloc[1:,[1,2,3,4,5,7]] 

8. データ フレーム 1 の対応するすべての値をデータ フレーム 2 に従って置き換えます。

 import pandas as pd

 df1 = pd.DataFrame({
    
    'col1': [1, 2, 3], 'col2': [4, 5, 6]})
 df2 = pd.DataFrame({
    
    'col1': [2, 3, 4], 'col2': [7, 8, 9]})

 merged_df = pd.merge(df1, df2, on='col1', how='inner')

 for index, row in merged_df.iterrows():
     df2.at[df2['col1'] == row['col1'], 'col2'] = row['col2']

 print(df2)

9. グループ化を使用して平均値を見つけ、空の値を入力します。

df_1['Budget'] = df_1.groupby('Genre')['Budget'].apply(lambda x: x.fillna(x.mean()))

10. null 値をチェックする

print(pd.isnull(data["时间戳"]).value_counts())

5. 一般的なデータ分析モデルと手法

一般的なデータ分析モデル:
比較分析、ファネル分析、リテンション分析、A/Bテスト、ユーザー行動経路分析、ユーザーグループ化、ユーザーポートレート分析など
一般的なデータ分析手法:
記述統計、仮説検定、信頼性分析、相関分析、分散分析、回帰分析、クラスター分析、判別分析、主成分分析、因子分析、時系列分析など

データの視覚化

  1. データの視覚化: データの視覚化とは、データを探索、理解、伝達するための視覚的表現の使用を指します。・目に見えない、または表示が難しいデータを認識可能なグラフィック、記号、色などに変換し、データの認識効率を高め、効果的な情報を提供します。
  2. データ視覚化の役割:
  • 情報の記録:抽象的な物事や情報をグラフィックの形で記録する。たとえば、我が国の古代人は、暦を計算するために観測した占星術の情報を占星図の形で記録した。
  • 情報の推論と分析のサポート: データの視覚化により、データ理解の複雑さが大幅に軽減され、情報認識の効率が効果的に向上し、人々が有効な情報をより迅速に分析し推論できるようになります。
  • 情報発信と連携
  1. ビジュアル分析 ビジュアル分析: ビジュアル分析は、さまざまなビューを迅速に構築して、その背後にある「何が」と「なぜ」の無限の経路を探索できる、動的で反復的なプロセスです。ビジュアル分析は、データを探索し、答えを見つけ、ストーリーを構築するのに役立ちます。最初の洞察をさらに超えるため、ビジュアライゼーションを見た誰もが質問し、予期せぬ発見をすることができます。一言で言えば、ビジュアル分析はリアルタイムでデータを視覚的に探索する方法です。

主な使用ツール:python matplotlibseabornライブラリ

Python で一般的に使用されるデータ視覚化ライブラリ: Matplotlib、Seaborn。

一般的なデータ視覚化チャート:

ppJ0Asg.png
———————————————————————————————————
参考学習アドレス: https:
//blog.csdn.net/ longxibendi/article/details/82558801
https://www.cnblogs.com/caochucheng/p/10539282.html
https://www.cnblogs.com/HuZihu/p/11274171.html
https://www.cnblogs.com /bigmonkey/p /11820614.html
https://blog.csdn.net/weixin_43913968/article/details/84778833
https://www.zhihu.com/collection/275297497
http://www.woshipm.com/data- Analysis/1035908.html
https://www.sensorsdata.cn/blog/20180512/
http://meia.me/act/1/schedule/112?lang=
http://www.360doc.com/content/20 /0718/00 /144930_924966974.shtml
https://zhuanlan.zhihu.com/p/51658537
https://www.cnblogs.com/ljt1412451704/p/9937833.html
https://www.cnblogs.com/peter-lau/p/12419989.html
https://zhuanlan.zhihu.com/p/138671551
https://zhuanlan.zhihu.com/p/83403033
https://blog .csdn.net/qq_33457248/article/details/79596384?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase& Depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachine LearnPai2-1.nonecase
https: //blog.csdn.net/YYIverson/article/details/100068865?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase& Depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1。なし
https://blog.csdn.net/weixin_30487317/article/details/101566492?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase& Depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommend FromMachineLearnPai2- 1.なしケース

おすすめ

転載: blog.csdn.net/qq_54015136/article/details/129595080