データ分析の簡単な質問共有(回答付き)

  1. 公的資料を一切使用せずに、今年生まれた新生児の数を推定してください

    1) 2 層モデル(群像人口変換)を採用:新生児数 = Σ 各年齢層の出産可能年齢の女性の数各年齢層の出生率
    2) 数から数へ:数に関するデータがある場合過去数年に生まれた新生児の数、確立時期 予測のためのシーケンスモデル(第二子の放出の突然変異イベントを考慮する必要がある) 3) ベビー用品の
    新規アクティブユーザー数などの前兆指標を探す X新生児の家族ユーザーを表します。Xn/新生児 n は、今年の新生児在宅ユーザーのコンバージョン率です。たとえば、X2007/新生児 2007 は、2007 年の新生児在宅ユーザーのコンバージョン率です。コンバージョン率はプラットフォームの発展とともに変化します。今年のおおよそのコンバージョン率は過去数年に基づいて発表でき、今年の推定新生児数は今年の新生児家族ユーザーの数に基づいて発表できます。年。
    2. 観測された宇宙の単位体積当たりの惑星の数はどのような分布に属するか:
    A スチューデント分布: 小さなサンプルサイズで正規分布の平均を推定する
    B ポアソン分布: 一定期間内に事象が発生する確率時間。また、n が大きく p が小さい二項分布とみなすこともできます。
    C 正規分布: 複数のグループ (複数の独立した反復実験での確率変数の平均)
    D 二項分布: 複数のコイン投げの独立した反復実験
    解決策:
    A スチューデント分布: 正規分布の平均に対するサンプル サイズが小さい 推定
    B ポアソン分布:一定期間内に出来事が起こる確率。また、n が大きく p が小さい二項分布とみなすこともできます。
    C 正規分布: 複数のグループ (複数の独立した反復実験における確率変数の平均)
    D 二項分布: 複数のコイン投げの独立した反復実験 体積を
    時間とみなした場合、この問題は B ポアソン分布に準拠します。

  2. 一般的な次元削減手法
    1) PCA および因子分析
    2) LDA
    3) マニホールド法: LLE (局所線形埋め込み)、ラプラシアン特徴マップ、ISOMAP
    4) 自動符号化マシン抽出機能
    5) SVD
    6) ツリーモデル抽出機能
    7) 埋め込み

4. ユーザーが最初にアプリにアクセスするとき、ユーザーは属性を選択します。完全なユーザー情報を確保しながら
ユーザーの離脱を減らす方法 回答: ユーザーは最初にアプリにアクセスするときに、属性を選択します。完全なユーザー情報を確保しながらユーザーの離脱を減らす
方法Technology Acceptance Model (TAM) を使用して分析すると、選択した属性のユーザーの受け入れに影響を与える主な要因は次のとおりです:
1) 認識された有用性:
a. テキストは、選択した属性がユーザーにもたらすことができる利点をユーザーに通知します
。使いやすさ:
a. ユーザーのサードパーティ アカウント (Weibo など) を関連付け、コールド スタート フェーズ中にユーザーが選択する可能性が高い属性と一致し、ユーザーに選択を推奨します。 b. 良い仕事をします
。 3) ユーザー
態度: 情報の入力に対するユーザーの態度
a. ここでは、ユーザーがスキップできるようにし、後で入力するようにユーザーに通知する必要があります
b. 入力された情報は十分に保護されることをユーザーに通知します
4) 行動の意図:アプリを使用するユーザーの目的、制御が困難
5) 外部変数: 動作時間、動作環境など、ここでは制御が困難

5. SVM の長所と短所
1) 利点:
a. 非線形分離可能な状況に適用できる
b. 最終的な分類はサポート ベクトルによって決定され、複雑さはサポート ベクトルの次元ではなくサポート ベクトルの数に依存します。 c. サンプル空間、次元災害の回避
c. 堅牢性: 少数のサポート ベクターのみが使用されるため、主要なサンプルがキャプチャされ、冗長なサンプルが排除されます
d. テキスト分類など、高次元および低サンプルの状況で優れた
パフォーマンス) 欠点:
a. モデルのトレーニングが非常に複雑
b. 複数分類の問題に適応するのが難しい
c. カーネル関数の選択にこれより優れた方法論はない
6. ランダム フォレストの簡単な紹介と詳細

1)随机森林原理:通过构造多个决策树,做bagging以提高泛化能力
2)随机方法包括:subsample(有放回抽样)、subfeature、低维空间投影(特征做组合,参考林轩田的《机器学习基石》)
3)有放回抽样,可以用包外样本做检验
4)也可以用OOB做特征选择,思路:
    a. 如果一个特征有效,那么这个特征引入杂质会明显影响模型效果
    b. 引入杂质会影响分布,所以更好的方式是对特征中的取值进行洗牌,然后计算前后模型的差异
    c. 但是我们不想训练两个模型,可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌,然后扔进训练好的模型中,用输出的结果进行误差检验

(@王娟の回答を参照: https://www.zhihu.com/question/26225801) 6.
GBDT の原理の紹介
1) まず、ブースティングのためのツリー統合手法である Adaboost Tree を紹介します。基本的な考え方は、複数のツリーを順番にトレーニングし、各ツリーがトレーニングされるときに誤って分類されたサンプルに重みを付けることです。ツリー モデルにおけるサンプルの重み付けは、実際にはサンプルのサンプリング確率の重み付けです。置換を使用してサンプリングすると、間違ったサンプルが抽出される可能性が高くなります。

2) GBDT は Adaboost ツリーを改良したものです. 各ツリーは CART (分類および回帰ツリー) です. ツリーは葉ノードの値を出力します. 分類誤差は実際の値から葉ノードの出力値を引いたものです.残留物。GBDT が行う必要があるのは、勾配降下法を使用して分類誤差値を減らすことです。

GBDT の反復では、前の反復ラウンドで取得した強力な学習器が ft−1(x)、損失関数が L(y,ft−1(x)) であると仮定すると、このラウンドの目標は反復は CART を見つけることです。回帰木モデルの弱学習器 ht(x) は、このラウンドの損失 L(y,ft(x)=L(y,ft−1(x)+ht(x))) を最小化します。つまり、この決定木は何回かの反復によって求められ、サンプルの損失は可能な限り小さくする必要があります。

GBDT の考え方は、一般的な例で説明できます。人が 30 歳の場合、最初に 20 歳を使用してフィッティングし、損失が 10 歳であることがわかります。このとき、6 歳を使用して、残りの損失を当てはめると、まだ4歳の差があることがわかりました。第3ラウンドでは、残りの差を埋めるために3歳を使用しましたが、その差はわずか1歳でした。反復ラウンド数が終了していない場合は、以下の反復を続けることができ、反復の各ラウンドでフィッティング年齢の誤差が減少します。

(参考:https://www.cnblogs.com/pinard/p/6140514.html)

3) 複数のツリーを取得した後、各ツリーの分類誤差に従って重み付け投票が実行されます。

おすすめ

転載: blog.csdn.net/m0_66106755/article/details/129557137