統計を研究する理由:裸の統計

2013年に発行された「NakedStatistics」、著者[アメリカ] Charles Wayland、Doubanスコア8.1ポイントは、入門統計の良い本として使用できます。知識ポイントは理解しやすく、Xiaobaiにとてもフレンドリーです。統計の専門知識を持っている人は、乾物が少ないと感じるかもしれません。一般的に、それは読む価値があります、推薦指数は4つ星です。記事の最後には、この本に関する知識グラフがあります。

画像

1.統計はビッグデータの時代で最もホットな知識です

最初の章の冒頭で、いくつかの興味深い質問が提起されました。

  • ジニ係数は、社会的分布の公平性を測定するための最も完璧な指標ですか?(記述統計)

  • ビデオサイトはあなたが好きな映画の種類をどのように知っていますか(関連性)

  • 祈りは患者の術後の回復を本当に改善することができますか(ランダム化された制御された実験)

  • 自閉症の発生率が上昇し続ける原因(相関)

これらの質問の背後には統計的な知識のポイントがあります。この本を読んだ後、あなたも答えを得ることができると私は信じています。

2.記述統計

2番目の章は、実際には最初の最初の章の質問に答えます。

ジニ係数は、社会的分布の公平性を測定するための最も完璧な指標ですか?

答えから始めましょう:いいえ。統計が唯一の正しい方法を提供することはめったにありません。Gini係数は、一連の複雑なデータを単一のデジタルツールに凝縮する記述的なデータ指標です。社会的分布の公平性を測定するための完全な指標ではありませんが、社会的分布の公平性に関する情報を便利でわかりやすく提供すると同時に、簡略化されたデータは悪用される危険性があることに注意する必要があります。これは、記述統計の長所と短所です。

記述的統計と言えば、平均、中央値、量子、標準偏差、および分散について言及することは避けられません。この章では、これらの概念について詳細に説明し、深く理解しています。

この章の冒頭で、小学校​​の数学の問題も提起されました。

ずっと買いたかったドレスがモールで4,999元で売られていて、25%値下げしてから25%値上げしました。最終価格はいくらですか?

答えは93.75ですよね?計算方法を忘れた子供靴の場合は、バイドゥができます。これは、パーセンテージと成長率の計算に関する非常に単純な質問です。

3.統計は嘘をつきます

Q3:1950年の人の平均時給は1ドルでした。2012年の人の平均時給は5ドルでした。私たちの賃金は上がったと思いますか?


image.pngこの質問が最初に提起されます。統計が嘘をつくという事実に関して、私は誰もが深く感じていると思います。データは真実であり、嘘ではありません。解釈の角度と分析の単位が異なるだけです。悪い例、つまり中央値と平均値については、まだ言及しておきます。(3,4,5,6,102)の平均値は24で、中央値は5です。これら2つの数値の差それはまだ非常に大きいので、給与は平均的に高いのです。分析の単位、記述されたオブジェクト、および異なる集団間で誰または何に違いがあるかを区別する必要があります。判断は数学よりも重要です


冒頭の質問に戻りますが、賃金水準は上がっていますか?実際、インフレがあるため、単に数の増加に注意を払うことはできないことを誰もが知っています。2つの値を同じ単位に変換する必要があります。たとえば、すべてを2011ドルに変換してから、それらを比較する必要があります。

4、相関と相関係数

この章は、第1章で提起された質問に答えます。

ビデオサイトはどのようにしてあなたが好きな映画の種類を知るのですか

答えは相関関係です。相関関係を説明する1つの指標は、相関係数です。相関係数相関関係をどのように説明するかについてはあまり詳しく説明しません。相関関係に関して、知っておく必要がある最も重要なことは、相関関係が因果関係と等しくないことです。生徒の成績は、自宅のテレビの数と正の相関があります。親がテレビをさらに5台購入する限り、子供の成績が向上するという意味ではありません。

5、確率と期待値

Q5:福祉の宝くじのチケットを購入したり、カジノに行ってギャンブルをしたり、株や先物に投資したりすると、「フォーブス」の豊富なリストに載る可能性が高くなります。

これは確率の問題です。確率とは、不確実な出来事や結果を調査することであり、何が起こるかを明確に示すものではありませんが、確率を計算することで、何が起こり、何が起こりそうもないかを知ることができます。

期待値は、数だけでなく、私たちの判断の指標でもあるすべてのイベントの合計です。

多数の法則では、試行回数が増えると、平均結果は期待値に近づきます。たとえば、1元の宝くじの期待収益額は0.56元です。長期的には、これはコストを下回る悪い投資ですが、今日は5元を獲得するのに十分幸運でしたが、多数の法則によれば、長年購入すると降りることは間違いなくお金の損失です。

画像

6.モンティホールパラドックス

Q6:ホストが開いたドア3の後ろに羊がいます。残りのドア1と2には、ドアの後ろに車がなければなりません。ジャックポットを獲得するにはどうすればよいですか。

これは、車、山羊、ドアの有名な確率問題で、モンティホールのパラドックスと呼ばれています。バラエティショーでは、ドアの後ろに車、羊の3つのドアがあります。参加者は1つを選択します。ドア、ホストは残りの2つのドアの1つを羊で開き、元の選択を変更するかどうかを競技者に尋ねます。

これは依然として確率の問題であり、計算により、最初の選択を変更する可能性が高くなることがわかっています。この質問はまた、多くの異なる説明と回答につながり、興味のある友人は自分でそれを見つけることができます。

セブン、ブラックスワン事件

Q7:2008年にウォールストリートを破り、世界の金融システムを台無しにした1%の小さな確率のリスクは、どのようにしてブラックスワンになりましたか?

この問題の根本は、リスク価値モデルについて話すことです。簡単に言えば、投資によって特定の期間に企業が被る可能性のある最大損失を示すために、単純な指標を使用することです。この結果の確率は1%であり、つまり、この投資は99%のケースで安全ですが、実際に物事を台無しにしたのは残りの1%です。

いくつかの確率の誤解、興味があれば、本自体を読むことができます:

  • イベント間には関係がないことは当然のことです

  • ギャンブラーの堕落など、2つのイベントの統計的独立性については何も知りません。

  • ケースのクラスターの発生:単なる偶然かもしれません

  • 検察官の堕落

  • 回帰平均

  • 統計的識別

第5章、第6章、第7章はすべて確率に関するものです。確率には単純さと正確さという多くの利点がありますが、計算の対象および計算の理由として人間に取って代わることはできません。

8.データとバイアス

人口全体の特性を正確に反映したい場合は、間違いなくサンプリングが最も便利で公平な方法ですが、人口構成自体に問題がある場合、つまりいわゆる「バイアス」がある場合は、サンプルサイズがいくら大きくても、この「バイアス」の状況を変えることはできません。 。これは、データ自体に問題がある場合、厳密な分析を行っても無駄がないことを示しています。

統計手法が正しく、データ自体に問題があるいくつかの例を次に示します
。ü選択的バイアス
ü公開バイアス
üメモリバイアス
ü生存者バイアス
ü健全なユーザーバイアス

画像

ナイン、中央限界定理

Q9:自宅近くの道路に、肥満の乗客でいっぱいの故障したバスが停まっていますが、目的地のマラソンは今でも全国ソーセージフェスティバル展示ホールであると推測できます。

この質問は一目で結論を導き出すことができるようです。それは国立ソーセージフェスティバル展示ホールでなければなりません。この一般的な能力はしばしば中央限界定理です。中央限界定理の本質は、大きなサンプルとそれが表すグループの正しいサンプリングです。同様の関係があります。ほとんどのマラソンランナーは比較的細いので、非常に多くの「ヘビーウェイト」アスリートが車に乗る可能性は非常に低いので、この車を決定する目的は、中央限界定理の論理です。地面はソーセージフェスティバル展示ホールです。

10.統計的推論と仮説テスト

Q10:スパムフィルタリング、がんスクリーニング、テロリストの狩猟、失敗を容認できないこと、そして目をつぶることができることはどれですか?

統計は決定的に何も証明できませんが、最初にいくつかの法則と結果を発見し、次に確率を使用してこれらの結果の背後にある最も可能性の高い理由を証明できます。このプロセスで最も一般的に使用されるツールは仮説テストです。

仮説テストのアイデアは、確率低い矛盾の方法であり、次のように理解できます:最初に結論(ヌル仮説)を仮定し、次に統計分析を通じてそれを支持または反論します。

栗を与える:

  • ヌル仮説:新薬はマラリアの予防においてプラセボよりも効果的ではありません

  • 代替仮説:新薬はマラリアを予防できる

統計的推論プロセス:新薬を服用しているグループのマラリアの発生率は、プラセボを服用している対照グループのそれよりもはるかに低く、新薬が治癒効果を持たない場合、この結果の可能性は非常に低いため、ヌル仮説は拒否されます。

Q10の質問に戻ると、仮説テストにはタイプIエラータイプIIエラーがありますが、この問題の3つのケースは、これら2つのエラーの妥協点です。具体的には、本を注意深く読むことができます〜

11.世論調査とエラーマージン

Q11:調査結果によると、アメリカ人の89%は政府が正しいことをするとは信じておらず、46%はオバマの業績を承認していますが、この結果はアメリカ人の真の考え方を表していますか?

オピニオンポーリング(polls)は、中央限界定理に基づいています。もちろん、サンプルの結果が全体から大きく外れる確率を計算することもできます。これは誤差の範囲です。ポーリング結果が実際の状況の3%以内で変動する確率は95%です。

ポーリングを実施する際に考慮すべきいくつかのポイント:

  • このサンプルは、ターゲットグループの実際のビューを正しく反映していますか?選択的なバイアスを引き起こさないように

  • 面接中の質問設定は、研究トピックに役立つ情報をもたらすことができますか?

  • インタビュイーが言ったことは真実でなければなりませんか?

12.回帰分析と線形関係

Q12:職場で突然死に至る可能性が高いのは、どのような仕事のプレッシャーだと思いますか?それはコントロールと声のない仕事ですか、それとも大きな力と責任のある仕事ですか?

実際、前者の方が死亡率が高いのですが、どうやってこの結論が出たのでしょうか。回帰分析!他の要因を制御し、特定の変数と特定の結果との関係を定量化するという前提の下で、質問自体に戻ることは、特定の集団の健康に対する低レベルの作業の害を分析することです。回帰分析の強力な機能は、関心のある統計的関連を分離することにあります。

回帰分析に焦点を当てて、変数間の相関関係と、結果が統計的に有意であるかどうかという2つのポイントに焦点を当てます。最後に、回帰分析では、身長と体重の関係など、2つの変数間の最適な関係を見つける必要があります。絶対的なものではありませんが、背が高い人は一般的に体重が多くなります。「最適な」フィッティング関係を決定する方法は?答えは最小二乗法です。ここでは展開しません。Baiduまたは自分で本を読むことができます。

画像
実際、回帰分析の難しさはテクノロジー自体ではなく、どの変数が使用され、どのようにこれらの変数を最大限に活用するかです。これもこの章の焦点です。


13.致命的なリターンエラー

回帰分析は複雑な質問に対する正確な回答を提供しますが、これらの回答は必ずしも正確ではありません。この章では、回帰分析を適用する際に注意すべき点について説明します。よくある間違いがいくつかあります。

  • 回帰方程式を使用して、非線形関係を分析します。変数間の関係が線形である場合にのみ、回帰分析が役立ちます。

  • 相関関係は因果関係と同じではありません。

  • 原因と結果の逆転。独立変数が従属変数に影響を与えることを確認してください。その逆ではありません。

  • 可変省略偏差。ゴルフをすることが心臓病になりやすい場合、この結論は、ゴルフが心臓病になりやすいということではなく、高齢者が心臓病になりやすいという理由で、年齢変数が省略されているということです。

  • 相関性の高い独立変数(複数の共直線性)。2つの独立変数が高度に相関している場合、それらと従属変数の間の真の関係を区別することは不可能です。

  • データから推論を行います。このサンプルを説明するために使用される回帰式は、必ずしも別のサンプルに適用されるとは限りません。

  • データマイニング(変数が多すぎます)。

14.プロジェクトの評価と「反現実」

Q14:入社後、ハーバード大学の卒業生は普通の大学卒業生よりも収入が多いことが多いのですが、それは学校のアドバンテージなのか、それとも優れているのか?

この質問は、同等ではない管理された実験によって説明する必要があります。「卒業証明書の学校名と比較して、自分の興味、野心、能力を正しく理解することで、人の生活をより良くすることができます」、これがこの質問に対する最良の答えだと思います。

上記はこの本を読んだ後の私の考えであり、次のように知識グラフも作成しました(はっきりと見えない場合は、WeChat data_colaを追加して元の画像を要求できます):

画像


おすすめ

転載: blog.51cto.com/15064638/2598067