線形回帰「復帰」手段

オリジナル住所:https://blog.csdn.net/laputa_ml/article/details/80072570#comments

今日、私は簡単に彼の新しいアイデアのいくつかについて話します。私たちは、簡単にあいまいさにつながる最も基本的なところから始めます。多くの人々は、違いは何ですか?(フィッティング)、私に尋ねる回帰(回帰)とフィッティング あなたがそれらを区別するために、数学的観点から必要な場合は実際には、あなたは抜け出すことができません。知識は、多くの場合、「先入観」インパクトのようなものを持っています。私たちが触れる最初の回帰は、単純な線形回帰、多項式回帰かであり、これは正確には「自然に似た」私たちの接触フィッティング問題です:パラメータを解決するために、最小二乗法。したがって、これらの学生の数学の背景、本当の問題、これらの2つのタイプを区別することは常に困難です。しかし、ビューのより実用的な問題と組み合わせる歴史的発展の観点からすれば、問題が明確に理解しやすいです。

最初に、人々は、人々は、リンクのいくつかの並べ替えに変数のこれらのセットを記述するために同様の機能を見つけたいので、これらのデータとの間の接続があるように見え、データセットの多くを取得した後、いくつかの説明を取得します。もちろん、これらのデータが正確で正しい場合、これらの点を通る補間関数は、より良い問題を解決できるようになることを非常に明確です。しかし、今、これらのデータは、誤ったまたは偏った採取することにより得ることができるので、逆に補間関数の精度は、疑問視されます。だから、人々は、任意の一点なしを探していますが、可能なデータの基本的な法則の曲線について説明します。これはフィッティングです。人々は慎重データによって引き起こされたものを分析する必要はありませんので、フィッティングはもともとその時点で、1804年と1809年に2人の数学者によって提案されたルジャンドルとガウスによって開発された、そして今、確率と統計は、原始的な段階でちょうどまだ比較します最終的には不正確な偏差が律法はありません。人民直感は、この曲線とこれらの点の距離、「近いより良い」です。したがって、「最小二乗偏差および」an「及び最小偏差」と2つの最適化方法の絶対値があります。しかし、なぜ人々は意味今や「最小二乗法の原則」として知られ、後者を選びましたか?非常にカジュアルなことを言いました。第一の理由は、絶対値が計算するのは容易ではないですが、広場や「滑らかさ」、人々は計算しやすい優れている、他の理由は、より広範囲であり、それは「最小二乗法」のベクトルの内積空間とすることができますです直交射影:種は非常に素晴らしい幾何学的な解釈です。ハハ、技術的な理由から、数学的な理由。一つは、確率と統計の数学は、これらの歴史的な事故の大きな利点である、それは長い時間で世界情勢を支配「最小二乗の原則」を行い、歴史的な制限があります。それ以来、フィッティング、生まれました!

しかし、人々はすぐに二つの新しい問題が発生しました:

まず、フィッティング曲線は、ビューのポイントでの単一知らケースから近づいて、良いかもしれない、しかし、この曲線は、その時点で本当に不明ですそれが正確ですか?フィッティングと補間をサポートするために、この数学的な理論のと同じ、少なくとも補間テイラー展開ではないので、それは非常に明確な補間信頼度ですが、フィッティング、これまでのところ、それはサポート数学的理論の欠如です。最初の科学技術では非常に発達していないで、それはそれらのデータの非常に複雑な性質を観察することはできません、収集されたデータの量が非常に限られているので、これらの点のフィット感は、あらゆるトラブルや問題を見ていません。しかし、その後、データ量の増加、徐々にた人、と以前の結果は、フィッティングによって得られたとなると、「飛んでいません」。

第二に、考えるのは簡単です回帰曲線の形で直線よりも何もない、あるいはより複雑なポイントは、これらの基本機能、これらは、それは非常に柔軟ではない形でのパラメータを持つ曲線です。人々は徐々にデータ形式のより複雑な形態を観察しかし、右のパラメータを見つけることが曲線が、その後、実際のフィッティングの操作だけでなく、より多くの困難は非常に面倒なことになります。

最後に、19の終わりに実際の時間を、様々な問題に苦しむ、闘争の半世紀後に、それは「行き止まり」のフィッティングと思われる、人々は彼らの未来と価値を見ることができませんでした。

しかし、19世紀後半、新しい革命の準備ができています!人の身長の話ゴルトンの記事は、「リターン」という用語:.「これらの背の高い身長の子孫、質量高さの傾向への復帰の種類」を提案しダルトン自身が彼と考えなかっただろうでも、世の中のために二つの新しいコンセプトを作成するには:回帰を、それが平均への回帰です。19実際の終了時刻、古典確率論は比較的成熟している、出生統計の基礎はすでに持っています。当時、カール・ピアソン若い数学者という男は、農業に、生物のテストの多くを行う、そしてデータの描画へのデータの最初の記述から、データ分析の多くを使用する方法、およびそれ以降フィッティング接触を使用すると、2つの変数のセットを見つけるために......これはピアソンと呼ばれ、現代統計学の創始者で、統計が初めて科学革命のリーダーです。統計の世界初の部門を確立するために:彼は人生は画期的なものになるだろう作ったときピアソンは、ユニバーシティ・カレッジ・ロンドン(UCL)で1904年に来ました。それ以来、統計、統計、および数学的な独立性、規律の別の偉大な活力になってきて。ピアソンの息子、父親の足跡は、また、統計的なマスターの世代となっています。この時点で、人々はデータ不確実な現象の背後にあるものをを記述するために確率モデルを使用して、ランダムな変数を使用することを学ぶために始めています。新しいルックスを持つという考え回帰の進捗状況。
:人々はそれらのランダムエラーの新しい解釈の問題に戻るようになった分布の種類を想定し始め、人々は自然の分布関数の最良の選択に値する正規分布。私たちはこれらのエラーが0に期待されていると仮定した場合、分散が互いに干渉してはならない、これは、プロトタイプの「古典回帰モデル」「分散回帰モデルのガウス」です。人々は、線形回帰モデルであるデータを、近似する直線を使用し、それらの最初の単純な問題に戻って行きました!

より多くの革新的な解釈は、かつて問題のリターンを記述するために確率モデルを使用して、我々は、実際には、期待に測定変数の変数条件の観測値を近似関数を見つけたいです!あなたは「独立同一分布ガウスエラー」(後の「白色ガウス雑音」として知られている)の仮定を使用している場合は、このようなエラーは、我々が探している所望の機能である正規分布、上の変数の後、観測値。ハハ、回帰は、推論が問題になる:データを考えると、それは期待を推定しています。新しい人生のリターンを迎え、以降、この瞬間から指摘しておかなければ!

多くはない年後、有名なフィギュア願望統計サミット:ロナルド・フィッシャー。これは、後にケンブリッジ大学のキャラクターの教授、統計に数多くの貢献、信用上の「最大尤度」の一つとなりました。新しいソリューションで最尤そのパラメータ回帰推定そして、人々は突然、「最小二乗法の原則」の本来の使用は、パラメータの推定では「古典回帰」で、その結果、「最大尤度」と完全に一致してもらうことに気づきましたまた、回帰誤差の統計的な仮定、「最小二乗法の原則」を意識人々を作るだけで独立した効果的な分布を持つ唯一の誤差は、誤差分散変更する場合は、加重最小二乗」のようなものを使用する必要があります。 " また、「最小二乗法」よりも「最尤」理論的には、任意の分散確率変数が有効で、より一般的です。これは、回帰モデルの急速な発展を促進するための重要な理由となっています。

標本分布は、定理、ポイントと成熟度の区間推定を見つけ特に統計や統計的推論の急速な発展は、人々はもはやなく、むしろ「推定」として、「アプローチ」への回帰として見られませんそして、量、妥当性、一貫性のこの不偏推定値で、かつその観点から統計的推論に見えるようになったが、また、回帰係数、t検定の帰無仮説の推定値の範囲を開始するには、エラーの先頭に戻り始めていますFテスト。これらは、徐々にモデリング方法論及び実際の復帰後のモデルの診断(診断モデル)を形成しました。統計の保証では、回帰モデルの信頼性が大幅に改善されました。これまでのところ、この効果は、まだ非常に重要です私たちはしばしば語られています。モデルの後に線形モデルを使用するには、だけでなく、残差平方和F検定かどうかによって残留ガウス、静止した、独立した無関係を確認してください。これらのモデルの診断は、多くの場合、適合モデルが拒否された美貌の多くを作ります。診断モデルは、感覚のアプリケーションの価値を持つ完全なリターンを作る、登場しました。すると、出てくる分散分析に続いて、非数値引数のようなタイプに戻り、また登場。線形モデル理論はすぐに他の科学は、幅広い用途を持つようになった中で形成し始めました。彼らのモデルを楽しむ傾向にあり、これらの経済学者は、実際には、それは単純な線形モデルに過ぎません。

多分エピソードを行う必要があり、ここに述べました。フィッシャーはこの人は人の極端に戻るに最初にすることができますと言いました。これは、彼が設立誰が、避けられないようだ「最大尤度を。」しかし、フィッシャーは非常に複雑な文字で、彼はまた、意図的回帰モデルを使用して、公開を誤解した最初の。たばこ会社、フィッシャーがあることを証明するために、統計的研究行っているためにお金を払うがあり、「喫煙は健康に良いですが。」フィッシャーの結果は実際にそれをやりました!この歴史的イベント、人々に警告し、回帰モデルでも比較的良好な自己診断機能を持つが、誤った結果を取得することも可能です。統計的観点からは、それが深刻なバイアスされています!外れ値の影響は、この特異値を受け、多くのこのようなサンプル・データ自体が偏っている、または人が故意に大量のデータを捨てるなどの偏差の理由、または回帰モデルがあります。しかし、いずれにせよ、人はそうで数値安定性のモデルの解、モデルの堅牢性とを含め、より多くの思考を返すようになりました。

その後、それは大きな発展の時代の到来を告げるに戻ります。私は、19世紀後半に遭遇した二つの問題を返し、前述のリコールするかどうかわかりません。まず、問題のリターンの理論的なサポートに関しては、私たちはより良いソリューションとなっています。しかし、機能の選択に関して第二は、この時間はもっとトリッキー、回帰モデルパラメータ。十分に単純な線形回帰直線は、自然の中でそれらの非直線トレンドを説明します。その結果、人々はまた、このような元の変数を変換すると対数関数を使用し始め、多項式回帰、直交多項式回帰を試みるようになりました。

回帰は無関心ではありません、この経済学者、医学者に熱心ものを除き、連絡先データを検索する手段を提供します。回帰モデルを使用したワクチン医師の抗菌効果を分析します。もちろん、これは多くの場合、テストを発生し、マウスが苦しむするものがあります。しかし、医師頭痛を残して、それが回帰モデルの説明力です。リニア無制限マウスが感染し、死亡した後、ワクチンを受けたが、回帰モデルはイエスを取得する場合は、この値は唯一、0と1の間の死亡率に存在する最も懸念医療科学者。引数は少し変更されている場合は、そのようなワクチンの有効性を高めるためには、関数値を倍増し、つまり、死亡率は、この範囲を破る可能性が非常に高いです!しかし、実際には、真のが、死亡率は、それをゼロに近いです。すなわち、不合理である死亡率の調査では、「線形独立変数が直線的に変化従属変数につながるの変更」の線形モデルです。その後、ロジスティック回帰の出現は、この問題を解決します。実際には、ロジスティック回帰は、単に一般化線形モデルへのプレリュードが表示されています。この40年間の1930から1970年には、人々は、ロジスティック回帰、対数線形モデルと同様の生存データのためのCox比例ハザードモデルを見つけます。これらのモデルの特性、線形モデルの特性は線形構造を使用することを含むが、分布関数を仮定ならびに所望関数変換の両方のための異なる条件されます。最後に、1972年に、ネルダーは線形モデルの飛躍を達成するために、クラスによって表される、指数関数的に家族と一緒に一般化線形モデルを提案しました。

線形モデルは、現実的な問題を解決することはできませんので、しかし、同様の飛躍が楽しみまた、異なる方向に各飛躍が登場しました。一般化線形モデルの登場は、回帰の(有界、ディスクリート、数値以外のカテゴリなど)制限された応答変数を解決することを目的とする場合は、ガウス分布の仮定はもはや従属変数に適用されず、そのノンパラメトリック回帰があるため、それが表示されますパラメータモデルは、データから挑戦されました。

科学技術の進歩、第二次世界大戦後のコンピュータの出現により、特に、数値的能力が効果的に改善されました。DNAマイクロ生物学、航空宇宙、画像処理と急速な発展の両方の他の代表として、第二次世界大戦、第三の技術革新の形成後。この時間の量は、人類がデータの爆発的な成長からの挑戦を受けた......信号処理、信号伝送の高密度、大規模データの形成には、回帰モデルは、非常に大きな課題を提示しています。この時間は、問題がないことをガウス分布の仮定が、大量のデータの誤りが、とても濃密なので、独特の形状を配布し、あなたはノイズ除去解除するために回帰パラメータの機能のいくつかの種類を見つけたい、それは不可能です。その後、1960年頃には、ノンパラメトリック回帰が発生しました、それは特定の関数形式を負うものではありませんが、そのような平均値(移動平均)、カーネル推定(推定核を)移動などの基本的な「局所構造方法」、の選択、ローカル回帰直線(局所線形回帰)など、その後のデータは関数が何を教えてみましょうように見えます!これは公平な見積もり、一貫性と一貫性の完全な理論を保証ので、これは、非常に魅力的なことを意味します!クロスバリデーション近隣のサイズを選択する場合、得られたデータの関数近似が非常に良好です。

しかし、その後、それは多くの地元の近所が保証される際に局所近傍に基づいて、この推定法が唯一の不偏推定値なぜなら、唯一の時点では、データの種類「の集中的な、多数」のようなものを解決することができることが判明しました。また、これは、カーネル推定の使用を制限する目的です。それは線形モデルの近似理論効果よりも優れているが、一方で、データ内の実際的な問題は、常に要件を満たしていません。時間が非常にまばらな観測データである場合には、カーネル推定の使用は、小さい近傍の各点が自分以外のポイントを見つけることができない場合、カーネル推定は、ほぼ補間機能を得ました!これはひどいです!あなたはノンパラメトリック回帰を学ぶ後、これのすべては非常に柔軟であるように思われる、私を含め多くの人々は、完璧なリターンは非常に感銘を意味し、なぜ多くのケーススタディを不思議に思ったが、カーネルをしない、我々はリターン・パラメータで行うことを求めています。今日は唯一理解したいです。パラメトリック回帰と比較すると、データ用のカーネル推定食欲を使用すると、データの十分な数を提供することができない場合、カーネルはまた、ああ「わらせずにレンガを作る」、非常に大きいです!

そして、地理学者は、回帰モデルを使用し始めています。地理は、大規模な問題だけでなく、3次元の問題であり、これらの2つの問題は、データのスパース(スパース)を引き起こしてきた。しかし、カーネル法は成功しません。:この問題を解決するために、人々は二つの問題を解決する必要があります

。最初は、データがどのように、よりまばらなノンパラメトリック回帰のために

第二、どのように高次元の問題が解決されます。

スプライン回帰、最初の質問は、よりよい解決策を得るためになるように。1963年、ミュンヘンの教授工科大学では、ドイツは最小二乗とキュービックスプライン関数ペナルティ唯一のソリューションを証明しました。だから、スプラインを平滑化、回帰領域が輝くスターになります。賢いは、最小二乗罰せされており、この機能は(唯一のスムーズな二次を知っている)どのような形前提としないこと。唯一、少なくとも、正方形間違いなく補間機能を得られるが、この関数の滑らか平滑場合、二次導関数の積分機能をIEが「罰」であった場合、罰せ最小二乗自動的にキュービックスプラインに戻ります機能。滑らかな関数は「罰因子」限られ、そうでない場合は罰によって決定されるペナルティ係数無限、回帰直線が得られた場合には、補間関数です。この巧妙なデザインは、本当に感動します!その後、1984年に、グリーンブリストル大学、シルバーマンは、それぞれ、反復重み付き最小二乗と同等のカーネル上で画期的な新開発と平滑化スプラインように。同時に、米国とカナダ、いくつかの数学者は、また、自然平滑化スプラインの多くを証明しました。応用気象学の問題で地面にスプライン回帰は、非常に広いです。

1981年、アメリカの数学者・フリードマンは、射影追跡モデルを提案し、高次元のノンパラメトリック回帰への攻撃を開始しました。特別なモデル、加法モデルを導出する射影追跡モデル、高次元の回帰の問題を解決するためのツールとなります。その後、1984年- 1989年の間に、HastieおよびTibshirani 2が一般化加法モデルの博士論文を提案し、理論の組み合わせは、新たに線形モデルや添加物のモデル一緒に、ノンパラメトリック回帰を一般化ピーク。

開発回帰理論はそれよりもはるかに多いです。

1991年には、パラメータの数よりも、問題の制約のために、LASSO方法が生まれました。これは、ペナルティ最小二乗問題のクラスです。

1992年には、フランスの数学者は「ウェーブレットのテン講義」の女性はすぐにそれらのノンパラメトリック回帰と時系列分析に、ウェーブレット法を出てくるDaubches。

1996年には、国の外に早い米国では復旦大学からジアンク・ファンは、地元の多項式回帰を提唱しました。この回帰理論は、例えばP-スプラインとして回帰スプライン、上で描画し、思考のBスプラインは、基底関数として多項式関数を使用して、良い結果のリターンを達成しました。

2001年には、ドイツのアルネKovacのブリストル大学、デビッド・エッセン大学は、タウト文字列回帰を発表しました。これは、最小二乗献上機能を使用してスプライン回帰平滑化、ペナルティ項の平滑性は、回帰関数の区分的な定数関数で、その結果、全変動のペナルティを置換する描きます。この関数は、画像ノイズ除去に滑らかが、制御量のための非常に良い極値機能を有し、かつ効果的に(オーバーフィッティング)を過剰適合を回避することができ、信号処理は表示されませんが武器です。

統計的推論への新しいアプローチを提供するため、モンテカルロ法とベイズは、もちろん、また、回帰モデルを解決するための新しいアイデアを提供しています。実際には、システムの一つのタイプが結ばれた値と小さなサンプルデータの問題のための回帰モデルを作り、ベイズ階層モデルと呼ばれる、良い対策を持っています。

............

これまでのところ、我々は一緒に旅を探求する回帰分析の期間を完了しました。しかし、我々はまだ氷山の一角を参照してください。しかし、このハエや旅行だけでなく、手がかりのリターンを理解することを願っています。もちろん、これは私個人のための新しい経験のリターンがあります。私が学んだとおり要約MRESは、それを上演します。戻り、私の博士課程の研究は、私の修士論文の主題である、それは私がいつもに興味を持ってきた地域です。知識集約型研修のMRES、このような高度なことで、私はまだすぐに、時には理解のエラーにこの知識を消化することはできません。私はまた、追加的なケーススタディを通して彼らの将来は、にそれらのモデルをテストハンズオン正確にどのような影響を与えるかを学んだことを願っています。ブルガリアDelyanでの私の友人の博士号としてそれを置く:あなたは統計学者です!

おすすめ

転載: www.cnblogs.com/lzhu/p/11745421.html