ガベージイン、ガベージアウト!!!

ガベージイン、ガベージアウト!!!

計量経済学に従事する人は誰でもこのアカウントに注意を払います

投稿:[email protected]

すべてのコードプログラム、マクロおよびマイクロデータベース、および計量経済学サークル方法論のさまざまなソフトウェアがコミュニティに配置されています。交換と訪問のための計量経済学サークルコミュニティへようこそ。
ガベージイン、ガベージアウト!!!

数日前、①「実証研究で使用される200の記事、社会科学研究者のためのツールキット」、②実証研究で一般的に使用される50の有名な体験記事、学生が必読のシリーズ、③過去10年間のAERを紹介しました。中国のトピックに関する記事アルバム④AEAは2017-19年に最も注目されたトップ10の研究トピックを発表し、トピック選択の方向性を示します。⑤2020年の中国のトップジャーナルの主要なトピック選択の方向性、これらを書いてください論文。その後、CFPS、CHFS、およびCHNSデータを使用した実証研究のために選択された記事のコレクションを紹介しました。、②これらの40個のマイクロデータベースは、とにかく博士号を取得するのに十分です。これらのライブラリを使用して教授になることができます。③Python、Stata、Rソフトウェアの歴史の中で最も完全なショートカットキーのコレクションです。、④(ファジー)ブレークポイント回帰デザインに関する100の選択された記事アルバム!、⑤二重差分法に関するDIDの32の選択された記事!、⑤合成制御方法に関するSCMの33の選択された記事!すこと中国の国際貿易分野に関する最新の80の論文の編集!⑧中国の環境生態学に関する最近の70の経済論文の編集!⑨CEPS、CHARLS、CGSS、CLHLSデータベースの実証研究を使用した選択された記事のコレクション!⑩実証研究を行うためにシステムGMMを使用して過去50件の論文をまとめました!これらの記事は学者によって歓迎され議論されており、博士課程の監督者はそれらを学生に推薦しています。

注意:リサーチアシスタントのポジションは、国内外の学部生に開放されています。この段階での主な仕事は、最先端の計量経済学情報を翻訳および編集することであり、クラスメートよりも多くの学術的連絡先を得ることができます。次の要件を満たすパートナーは、履歴書をメールボックスに送信できます:[email protected]

要件:中国語と英語の両方で読み書きでき、注意深く厳密に作業し、指定された時間内にプロジェクトを完了することができる能力。

この外国人は、中国のデータを使用して、AER、JPE、RESなどの上位5つの出版物を公開しました。恥ずかしい!

入力はガベージであり、出力もガベージです

翻訳者:中央財経大学経営学部パン・インクン

メールボックス:[email protected]

ゴミの出入りの回避:高品質のデータの重要性

高品質のデータは効果的な分析のための重要な要素です

高品質の分析は多くの要因に依存しますが、その中で最も重要なのは、分析するビジネス上の問題を深く理解することと、分析を実行するための適切なツールと手法を備えた経験豊富で知識豊富なデータ専門家のチームです。

しかし、効果的な分析のために最も重要な要素は高品質のデータです。この3部構成の記事では、高品質のデータとは何か、および分析が可能な限り最良のデータに基づいていることを確認する方法について説明します。基本的に、データ品質は、入力データ、方法論、品質管理の3つの要因に起因する可能性があります。最初の部分では、入力データを調べます。

Part1は入力データを理解する

ことわざにあるように、ごみを入れて、ごみを出してください。高品質の入力データは、信頼できるモデルとデータセットを生成するための基礎です。モデルがどれほど優れていても、モデルの構築と実装に使用される入力データの品質が高くない場合(不完全、古くなっている、偏っている、または不正確)、結果の予測またはデータセットの信頼性はほとんど不可能です。

最近では、データプロバイダーが完璧なデータはないと率直に言っているのを耳にすることがあります。しかし現実には、データはどのように、どこで、いつ、どのオブジェクトから収集されるかに依存し、これらの側面のいずれかがバイアスやエラーの原因となる可能性があります。したがって、分析作業を開始する前に、入力データのソースを理解し、データの真実性を判断することが非常に必要です。

データは、どんなに「新しい」ものであっても、つかの間の「スナップショット」として提示され、それは過去に必然的に発生します。このため、データが収集された時期(精度と頻度)と方法(プロセス)を知ることは、データの「清浄度」を判断するために不可欠であり、研究者が分析の方法と種類を決定するのにも役立ちます。情報に基づいた選択。

入力データの鮮度は、主に現在の状況を反映する能力を決定します。他のすべての条件が等しい場合、5年間使用されるデータは、5分間使用されるデータよりも代表的でない必要があります。さらに、データ収集の頻度も非常に重要です。これは、研究者が使用できるモデルのタイプ、これらのモデルを調整できる頻度、および関連する予測の頻度に影響を与えるためです。研究者として、不変の事実は、私たちが未来を予測するために歴史を使わなければならないということです。私たちの責任は、履歴データが現在を十分に反映できるか、または将来が私たちの仕事であると予測できるかを判断し、必要に応じて調整することです。ここで、研究者のスキル、経験、およびドメイン知識が役立ちます。ほとんどのモデルの構築は非常に簡単であり、本当の課題はデータ結果を賢く使用することです。

入力データを理解するための2番目の重要な部分は、データの収集方法を知ることです。データ収集プロセスには常に欠陥があり、これにより、結果のデータにエラー、外れ値、偏差が生じることがよくあります。多くの場合、研究者は収集方法の欠陥とはほとんど関係がありませんが、これらの欠陥を理解することは重要です。たとえば、調査を通じて収集された購買行動に関するデータは、POS(point of sale)で収集されたデータとは完全に異なります。人々は、彼らがすることは彼らが実際にすることとしばしば非常に異なると言います。したがって、研究者が調査システムとPOSシステムからのデータを処理する方法も完全に異なる必要があります。場合によっては、データ収集の「場所」、「方法」、「時間」、「誰から」によって、使用できるテクノロジーと分析の種類が大幅に制限されます。

データを受け取ったら、それを適用する前に一連のチェックと質問を行います。入力データの評価に役立てるために、チェックした要素の一部と粒度のレベルを下げました
。一意のレコードはいくつありますか。

重複するレコードはいくつありますか?それを繰り返す必要がありますか?

   2.1.数据集中有多少个字段可用,它们是什么数据类型?

a。文字列フィールドの場合、特定の構造にする必要がありますか?たとえば、郵便番号を表す列には6文字が含まれている必要があり、これらの文字は特定の構造を持っている必要があります。
b。必要な形式を満たすレコードはいくつありますか?
c。規定の形式に準拠していないレコードをクリーンアップする方法はありますか?
d。将来の分析では、クリーンアップされたレコードを別の方法で処理する必要がありますか?
2.2。数値変数の場合、範囲、分散、および中心傾向は何ですか?

a。それらは論理的ですか?たとえば、データの99%が0〜100の範囲であるが、データの1%が負であるか、1,000を超える場合、それは意味がありますか?
b。これらの外れ値は本当ですか?データ収集プロセス、データ入力、または処理エラー中に付加価値を付けている人はいますか?
c。外れ値が検出された場合、どのように処理する必要がありますか?それらをすべての分析から除外するか、他の推定値に置き換える必要がありますか?(答えは、外れ値の性質、分析の目的、および使用されるモデルのタイプによって異なります。)
d。変数の集計は意味がありますか?
2.3。カテゴリ変数の場合、すべてのカテゴリが表されていますか?

a。カテゴリは一貫して正しくラベル付けされていますか?
不足している値はありますか?データセット内の特定のセルに空のエントリまたは空白のエントリがありますか?

      3.1.某些记录比其他记录有更多缺失值吗?

      3.2.某些字段比其他字段有更多缺失值吗?

      3.3.如何处理缺失值?是否应将它们排除在分析之外,或由其他估计值取代?(答案取决于分析练习的目的和所使用的模型类型)。

これらのデータはどの程度代表的ですか?

       4.1.数据收集方式是否有已知的偏差?例如,由于在线调查要求参与者能够访问互联网,因此结果无法推广到整个人群。

        4.2.数据中代表了哪些地理位置?

       4.3.数据在多大程度上反映了某个地理区域内人或家庭的相对分布?

        4.4.属性与其他权威数据源的相似属性相比,情况如何?例如,如果客户数据库包含年龄,那么年龄与总人口年龄的匹配程度如何?如果数据中存在已知差距或偏差,是否有足够的信息来纠正这些差距和偏差?

これらの質問に答えることで、研究者は入力データを理解し、データを使用して信頼性の高いデータセットとモデルを構築するための独自の方法を計画し始めることができます。この3部構成の記事では、データ品質を確保する上でメソッドが果たす重要な役割について検討します。

パート2正しいアプローチの重要性は、
データ品質に関する記事の最初の部分にあり、最新性、頻度、およびデータ収集プロセスが、実行できる分析の品質とタイプにどのように影響するかを示しています。この記事では、高品質のデータを作成する際のメソッドの役割と、適切なメソッドを選択する際の要因について説明します。議論にはいくつかの技術的な問題が含まれますが、高品質のデータを作成するプロセスを理解するには、これらの重要な概念を理解する価値があります。
正しい方法を適用することは
、私たちとこの調査にとって不可欠です。「方法」とは、データ製品を構築するために使用するテクノロジーと、カスタムプロジェクトを実行するために使用するテクノロジーを指します。これらのテクノロジーは、単純なルールベースのアルゴリズムから機械学習手法にまで及びます。利用可能なデータの種類、量、信頼性、および適時性によって、使用する方法が大幅に決まります。
方法論を、一方の端にモデルの精度があり、もう一方の端にモデルの一般化があるスペクトルとして考えると役立ちます。精度と一般性の間に直接的なトレードオフはありません。最高のモデルは、高い精度と一般性を同時に備えています。ただし、モデリング手法は、多くの場合、スペクトルの一方の端から始まり、モデルのトレーニング、キャリブレーション、およびテストを通じてスペクトルのもう一方の端に進みます。次の図は、連続体が始まる場所を要約するためのさまざまなモデリング手法を正確に示しています。
ガベージイン、ガベージアウト!!!

図1.メソッドスペクトルと一般的なモデリング手法。
標準データセットの構築またはカスタムプロジェクトの実行に使用する手法を決定するときは、表2に示すように、精度手法と一般的な手法の長所と短所の比較に重点を置きます。
表1.精度と一般性の長所と短所
ガベージイン、ガベージアウト!!!

この表では、データ、メソッド、およびモデルを使用するすべての人にとって重要ないくつかの専門用語を使用しています。相関関係と因果関係から始めましょう。相関は単なる統計指標であり、2つの変数を比較する数式です。相関関係は、2つの変数間に実際の関係が存在することを示すものでも、この関係の性質を示すものでもありません。一方、因果関係は、属性または現象の相互作用を明示的に調べます。
たとえば、オフィスの従業員が1日に何個のジェリービーンズを食べるかを予測しようとすると、1日のソーダの消費量など、特定の変数がジェリービーンズの消費量と高い相関関係があることがわかります。従業員の机からジェリービーンズボウルまでの距離、および労働者がオフィスで過ごす時間数。この場合、簡単に推測できます。炭酸飲料の消費量が多いと、ジェリービーンズの消費量につながります。
ただし、これは不適切な結論になります。ジェリービーンズの消費量と炭酸水は関連していますが、これは間接的な関係です。この場合、ジェリービーンズの消費を促進する要因は、栄養に対する労働者の態度である可能性が高く、ソーダの消費が代替手段です。炭酸飲料をオフィス環境から取り除くと、ジェリービーンズの消費量は減少するのではなく増加する可能性があります。実際、さらなるテストを通じて、ジェリービーンズボウルまでの距離(接触)、オフィスで過ごした時間(露出)、およびジェリービーンズの消費は、重要で直接的な因果関係があると判断できる可能性があります。労働者がジェリービーンズにさらされる量が多いほど、労働者はジェリービーンズにさらされる量が多くなり、労働者はより多くのジェリービーンズを食べるようになります。覚えておいてください:相関関係は因果関係ではありません。
モデリングの手法と方法を評価する場合、理解する必要のある他の用語は、「サンプル外」、「時間外」、および過剰適合です。これらは相互に関連する3つの用語です。モデルを過剰適合として説明する場合、本質的には、モデルが十分に一般化されていないということです。過剰適合モデルは、ランダムノイズをシステムノイズとして扱います。モデルが作成されたデータでテストした場合、過剰適合モデルは非常に良好に機能しました。つまり、いくつかのエラーがありました。ただし、モデルをテストするためにモデルを構築するために使用されるデータではなく、「サンプル外」データと呼ばれる独立したデータを使用する場合。サンプル外と異なるサンプル期間の両方にあるデータは、「期間外」と呼ばれます。サンプルと期間からモデルをテストすることにより、過剰適合を回避し、モデルの真の適合を理解します。
たとえば、図2は、モデルのトレーニングに使用されたデータおよびサンプル外のデータと比較した、モデル予測で得られたエラーを示しています。この図は、2つのことを示しています。1)サンプルの外部に適用した場合、モデルはあまり正確ではありません。2)トレーニングステップ12の後、モデルのパフォーマンスは徐々に低下します。トレーニングステップ12を除いて、モデルは明らかに過剰適合しています。したがって、トレーニングステップ12で生成されたモデルは、サンプル外の検出パフォーマンスが最高であるため、今後の予測をさらに分析または生成するためのモデルである必要があります。
ガベージイン、ガベージアウト!!!

図2.トレーニングデータエラーとサンプル外データエラーを比較すると、モデルは
データセットをオーバーフィットし、予測精度とモデルの一般性のバランスをとろうとします。ほぼすべての地理的レベルと生成する変数のセットで、さまざまなモデリングフレームワークをテストします。データが高い頻度と信頼性で提供される場合、予測精度に重点を置いた手法を賢明に適用します。データの提供頻度が低く、信頼性が低い場合、または長期的な将来を予測する必要がある場合は、十分に一般化されたモデルの構築に重点を置き、相関ではなく因果関係を真に取得するように最善を尽くします。
単一のスケールは、分析モデルとデータセットが作成されるさまざまな状況に普遍的に適用できるわけではありません。モデリング手法は、特定のタイプのデータを使用して、一連の仮定に基づいて特定のタイプの問題を解決するように設計されています。ほとんどのモデリング手法は、さまざまなアプリケーションや入力データ型に適合させることができます。ただし、これは特定の制限内でのみ実行できます。適切な方法を選択するときは、さまざまなモデリング手法の制限と入力データによって課せられる制限を理解することが重要です。
この記事の最初の2つの部分では、入力データとメソッドがデータ品質にどのように大きな影響を与えるかを見てきました。分析なしでは、分析プロジェクトを開始することはできません。次のパートでは、高品質のデータを作成する際の品質管理の役割について説明します。

パート3品質管理は不可欠です。

データ品質に関する記事の第3部では、第3のコンポーネントである品質管理に注目します。
データ品質について説明した前の2つのパートでは、高品質のデータを作成する際の入力データと方法の役割について学習しました。最後の投稿では、3番目のコンポーネントである品質保証(QA)とも呼ばれる品質管理に注目します。品質管理には、モデルとそれが生成するデータの評価が含まれ、そのようなテストは可能な限り頻繁に実行する必要があります。
品質管理を確実にする
品質管理または保証(QA)は、実際には2つの重要な要素に要約できます。信頼できるデータソースとの比較と信頼できる判断です。信頼できるデータを使用すると、特定のモデルのキャリブレーション、テスト結果、および予測精度の評価が非常に簡単になります。これは、モデリングの演習において非常に価値のあるステップです。本質的に、これは統計と機械学習で使用される相互検証手法の拡張です。すべての優れたモデラーは、モデルを構築し、予測を行い、これらの予測の精度を測定し、これに基づいてモデルを最適化します。最終的な最適化ステップをスキップする人は誰もいません。
2番目の要素である判断は、より挑戦的で、やや主観的です。当社の事業では、予測を行ってから予測するための信頼できるデータが得られるまでに、比較的長い期間がかかる場合があります。DemoStatsの場合、精度を評価および測定するには、少なくとも5年待つ必要があります。
私たちはモデル構築に費やすのと同じくらい多くの時間を品質管理に費やしています。データの品質管理を行う際には、経験、ドメイン知識、最善の判断を使用して、データとモデルの信頼性をテストします。コアメソッドをテストするために相互競争を構築することは、品質管理に使用する手段です。このプロセスは通常、いくつかの非常に重要な質問につながります。比較可能な予測はいくつありますか?なぜ、どの予測が異なるのですか?どの予測がより信頼できますか?使用できる2つの予測の間に体系的な違いはありますか?さらに、新しい信頼できるデータが利用可能になったら、コアを変更する必要があるかどうかを判断するために使用するさまざまな方法を比較します
。QAは、データセットを構築してその品質を確保するために不可欠な部分です。QAへの投資は、メソッドとデータセットの改善を継続することを意味します。これはまた、私たちの研究者が満足しないことを意味します。徹底的なQAプロセスがなければ、研究者は、過去に使用された方法とデータソースであるという理由だけで、同じ方法とデータソースを使用するという罠に陥りがちです。どの企業にも最も嫌われているのは、自己満足の研究者です。


この3部構成の記事では、高品質のデータを作成する際の課題について検討します。完璧なデータはなく、入力データの清浄度を判断することが重要であることがますます理解されています。方法論の観点から、単一のスケールはすべての状況に適しているわけではなく、データの性質とその使用方法に基づいて賢明に検討および評価する必要があります。最後に、高品質のデータを作成するには、モデルをできるだけ頻繁にテストおよび評価してから、評価と新しいデータに基づいてモデルを調整する必要があります。ビジネス上の意思決定の質は、その背後にある分析の質に依存し、分析の質はデータの質に依存します。私たちはこの最も基本的な関係を決して忘れません。
出典:https//environicsanalytics.com/en-ca/resources/blogs/ea-blog/2016/05/01/avoiding-garbage-in-garbage-out-the-importance-of-data-quality-part- 1 2月21日を
読ん
で、流行の風情報金融端末操作ガイドCEICデータベースのガイドラインと操作手順を使用して2つのデータベースの学者を参照し、「北京清華SEMソーシャルデータベース何ですか?嫉妬深い憎しみを羨ましがらないでください!」を参照してください。 。2月22日、パネルポアソン回帰、パネル負二項回帰、制御関数法CF、制限付き3次スプラインなどを含む「2つの高次元固定効果を持つ推定ポアソン回帰モデル」が導入されました。2月27日、「ハーバード大学が改訂して完成させた因果推論の古典的傑作を無料でダウンロード!データとコード付き!」と「内因性問題の最も明確な詳細な説明とソフトウェア操作計画!実証研究に不可欠なツール!」を紹介しました。
以前、私たちのサークルは、次のようにいくつかのデータベースを推奨していました(もちろん、コミュニティのデータベースはこれらよりはるかに多いです):1。これらの40のマイクロデータベースは博士号を取得するのに十分です; 2。中国の産業企業データベースは完全に一致しますプログラムと160ステップ対応するデータ; 3。中国の州/県レベルの都市の夜間光データ; 4。1997-2014年の中国の市場化指数の信頼できるバージョン; 5。1998-2016年の中国の県レベルの都市の年間平均PM2.5; 6.経済経済界の経済的および社会的データベースの収集; 7。中国の方言、役人、行政承認および州知事データベースの開設; 8.2005-2015州および産業別の中国のCO2データ; 9。データの進化と現代の問題国際貿易研究; 10。経済研究で一般的に使用される中国のマイクロデータマニュアル。
以下の短いリンクの記事はコレクションに属しています。それらを収集して読むことができます。そうしないと、将来それらを見つけることができなくなります。
2年間で、1,000近くの記事が計量経済学界の公式アカウントに掲載されました。

計量経済学サークル

おすすめ

転載: blog.51cto.com/15057855/2677886