実践的な練習に取って代わる理論はありません。
教科書やコースは、教材が目の前にあるため、自分が習熟していると思い込ませる可能性があります。でも実際に塗ってみると、見た目以上に難しいかも。一方、プロジェクトは、興味深いトピックを探求する機会を与えながら、適用される ML スキルをすばやく向上させるのに役立ちます。
さらに、プロジェクトをポートフォリオに追加できるため、仕事に就いたり、魅力的なキャリアの機会を見つけたり、より良い給与を交渉したりすることが容易になります.
この投稿では、初心者向けの興味深い機械学習プロジェクトを 8 つ紹介します。これらのいずれかを週末に仕上げることも、気に入った場合はより長いプロジェクトに拡張することもできます。
1.機械学習グラディエーター
私たちは親しみを込めて「機械学習グラディエーター」と呼んでいますが、これは新しいものではありません。これは、機械学習に関する実践的な直感を構築するための最速の方法の 1 つです。
目標は、すぐに使用できるモデルを取得して、さまざまなデータセットに適用することです。このプロジェクトが優れている理由は主に 3 つあります。
まず、問題に対するモデルの適合性について直感を養います。欠損データに対してロバストなモデルはどれですか? カテゴリ機能でうまく機能するのはどのモデルですか? はい、教科書をめくって答えを見つけることはできますが、そうすることでよりよく学ぶことができます.
第二に、このプロジェクトではラピッド プロトタイピングの貴重なスキルを習得できます。現実の世界では、単純に試してみなければ、どのモデルが最もパフォーマンスが優れているかを判断するのは難しいことがよくあります。
最後に、この演習は、モデル構築のワークフローを習得するのに役立ちます。たとえば、あなたは練習を始めます...
データのインポート
きれいなデータ
トレーニング/テストまたはクロスバリデーション セットに分割する
前処理
変身
特徴エンジニアリング
すぐに使用できるモデルを使用するため、これらの重要なステップを磨くことに集中することができます。
手順については、sklearn (Python) またはキャレット (R) のドキュメント ページを参照してください。回帰、分類、およびクラスタリングのアルゴリズムを練習する必要があります。
チュートリアル
• Python: sklearn – sklearn パッケージの公式チュートリアル
• Scikit-Learn を使用してワインの品質を予測する- 機械学習モデルをトレーニングするためのステップバイステップのチュートリアル
• R: caret – caret パッケージの作成者によるウェビナー
情報元
• UCI Machine Learning Repository – ほぼすべてのトピックをカバーする 350 以上の検索可能なデータセット。興味のあるデータセットがきっと見つかります。
• Kaggle データセット– Kaggle コミュニティによってアップロードされた 100 以上のデータセット。ここには、ポケモンゴーのスポーン場所やサンディエゴのブリトーなど、非常に興味深いデータセットがいくつかあります。
• data.gov – 米国政府によって公開されたオープン データセット。社会科学に興味のある方はぜひご覧ください。
2. マネーボールで遊ぶ
Moneyball では、オークランド A の選手スカウトを分析することによって野球に革命を起こしました。彼らは、ヤンキースのような大きな市場のチームが支払う給与の 3 分の 1 を使いながら、競争力のあるチームを構築しました。
まず、本を読んでいない人はぜひ読んでみてください。これは私たちのお気に入りの 1 つです。
幸いなことに、スポーツの世界には、自由に使える豊富なデータがあります。チーム、ゲーム、スコア、選手の統計はすべてオンラインで追跡され、無料で利用できます。
初心者向けの興味深い機械学習プロジェクトがたくさんあります。たとえば、次のことを試すことができます...
• スポーツ賭博...各新しいゲームの前に利用可能なデータに基づいて、ボックス スコアを予測します。
• タレント スカウティング... 大学の統計を使用して、どの選手が最高のキャリアを積むかを予測します。
• 一般的な管理... バランスの取れたチームを構築するために、強みに基づいてプレーヤーのクラスターを作成します。
スポーツは、データの視覚化と探索的分析を実践するための優れた分野でもあります。これらのスキルを使用して、分析に含めるデータの種類を決定できます。
情報元
• スポーツ統計データベース – 多くのプロ スポーツと一部の大学スポーツをカバーするスポーツ統計と履歴データ。すっきりとしたインターフェースにより、Web スクレイピングが容易になります。
• Sports Reference – 別のスポーツ統計データベース。インターフェイスはより雑然としていますが、個々のテーブルを CSV ファイルとしてエクスポートできます。
• cricsheet.org – 国際および IPL クリケットの試合のボールごとの統計。IPLおよびT20国際試合のCSVファイルが利用可能です。
3. 株価を予測する
金融に関心のあるデータ サイエンティストにとって、株式市場はお菓子の国のようなものです。
まず、選択できるデータの種類がいくつかあります。価格、ファンダメンタルズ、グローバル マクロ経済指標、ボラティリティ インデックスなどを見つけることができます...リストは続きます。
2 つ目は、データが非常に細かくなる可能性があることです。各企業の 1 日 (または 1 分単位) の時系列データを簡単に取得できるため、トレーディング戦略について創造的に考えることができます。
最後に、金融市場のフィードバック サイクルは一般的に短いです。したがって、新しいデータに対する予測をすばやく検証できます。
試すことができる初心者向けの機械学習プロジェクトの例には、次のようなものがあります。
• 定量的価値投資… 四半期ごとに報告される企業のファンダメンタルズに基づいて、6 か月間の価格行動を予測します。
• 予測... イン プライド ボラティリティとリアライズド ボラティリティの差について、時系列モデル、またはリカレント ニューラル ネットワークを構築します。
• 統計的アービトラージ... 値動きやその他の要因に基づいて類似株を見つけ、価格が発散する期間を探します。
明らかな免責事項: 機械学習を実践するための取引モデルの構築は簡単です。それらを収益化することは非常に困難です。ここには金銭的なアドバイスはなく、リアルマネーでの取引はお勧めしません。
チュートリアル
• Python: sklearn for Investing – 投資への機械学習の適用に関する YouTube ビデオ シリーズ。
• R: R を使用したクオンツ トレーディング – R を使用したクオンツ ファイナンスに関する詳細なレクチャー ノート。
情報元
• Quandl – 無料 (およびプレミアム) の金融および経済データのデータ マーケットプレイス。たとえば、3,000 を超える米国企業の 1 日の終わりの株価や、連邦準備制度からの経済データを一括ダウンロードできます。
• Quantopian – トレーディング アルゴリズムを開発するための無料のプラットフォームを提供するクオンツ ファイナンス コミュニティ。データセットを含めます。
• US Fundamentals Archive – 5000 社以上の米国企業に関する 5 年間のファンダメンタルズ データ。
4.ニューラル ネットワークに手書き文字の読み方を教える
ニューラル ネットワークとディープ ラーニングは、最新の人工知能の 2 つのサクセス ストーリーです。それらは、画像認識、自動テキスト生成、さらには自動運転車の大幅な進歩につながりました。
このエキサイティングな分野に足を踏み入れるには、扱いやすいデータセットから始める必要があります。
MNIST 手書き数字分類チャレンジは、古典的なエントリ ポイントです。一般に、画像データは「フラットな」リレーショナル データよりも処理が困難です。MNIST データは初心者にやさしく、1 台のコンピューターに収まるほど小さいです。
手書き認識は難題ですが、高い計算能力は必要ありません。
開始するには、以下のチュートリアルの最初の章を使用することをお勧めします。ニューラル ネットワークをゼロから構築して MNIST の課題を高い精度で解決する方法を説明します。
チュートリアル
• Neural Networks and Deep Learning (オンライン ブック) - 第 1 章では、MNIST から数字を分類するために Python でゼロからニューラル ネットワークを作成する方法について説明します。著者は、ニューラル ネットワークの背後にある直感についても適切に説明しています。
情報元
• MNIST – MNIST は、国立標準技術研究所によって収集された 2 つのデータセットの修正サブセットです。手書き数字のラベル付き画像が 70,000 枚含まれています。
5. エンロンを調査する
エンロンのスキャンダルと倒産は、史上最大の企業倒産の 1 つでした。
2000 年、エンロンは米国最大のエネルギー企業の 1 つになりました。その後、詐欺が発覚してから 1 年以内に倒産に追い込まれました。
幸いなことに、エンロンの電子メール データベースがあります。エンロンの元従業員 150 人、主に上級管理職の間で交わされた 500,000 通の電子メールが含まれていました。また、実際の電子メールの唯一の大規模な公開データベースであるため、さらに価値があります。
実際、データ サイエンティストはこのデータセットを教育と研究に何年も使用してきました。
試すことができる初心者の機械学習プロジェクトの例には、次のようなものがあります…
• 異常検出... 時間ごとに送受信された電子メールの分布をグラフ化し、公開スキャンダルにつながる異常な動作を検出しようとします。
• ソーシャル ネットワーク分析... 従業員間のネットワークをモデル化して、重要なインフルエンサーを見つけます。
• 自然言語処理...電子メールのメタデータと併せて本文メッセージを分析し、目的に基づいて電子メールを分類します。
情報元
• Enron 電子メール データセット – CMU がホストする Enron 電子メール アーカイブです。
• Enron Data Description (PDF) – Enron の電子メール データの探索的分析で、根拠を得るのに役立ちます。
6.ゼロからMLアルゴリズムを書く
機械学習アルゴリズムをゼロから作成することは、主に 2 つの理由から優れた学習ツールです。
第一に、彼らのメカニズムを真に理解するには、これ以上の方法はありません。すべてのステップを考慮する必要があり、それが真のマスターにつながります。
次に、数学的な指示を実際のコードに変換する方法を学びます。このスキルは、学術研究のアルゴリズムを適応させるときに必要になります。
複雑でないアルゴリズムを選択することをお勧めします。最も単純なアルゴリズムでも、多くの繊細な決定を下す必要があります。簡単なアルゴリズムの作成に慣れたら、それらを拡張して機能を増やしてみてください。たとえば、正則化パラメーターを追加して、通常のロジスティック回帰アルゴリズムをなげなわ/リッジ回帰に拡張してみてください。
最後に、すべての初心者が知っておくべきヒントを次に示します。自分のアルゴリズムが既存のパッケージのアルゴリズムほど高速でも派手でもないからといって落胆しないでください。これらのパッケージは、長年の開発の成果です!
チュートリアル
• Python: ゼロからのロジスティック回帰
• Python: ゼロベースの k 最近傍
• R: ゼロからのロジスティック回帰
7. ソーシャルメディアのセンチメントのマイニング
ソーシャル メディアは、膨大な量のユーザー生成コンテンツにより、「ビッグ データ」とほぼ同義語になりました。
この豊富なデータをマイニングすることで、これまでにない方法で意見、傾向、世論を捉えることができます。Facebook、Twitter、YouTube、WeChat、WhatsApp、Reddit...リストは続きます。
さらに、各世代は、前世代よりも多くの時間をソーシャル メディアに費やしています。これは、ソーシャル メディア データが、マーケティング、ブランディング、ビジネス全体にとってより関連性が高くなることを意味します。
多くの人気のあるソーシャル メディア プラットフォームがありますが、Twitter は機械学習を実践するための古典的なエントリ ポイントです。
Twitter データを使用すると、データ (ツイート コンテンツ) とメタデータ (場所、ハッシュタグ、ユーザー、リツイートなど) の興味深い組み合わせが得られ、ほぼ無限の分析手段が開かれます。
チュートリアル
• Python: Twitter データのマイニング - Twitter データでセンチメント分析を行う方法
• R: 機械学習を使用した感情分析 - 短くて甘い感情分析のチュートリアル
情報元
• Twitter API – Twitter API は、ストリーミング データの古典的なソースです。ツイート、ハッシュタグなどを追跡できます。
• StockTwits API – StockTwits は、トレーダーや投資家にとっての Twitter のようなものです。タイムスタンプとティッカーを使用して時系列データセットに結合することにより、このデータセットを多くの興味深い方法で拡張できます。
8. ヘルスケアの改善
機械学習によって急速に変化しているもう 1 つの業界は、グローバルな健康とヘルスケアです。
ほとんどの国では、医師になるには何年もの教育が必要です。これは、長時間労働、高い賭け金、参入障壁の高い要求の厳しい分野です。
そのため、機械学習の助けを借りて、医師の作業負荷を軽減し、医療システムの全体的な効率を改善するための最近の主要な取り組みが行われています。
ユースケースは次のとおりです。
• 予防的ケア... 個人およびコミュニティ レベルでの病気の発生を予測します。
• Diagnostic Care... スキャン、X 線などの画像データを自動的に分類します。
• 保険...公開されているリスク要因に基づいて保険料を調整します。
病院が患者記録の最新化を続け、より詳細な健康データを収集するにつれて、データ サイエンティストが違いを生む簡単な機会がたくさんあります。
チュートリアル
• R: 疾患予測のための有意義な機械学習モデルの構築
• ヘルスケアにおける機械学習 - Microsoft Research の優れた講演
情報元
• 大規模な健康データセット – 大規模な健康関連データセットのコレクション
• data.gov/health – 米国政府が提供する健康およびヘルスケア関連のデータ セットのコレクション。
• 健康栄養と人口統計 – 世界銀行からの世界の健康、栄養、人口統計データ。
⬇️「原文を読む」をクリック
無料データ分析トレーニングキャンプに申し込む