初年度午前12時の機械学習エンジニアの経験

トップ「をクリックしてAI適切な方法」、「スター」公開番号を選択します

ヘビー乾燥品は、最初の時間をお楽しみいただけます640?wx_fmt = JPEG

人工知能、ビッグデータと深い学習(:datayx IDを)|これは切り替え

広範な科学用語の機械学習とデータがあり、彼らは同様に、物事にデータサイエンティストを行うことは、他とは大きく異なる可能性が、機械学習技術者を複数の領域とスーパー知識を必要とします。多くの場合、理解したり、将来的に(モデルを構築すること)を予測するために、過去(のデータ)で使用されます。

ただ文脈に言及した上記の点に、私は何を私の役割はいを説明する必要があります。私は小さな機械学習のコンサルティングチームに滞在していました。私たちは、きれいにモデルを構築するために、データ収集からそれをやったし、その後、あなたは多くの産業のサービス展開を考えることができます。チームは小さいので、そのすべての人は、タイトルをたくさん持っています。

機械学習エンジニアルーチン:

朝の九時には、私は私の机の前に歩いて、コーヒーのカップを注ぎ、冷蔵庫で食品、オフィスに歩いて、私の同僚に挨拶します。それから私は読んで、オープンスラック、前日のノートを見て、座って、未読メッセージはので、いくつかの最先端のものを見て、この分野の急速な発展ので、記事に記事やブログのリンクを共有するチームのために開きます。

私は通常、未読メッセージを読んだ後、それは記事やブログ記事を参照して、慎重に理解することは困難それらの内容を検討するためにいくつかの時間がかかります。これを言わなければならない、私がやっているに大きな助けのいくつかの要素があります。一般的に言えば、読書は記事自体に依存し、時間以上について私かかります。なぜこれほど長い間、いくつかの友人が私に尋ねるだろうか?

読書スキル究極の元で、私には思えます。かつて私は現在、何を達成するために良い方法があるので、私はすぐに多くの時間と労力を節約するために学習することによって、それを使用します。しかし、特別な事情が近づいて、プロジェクトの期限がある場合は、その後、私はプロジェクトを進めるために読書の時間を短縮します、があります。

読み取りが完了した後、私は、前の日の仕事をチェックし、私のメモ帳をチェックアウトし、私はどこから作業を開始する必要がある場合は、なぜ私はこれを行うことができます参照してくださいでしょうか?私のメモ帳には、アカウントの種類の日記を実行しているので。

例:「正しい形式にデータを処理するために、あなたは今、訓練モデルのデータを必要としています。」私は仕事の過程で問題が発生した場合、それはこのようなものを書き留めます:「状況は、データが一致しない発生し、その後、私は意志ミックスと一致するものを修復しようと、新しいモデルを試す前に、ベースラインを取得します。

:時間16時について私はおそらくに関連する私のコードを、片付けるよ組み合わせて、コメントを追加し、コードが明確になるの混乱を作ります。これはなぜでしょうか?:この質問は、私はしばしば自問ので、他の人がこれを行う方法を理解していない場合は?私はこのコードを読み取るために持っている場合は、私が最も何が必要なのでしょうか?このような考え方で、私はそれがコードを整理するためにいくつかの時間がかかり、特に有意義になりだと思います。17時00分ごろ、私のコードはGitHubのにアップロードする必要があります。

これは理想的な一日ですが、毎日が真ではありません。時には、あなたは午後04時で優れたアイデアを持っているだろうし、それに従って、一晩があるかもしれません。

今、あなたはそれの機械学習技術者の日ルーチンの一般的な理解を持っている必要があり、その後、私はあなたと共有する経験を得るでしょう。

1.すべてのデータを開いたり閉じ

多くの場合、機械学習、エンジニアはそのデータを構築改善ではなく、より良いモデルの構築に注力していきます。あなたが作るために十分なコンピューティングパワーに置くことができますが、刺激的なモデルは、短期的な結果を提供しますが、それは常に望ましい目標ではありません。

プロジェクトとあなた最初の接触は、身近なデータになるために多くの時間を費やす必要がある場合。長い目で見れば、将来的にはこれらのデータに慣れているので、あなたに多くの時間を節約します。

これは、あなたが任意の新しいデータセットの詳細から始めるべきではないという意味ではありません、あなたの目標は、この地域にあるようにする必要があります「専門家」。彼らは外れ値、および問題のように、この種である理由の特徴、外れ値、さまざまな種類のを見つけるために、分布を調べます。あなたはこれらの現在のデータの物語を伝えることができない場合は、どのモデルより優れたプロセスデータ、それ作るには?

640?wx_fmt =その他

ライフサイクルの探索データ解析の例(それは新しいデータセットの動作に遭遇するたびに実行されます)。探索的データ解析についての詳細。

2.通信は、技術的な問題を解決するよりも困難です

私は障害物のほとんどは技術的ではありません会ったのではなく、コミュニケーションの問題に関連しています。もちろん、それらの技術的な課題があるが、技術的な問題を解決するために、エンジニアとしての私たちの仕事です。

しかし、内部および外部のコミュニケーションの重要性を過小評価することはありません。技術的な課題を解決するために間違っているので、技術選択の誤りよりも悪いものは、ありません。何が最終的にこのような状況をどうなりますか?東と私たちの間にミスマッチが、クライアントが求めて提供することができますので、外からは、これがあります。多くの人々は、多くの帽子を着用しているため内部には、誰もが一つのこと全身に集中できることを保証することは困難です。

これらの問題に直面したとき、最終的にどのように解決するには?

外部の問題については、我々は顧客とのコミュニケーションを継続することができます。あなたの顧客はあなたが提供できるサービスを理解していますか?あなたは、あなたの顧客のニーズを知っていますか?彼らは、機械学習を提供できるものと、それは提供できないものを理解していますか?どのように我々はより効果的にあなたのアイデアを伝えることができますか?

:内部の問題について、あなたはどのようにハードの内部通信を決定するための問題解決ツールの数に基づいて、当社のソフトウェアを使用することができますマイクロソフトチームでアサナ、Jiraの、Trello、スラック、ベースキャンプ、月曜日にカタログが、あります。私が見つけた最も効果的な方法の1つは、関連するプロジェクトのチャネルに一日の終わりに、簡単なメッセージの更新です。

これは完璧なのですか?いいえ、それは効果的なようです。それは私がやったことを反省する機会を与えた、と私は支援を必要とする人何の仕事を教えてくれ、さらにはそこに誰からアドバイスを取得するつもりです。どんなにあなたがエンジニアどのように良い、維持し、新たなビジネススキルを得るためにあなたの能力を通信するあなたの能力に関係していません。

3.安定性>最も先進的な技術

自然言語の質問が用意されました:テキストは、目標は、ユーザーがサービスにテキストを送信し、自動的に2つのカテゴリのいずれかに分類することができるようにすることです、異なるカテゴリーに分類されます。予測モデルには自信がない場合は、人間の分類器、およそ1000-3000要求の日々の負荷に渡されたテキストを残します。

BERTは、昨年にかかわらず、火事です。我々はそれを解決したい問題を解決するためのBERTトレーニングモデルとグーグルの規模には何の計算は、存在しない場合、生産に入る前に、私たちは、コンテンツの多くを変更する必要があるためしかし、まだ非常に複雑です。代わりに、我々はそれが最も先進的ではないが、別の方法ULMFiTを使用しますが、まだ満足のいく結果を得ること、そして使いやすいです。

4.初心者のための最も一般的なマシンが2つのピットを学びます

:機械学習は、二つのピットがありますが、実際の生産に適用まず、コースワークからのギャップが仕事を投影する、第二は、ノートブックモデルから生産モデル(モデルの展開)の間のギャップにあります。

私はAIの彼の修士号を完了するために、インターネット上の機械学習コースを学んでいます。私は機械エンジニアとして学び始めたときしかし、たとえ最高のコースの多くが完了した後、私は自分のスキルがメインコースの構造に基づいていることがわかったが、プロジェクトは同様に組織化カリキュラムではなかったです。

:私のような、特定の知識の多くは、コースで学んだことはできません欠けているものを使用データ探査データ、どのようなデータとを疑問視する方法。

このためにそれを補償する方法は?私はオーストラリアで最高の人材であることが幸運だったが、私は学ぶために喜んでと間違ってしても構わないと思っています。もちろん、エラーが目標ではありませんが、右に、あなたは間違っているかを把握する必要があります。

あなたがコースを機械学習を学習している場合は、このコースを続けていますが、コースの欠陥を作る、自分のプロジェクトを通じて学んでいるものを学ぶ必要があります。

展開する方法については?この時点で、私はまだ非常に良いありません。幸い、私はトレンドに気づいた:工学とソフトウェア工学の機械学習が収束しています。セルドン、KubeflowとKubernetesようなサービスなどによって、機械学習とすぐには、スタックの他の一部となります。Jupyterでモデルを構築する非常に簡単ですが、どのように何千人を作るために、あるいは何百万人もの人々のは、このモデルを使うのか?これは、機械学習技術者が価値を創造するために機械学習の前提である、物事を考えるべきです。しかし、ビューのクラウドネイティブ活動ポイントに関する最近の議論によると、大企業外の人々はどのように行うのか分かりません。

時間の5.20パーセント

私たちの時間の20%が学習に費やされていることを意味時間の20%。客観的な意味は、学習は機械学習は、学習領域に組み込まれて大幅に生産性を向上させることができ、ビジネスを、機械エンジニアとして学習、学習を継続理解するために事業を関連させることができる限りについて、緩やかな用語です。

あなたのビジネスの利点は、あなたが最善を尽くしているということであれば、ビジネスの未来はあなたに依存し、その後、継続的な学習を意味し、あなたがベストを尽くす何をしておきます。

6.読む価値が非常に論文の一つが、あまり

これは大まかな指標です。あなたが任意のデータ収集やモデルを探るしかし、あなたはすぐにこの法律が普遍的であることがわかります。言い換えれば、提出の毎年数千人が、あなたは10本の画期的な論文を得ることができます。この10独創論文では、研究所または同一個体からの可能な5つがあります。

あなたはすべての新しい突破口に追いつくことはできませんが、彼らは、これらの基本原則は、強固な基盤の基本原則の適用に時間の試練に耐えてきました。

次の探査と開発の問題があります。

7.あなた自身の最悪の懐疑なります

探査と開発の問題新しいことに挑戦し、物事の役割間のハードの選択をプレイしている、あなたは彼の最大の懐疑論者になることによって、これらの問題に対処することができることです。常に持って来ることができますどのようなメリットこれらの古いものを置き換えることを選択し、自分自身に問いますか?

開発一般的には、実行モデルが使用されていて、新しいベンチマークとしてチームに報告することができ、高精度なデジタルを得ることは容易です。あなたは良い結果を得る場合でも、もう一度同じことを行うためにあなたの仕事、そしてあなたのチームをチェックすることを忘れないでください。あなたはエンジニアなので、あなたはこの意識を持っている必要があります。

探ります探索に費やした時間の20%が良い決定であるが、それは70/20/10であれば、それは良いかもしれません。つまり、これらの事はすぐに動作しない場合がありますが、あなたは、(物事の将来の使用)に10%のmoonshotsを費やし、コア製品の二次開発に20%を費やして、コア製品に時間の70%を費やす必要があることを意味します。それは非常に恥じていることを、私は実際にこの役割を決して持っていないが、これは、この方向での私の前向きな進展です。

8.「玩具問題」に非常に有用

玩具の問題は、特に複雑な問題を解決するために、あなたは多くの問題を理解するのに役立ちます。まず、最初に簡単な質問を作成し、それはごく一部の設定データや無関係なデータについてである可能性があります。この問題の解決策を見つけて、彼にデータセット全体を拡張します。少人数のチームでは、トリックは抽象的な問題の問題に対処することで、その後、解決する方法を考え出しました。

9.ラバーダック

あなたは問題がある場合は、座って、コードを凝視し、問題を解決することが、ないかもしれません。あなたは彼らがあなたのゴム製のアヒルのふり、約同僚と議論する場合は、この時点では、問題は簡単に解決することができます。

「ロンは、私は、配列を横断しようとしている、と他の自転車とトラックのステータスの配列を通じ、私はタプルのリストにこれらの状態の組み合わせを考えます。

「ループループは?なぜあなたはそれをベクトル入れていない?「ことができます私はそれを行う?「のは、してみましょうバーの下にしてみてください。

10. 0構築物からのモデル番号が減少しています

この機械学習技術やソフトウェアエンジニアリングは、関連収束しています。

あなたのデータは非常に具体的な問題の多くにそれ以外の場合は非常に同様の問題、分類、回帰、時系列予測されていない限り、それが推奨されます。

GoogleとMicrosoftの他のサービスはAutoMLは、それぞれのデータセットをアップロードし、ターゲット変数は、世界クラスの機械学習を提供選ぶことができます。ライブラリなどの開発者のためにfast.aiを持って、彼らは同じTensorFlowを提供するために、そのようなPyTorchハブやハブなど数行のコードで最も先進的なモデルで、様々なモデルやアニメーション(事前に構築されたモデルのセット)を提供することができます機能。

これは、我々は科学的データと機械学習のより深い原則を理解する必要があることを意味し、彼らは唯一、我々は値を作成するために、実用上の問題に適用する方法については心配する必要がありますすることができ、基本的な原則を知っている必要があります。

11.数学やコード?

私が扱う顧客の問題については、我々は最初にすべてのコードであり、すべての科学的データと機械学習のコードはPythonのです。時々私はそれを通じ再現し、数学に巻き込まする論文を読むが、既存のフレームワークのほとんどは、数学が含まれます。これは、すべて、機械学習と深い学習が数学の形で適用された後、その数学は、必要ではないと言うことではありません。

最小マスター行列演算、いくつかの線形代数や微積分、機械学習の実践者であることが十分に特にチェーンルール。

、新しい機械学習アルゴリズムを発明するが、そこに彼らのビジネスを支援するためにクライアントに機械学習の可能性を示すことはないほとんどの時間や実務家のほとんどの目標を忘れないでください。

12.あなたが昨年行った作業は、来年に動作しない場合があります

ソフトウェア工学と機械学習プロジェクトの統合は、この状況は、ますます明らかになってきているので、これは、大きなトレンドです。

それはまた、あなたがこの業界に入る理由は、フレームワークは、便利なライブラリの多様性を変更します変更されますが、基本的な統計、確率、数学しかし、これらの事は同じです。最大の課題は残る:値を作成するためにそれらを適用する方法。

今、どのように行いますか?

機械学習技術者の成長パスにあなたが初心者であれば、まずこの12が十分にある取り組む把握ニーズピットの多くを持っている必要があります!


推奨読書

(読むためにジャンプするタイトルをクリックしてください)

640?wx_fmt = PNG

おすすめ

転載: blog.csdn.net/red_stone1/article/details/102693811