科学研究の再現性の向上: Hewhale は科学向け AI の完全なライフサイクル管理に焦点を当てています

今年 3 月、科学技術省は中国自然科学財団と協力して、科学のためのAI」の特別展開を正式に開始しました。データ駆動型の科学研究は長い間、多くの困難に直面してきましたが、人間の専門家の経験と体力に過度に依存する従来の科学研究ワークフローの限界に対応して、AI4S は、人工知能手法を使用して、計算集約的で効率的なタスクをベースに実行することを目指します科学データコンピューティング能力のサポートに関する科学的探査の反復は、科学研究活動に新たなブレークスルーをもたらします。

しかし、科学研究パラダイムの継続的なアップグレードに伴い、従来のインフラストラクチャは、新興の科学向けAIが必要とするソフトウェアおよびハードウェアのサポートに徐々に対応できなくなりました本稿では、「データ、アルゴリズム、モデルに至る研究対象のワンストップフルプロセス管理」に焦点を当て、人工知能を活用した学術研究支援を目的として、データサイエンス連携プラットフォームModelWhaleをさまざまな分野の研究チームに紹介します。知能。

1. 科学研究への期待と現状

科学研究への期待: プロジェクトは完全なライフサイクルを持つことができます。完了はプロジェクトの終わりではありません。その後の再利用はプロジェクトのライフサイクルの継続です。

実態:「プラットフォーム科学研究」ではなく「ワークショップモデル」ではチームワークが繋がらず、成果の再現効率が低く、プロジェクトのライフサイクルが短い

プロジェクトに完全なライフサイクルを与えるために以前の研究結果を再利用することにおける「再利用」の定義は非常に幅広く、コードの一部だけなど、以前のプロジェクトの「中間結果」を再利用することもできます。モデルや完成イメージなどの「段階的により完全な」「結果」。特定の種類のプロジェクトでは、より合理化され標準化された「研究パラダイム」になることもあります。

同時に、このような「再利用」は、時代や人を超えて行われます。しかし、実際には、プロジェクトの研究成果の体系的な概要管理が欠如しており、プロジェクトチームメンバーの頻繁な入れ替わりにより、以前の研究成果は時間の経過とともに非常に忘れられやすくなっています。再利用が難しいのですが、サポート環境で発見し完全再現しました。たとえ合理的な再利用が長期的には大幅な時間を節約できることに全員が同意したとしても、当面のトラブルを避けるために、ほとんどの関連担当者はプロジェクト中に最初からやり直すことを選択します。

2. 人工知能主導の科学研究の完全なライフサイクル管理

ModelWhale は、データ、アルゴリズムからモデルに至る研究対象のワンストップのフルプロセス管理に重点を置き、インフラストラクチャ レベルから科学研究の再現性を向上させ、組織化された科学研究のための優れたエコシステムの構築を支援します

ゼロから生み出されるプロジェクト

01 マルチソースのデータアクセスと管理

データ駆動型研究の基盤はデータそのものですが、従来のインフラストラクチャ上で展開されるデータ駆動型研究は主にデータ管理に人力に依存しています。ModelWhale を通じて、データセキュリティの確保を前提として、研究者はデータセット、データベース接続、オブジェクトストレージ接続、NAS スペース、アノテーションデータなどのさまざまなタイプのデータソースを作成できるだけでなく、関連するデータソースを実行することもできます。分析、概要、ロゴ、バージョン管理、コメント、配布の共有。ModelWhale が研究者向けに提供するデータ アクセスおよび管理機能は、データ駆動型研究の強固な基盤を築くため、研究者はデータ管理の複雑な基礎作業に時間を無駄にする必要がなくなります。

NAS スペースでデータ アクセス、管理、コラボレーション、分析、その他の操作を実行します。

02 梱包不要ですぐに使える

データの問題が解決されると、プロジェクトは最初から作成されます。プロジェクト作成の最初のステップは、多くの場合、環境をパッケージ化して構築することです。クラウド データ サイエンス コラボレーション プラットフォームとして、ModelWhale は、Notebook インタラクティブ、Canvas ドラッグ アンド ドロップ、CloudIDE の 3 つのクラウド分析環境を提供し、Python や R などのいくつかのプログラミング言語をサポートして、ユーザーのさまざまなプログラミング ニーズや習慣に適応します。研究者; さらに、プラットフォームには、新しいプロジェクトを作成するときに直接選択できる、さまざまな一般的および特定の主題画像が装備されています。すぐに使用できるようになりました - ModelWhale を開いて、何も設定せずにプロジェクト研究を開始できます環境に配慮し、時間と労力を節約します。

新しいノートブックをすばやく作成して調査を開始

さまざまな分野の研究者が使用できる複数の画像を内蔵

03 バージョン管理は非決定的な問題の調査をサポートします

環境を構成したら、データ分析とプログラミング モデリングを開始できます。一般的なプログラミング操作については言うまでもなく、対応する分析インターフェイス、計算能力、イメージを選択するだけで開始できます。なお、データドリブン研究は一般的に不確実な課題の探究に焦点を当てており、新しいテーマに直面した場合、最初はどのような手法や手段で研究目的を達成できるのかが明確でないことが多く、さまざまな試みが必要となります。 。そこで、ここで ModelWhale が提供できる追加機能は、Git ロジック制御ではない、それほど重くないバージョン管理であり、プロジェクトのバージョン比較やセルレベルのバージョンバックトラッキングをいつでも実行でき、研究者がゼロから探索することをサポートします。

バージョン比較とバージョンバックトラッキング、ワンクリックで過去のバージョンを受け入れる

04 モデルのオフライン トレーニング: エネルギーとリソースを解放する

さらに、前述のように、ディープ ラーニングなどのデータ駆動型研究で一般的な大規模で複雑なコンピューティング タスクの場合、ModelWhale はまず、分析環境へのデータ ソースとして NAS ディレクトリのマウントをサポートし、それによって非常に高度な分析と研究を可能にします。第2 に、モデルのオフライン トレーニング機能もサポートしています。つまり、コンピューターの電源がオフになった後もトレーニング タスクを継続できるため、研究者の時間とエネルギーが解放されます。また、トレーニング結果の視覚的な比較も提供して、学習を支援します。効率的なモデルの調整と選択。一言で言えば、ModelWhale は研究者の複雑な基礎作業をさまざまな詳細から軽減します。

新しいモデルのオフライン トレーニング タスクを作成する

05 複数人コラボレーションとチームコラボレーション

科学研究は、多くの場合、1 人の作業ではありません。複雑なプロジェクトの場合、グループ内で複数の人が作業を共有するのが一般的です。ModelWhale は、データ サイエンスだけでなく、クラウドの共同イノベーション プラットフォームでもあります。複数の人々が共同して研究を行います。平たく言えば、ModelWhale は、複数の人が同じプロジェクトをオンラインで編集できるようにする、主流のクラウド ドキュメント ソフトウェアのコード バージョンであると想像できます。もちろん、コードの衝突によるバグを避けるために、進行状況を同期するためのバージョンを生成する必要があります他の人と一緒に。さらに、ModelWhale にはタスク計画のためのプロジェクト管理ツールもあり、担当者は新しいプロジェクト タスクを作成し、サブタスクに分割して配布し、チームと協力して複雑なプロジェクト調査を完了することができます。最後に、多人数コラボレーションは、特定のプロジェクトチーム内だけでなく、業界や分野を超えたコラボレーションにも重点を置いています。Canvas機能を使用すると、コーディング能力が弱いさまざまな分野の理論学者が、組織内のデータサイエンティストと協力して作業することができます。同時に、理論学者は機能モジュールを使用して研究アイデアを構築する責任を負い、データ サイエンティストはそれを実用的なコードに変換します。これにより相互に補完され、半分の労力で 2 倍の結果が得られます。

プロジェクト管理ツール、タスク計画インターフェイス

Canvas を使用して分析プロセスを迅速に構築する

過去の研究を再利用する

01カスタム画像を再利用、人工ホイールを作成する必要はありません

ModelWhale 自体には、さまざまな一般的および特定の対象画像が埋め込まれており、新しいプロジェクトを作成するときに直接選択できますが、これらの画像が現在の研究ニーズを満たせない場合はどうすればよいでしょうか? この時点で、研究者は現在のニーズに合わせてカスタム イメージを作成できます。ただし、これは、プロジェクト チームのすべての研究者が研究を開始する前にこのステップを実行する必要があるという意味ではありません。研究のニーズを満たすカスタム イメージの作成が完了したら、そのイメージを組織内の任意のメンバーに配布して再利用できます。新しいイメージの作成を担当する最初の担当者に加えて、チーム内の他の研究者も、以前に構築された研究環境をそのまま再利用できます。

科学研究の画像をカスタマイズし、ワンクリックでプロジェクト チームの他の研究者と同期します

02ノートブック コード ライブラリ: コード スニペットを簡単に再利用できます

ModelWhale Notebookにはサイドバーにコードスニペットライブラリ機能があり、研究者は過去の研究でコード スニペットはコード ライブラリで見つけることができます。さらに、コード ライブラリにはいくつかの公式コードも含まれています。「パブリック ライブラリ」または「マイ コレクション」のどちらであっても、コード スニペットは新しいプロジェクト インターフェイスで再利用でき、挿入できます。直接。最後に、コード ベース内のコード スニペットは、組織内での権限管理と配布をサポートしており、研究者 A が収集したコード スニペットは、研究者 B のプロジェクトで簡単に再利用できます。

コードスニペットの収集と再利用

03 Canvas コンポーネント: ビジュアル仕様フロー テンプレートによるプロジェクトの作成

簡単に言うと、ModelWhale Canvas は視覚化とモデル駆動の概念に基づいており、コンポーネントを「ドラッグ アンド ドロップ」することでアプリケーション モデルの構築を完了します。少し大きく抽象的な話になりますが、実際の運用において、プロジェクト結果の再利用処理にCanvasをどのように適用できるのでしょうか?想像してみてください。研究者が、比較的退屈ではあるが極めてプロセス指向であり、イノベーションを必要とせず、将来的に頻繁に実行されるプロジェクトの一連のステップを実行するときに、コンポーネント事前構築の一連のステップを使用することを選択できるとします。 Canvas で一般的に使用されるワークフロー フローにカプセル化します。他のプロジェクトでこの一連の手順が再び発生した場合は、Canvas テンプレートを使用してプロジェクトを直接作成し、コンポーネントのプロセスを確認してから、ノートブックに変換できます。 、大規模なフレームワークがすでに利用可能であり、コードを微調整することで実装できるため、一連の面倒で合理化されたプロジェクト ステップは非常に便利です。

テンプレートから Canvas プロジェクトを作成し、ワンクリックでノートブックとして保存します

04 アルゴリズムライブラリ:アルゴリズムモデルの整理、共有、再利用を実現

研究者は、アルゴリズムライブラリを利用することで、これまでの研究で作成したアルゴリズムモデルをテキスト記述で補足しながら管理し、整理・共有することができ、実際に再利用する際には、その結果をプロジェクトやモデルサービスに直接作成することができます。多くの冗長なコード記述とモデルトレーニング作業が排除され、時間を節約できます。さらに、一般的に使用されるアルゴリズムの一部が ModelWhale アルゴリズム ライブラリにコンパイルされており、研究者は一般的なデータ分析作業を実行するときにいつでも呼び出すことができます。

アルゴリズムライブラリ機能により、降水量管理とアルゴリズムモデルのワンクリック再現が可能です。

3. 結論

技術革命とトップレベルの政策に導かれ、科学研究コミュニティは人工知能にますます注目を集めています。データ サイエンス コラボレーション プラットフォーム ModelWhale Scientific Research Edition は、データ駆動型研究における共同イノベーションに焦点を当てておりAI for Science の科学研究パラダイムの改革を促進し、組織化された科学研究を強化することを使命とするデジタル インフラストラクチャです。データ、アルゴリズムからモデルに至る研究対象に焦点を当てたストップショップです。フルプロセス管理により、インフラストラクチャレベルから科学研究の再現性が向上し、共同作業のための優れた科学研究エコシステムの構築に役立ちます。FAIR 原則とオープンな科学研究コンセプトに基づいて、安全で完全な公開共有ポータル、およびデータやその他の研究および制作資料のオンライン対話ワークベンチ; 異種混合統合、集中的な管理と制御、オンデマンド割り当て、機敏な応答、および強力なコンピューティング能力スケジューリング管理により、パーソナル コンピューターは次のことを可能にします LLM の大規模言語モデルを呼び出し、組織チーム内のコンピューティング能力リソースの可用性を最大化します。ModelOps コンセプトを導入して大規模モデルの完全なライフサイクル管理を支援します。

ModelWhale の科学研究バージョンは、地球科学、生物医学、人文社会科学、その他の専門分野をカバーしており、国家気象情報センターや中国天然資源航空地球物理探査およびリモートセンシングセンターなどの国家科学研究機関でベストプラクティスを導入しています。私たちは、革新的なデータ研究の先駆者とそのチームによるサポートに携わるすべての人に役立つことを願っています。関連するニーズがございましたら、ModelWhale 公式 Web サイトにアクセスして登録および体験していただくか、[製品コンサルタントへのお問い合わせ (Mobile Jump)] をクリックしてご連絡ください。

おすすめ

転載: blog.csdn.net/ModelWhale/article/details/133039957