[124 個の人工知能タスクの大規模なコレクション] - 自然言語処理 (NLP)、コンピューター ビジョン (CV)、音声認識、マルチモダリティなどのタスクのコレクション

こんにちは、Wei Xue AI です。今日は 124 個の人工知能タスクの大規模なコレクションを紹介します。このタスク コレクションには主に、自然言語処理 (NLP)、コンピューター ビジョン (CV)、音声認識、マルチモーダルの 4 つのカテゴリが含まれていますタスク。
ここに画像の説明を挿入

ここでは 124 個のアプリケーション シナリオ タスクの大規模なコレクションをコンパイルしました。各タスク ディレクトリは次のとおりです。

  1. 文の埋め込み: 文を固定次元のベクトル表現にマッピングします。
  2. テキストのランキング: 一連のテキストをランク付けして、特定のクエリとの関連性を判断します。
  3. 単語の分割: 連続したテキストを単語またはチャンクに分割するプロセス。
  4. 品詞: 文内の各単語に対応する品詞をマークします。
  5. トークンの分類: 入力テキスト シーケンス内の各トークンを事前定義されたカテゴリに分類します。
  6. 固有表現の認識 (固有表現の認識): 名前、場所、組織など、テキスト内で特定の意味を持つ固有表現を識別します。
  7. 関係抽出: テキストからエンティティ間の関係またはつながりを抽出します。
  8. 情報抽出: 非構造化テキストからエンティティ、関係、属性などの構造化情報を抽出します。
  9. 文の類似性: 2 つの文間の意味的な類似性または関連性を測定します。
  10. テキスト翻訳: ある言語のテキストを別の言語に変換するプロセス。
  11. 自然言語推論 (NLI: Natural Language Inference): 含意、矛盾、中立性を含む、与えられた前提と仮定の間の論理的関係を判断します。
  12. センチメント分類: テキストをポジティブ、ネガティブ、ニュートラルなどのセンチメント カテゴリに分類します。
  13. ポートレートマット化: 画像から被写体と背景を正確に分離します。
  14. ユニバーサルマット:ポートレートに限らず、画像の背景からターゲットオブジェクトを正確に分離します。
  15. 人物検出: 画像またはビデオ内の人体の位置を検出します。
  16. 画像オブジェクトの検出: 画像内の複数のターゲット オブジェクトを検出して位置を特定します。
  17. 画像のノイズ除去: 画像のノイズ レベルを低減し、画質を向上させます。
  18. 画像のブレ除去: ぼやけた画像の鮮明さとディテールを復元します。
  19. ビデオ安定化:ビデオに手ぶれ補正が実行され、安定して滑らかになります。
  20. ビデオの超解像度: ピクセルレベルの詳細を増やすことでビデオの解像度を高めます。
  21. テキストの分類: テキストを事前定義されたカテゴリまたはラベルに分類します。
  22. テキスト生成: 指定された入力から連続テキストを生成するプロセス。
  23. ゼロショット分類: モデルがトレーニング段階で見たことのないカテゴリにデータを分類します。
  24. タスク指向の会話: 特定のタスクに関連した会話や質疑応答を行います。
  25. ダイアログ状態の追跡: 複数回のダイアログにわたるユーザーの意図とシステム状態の変化を追跡します。
  26. 表の質問への回答: 表形式のデータに基づいて、関連する質問に回答します。
  27. ドキュメントに基づいたダイアログの生成: ドキュメントの内容に基づいて、関連するダイアログの応答を生成します。
  28. ドキュメントに基づいたダイアログの再ランク付け: 生成されたダイアログの応答をランク付けして、最適なものを選択します。
  29. ドキュメントに基づいたダイアログの取得: 候補ダイアログからドキュメントに関連する最適なダイアログを取得します。
  30. テキストエラー修正: テキスト内のスペルまたは文法エラーを自動的に修正します。
  31. 画像キャプション: 画像コンテンツに基づいて画像の説明テキストを生成します。
  32. ビデオ キャプション (ビデオ キャプション): ビデオ コンテンツに基づいてビデオの説明テキストを生成します。
  33. 画像のポートレートのスタイル化: 画像内の人物の被写体に芸術的なスタイルの転写を適用します。
  34. 光学式文字認識 (OCR 検出): 画像からテキストを検出して認識します。
  35. 表認識: 画像から表の構造と内容を自動的に認識します。
  36. 行のない表の認識: 行のない表の画像から表の構造と内容を自動的に識別します。
  37. Document-VL Embedding: ドキュメントを視覚的意味空間にマッピングするベクトル表現。
  38. ナンバー プレートの検出: 画像内の車両のナンバー プレート領域を検出して位置を特定します。
  39. Fill-Mask: コンテキストと部分情報に基づいて、指定されたマスクを塗りつぶします。
  40. 特徴抽出: 入力データから意味のある特徴表現を抽出します。
  41. アクション認識: ビデオ内のアクションまたは動作を認識します。
  42. アクション検出: ビデオ内の特定のアクションや動作を検出して特定します。
  43. ライブ カテゴリ: スポーツ、ニュース、ゲームなどのライブ ビデオを分類します。
  44. ビデオ カテゴリ (ビデオ カテゴリ): 映画、音楽、スポーツなどのビデオを分類します。
  45. マルチモーダル埋め込み: 複数の異なるモダリティのデータを共有ベクトル空間にマッピングします。
  46. 生成的マルチモーダル埋め込み: マルチモーダル データをベクトル表現にマッピングし、それらに関連するデータを生成できます。
  47. マルチモーダル類似性: 画像やテキストなどのマルチモーダル データ間の類似性または相関性を測定します。
  48. ビジュアルな質問回答: 画像と質問に基づいて、関連する質問に回答します。
  49. ビデオ質問回答: 指定されたビデオと質問に基づいて、関連する質問に回答します。
  50. ビデオの埋め込み: ビデオ シーケンスを固定次元のベクトル表現にマッピングします。
  51. テキストから画像への合成 (テキストから画像への合成): 指定されたテキストの説明に従って、対応する画像を合成します。
  52. テキストからビデオへの合成: 指定されたテキストの説明に従って、対応するビデオを合成します。
  53. ボディ 2D キーポイント: 画像内のボディ キーポイントを検出して追跡します。
  54. ボディ 3D キーポイント: 3D 空間でボディ キーポイントを検出および追跡します。
  55. 手の 2D キーポイント: 画像内の手のキーポイントを検出して追跡します。
  56. カードの検出: 画像内の特定の種類のカードを検出して見つけます。
  57. コンテンツ チェック: テキストまたは画像内の不適切なコンテンツ、機密性の高いコンテンツ、または違法なコンテンツをチェックします。
  58. 顔検出: 画像またはビデオ内の顔の位置を検出します。
  59. 顔のライブネス: 画像またはビデオ内の顔が写真やビデオではなく、実際に生きている身体であるかどうかを判断します。
  60. 顔認識: 画像またはビデオ内の顔を識別し、既知の身元と照合します。
  61. 表情認識:画像や動画内の人間の顔の喜び、悲しみ、怒りなどの表情状態を認識します。
  62. 顔属性認識 (顔属性認識): 画像またはビデオ内の顔の属性 (年齢、性別、人種など) を識別します。
  63. Face 2D Keypoints: 画像内の顔のキーポイントを検出して追跡します。
  64. 顔品質評価: 画像またはビデオ内の顔画像の品質を評価します。
  65. ビデオ マルチモーダル埋め込み: マルチモーダル データ (画像やテキストなど) を共有ベクトル空間にマッピングします。
  66. 画像の色の強化: 画像の彩度、コントラスト、明るさを強化します。
  67. 仮想試着: コンピューター生成テクノロジーを通じて、仮想衣類を実際の人体の画像に適用して、オンライン試着効果を実現します。
  68. 画像のカラー化: グレースケール画像をカラー画像に復元するプロセス。
  69. ビデオのカラー化: 白黒ビデオをカラー ビデオに復元するプロセス。
  70. 画像のセグメンテーション: 画像を複数の個別の領域またはオブジェクトに分割します。
  71. 画像による運転認識: コンピューター ビジョン テクノロジーを使用して、車線や交通標識などの画像内の運転関連情報を抽出します。
  72. 画像深度推定: 単眼または両眼画像に基づいて、シーン内のオブジェクトの深度または距離を推定します。
  73. 室内レイアウト推定:室内画像をもとに部屋のレイアウト構造を推定します。
  74. ビデオ深度推定: ビデオ内のフレーム間情報に基づいて、シーン内のオブジェクトの深度または距離を推定します。
  75. パノラマ深度推定: パノラマ画像内のシーン内のオブジェクトの深度または距離を推定します。
  76. 画像スタイルの転送: ある画像のスタイルを別の画像に適用して、新しいスタイルの画像を生成します。
  77. 顔画像の生成: 顔データの強化、データ生成、その他のアプリケーションに使用できるリアルな顔画像を生成します。
  78. 画像の超解像度: ピクセルレベルの詳細を増やすことで画像の解像度を向上させます。
  79. 画像のデブロッキング: 圧縮によって生じる画像のブロッキング アーティファクトや縞ノイズを軽減します。
  80. 画像ポートレートの強化: 画像内の人物の外観、肌の色、その他の特徴を改善します。
  81. 製品検索の埋め込み: アイテムの関連性の検索をサポートするために、アイテムをベクトル表現にマップします。
  82. 画像から画像への生成: 指定された入力画像から対応する出力画像を生成します。
  83. 画像分類: 画像を事前定義されたカテゴリまたはラベルに分類します。
  84. 光学式文字認識 (OCR 認識): 画像から印刷または手書きのテキストを検出して認識します。
  85. 肌のレタッチ:顔の画像を美しくする、肌のシミを取り除く、肌を滑らかにするなど。
  86. よくある質問 (FAQ 質問回答): よくある質問に基づいてユーザーの質問に回答します。
  87. 群衆カウント: 画像またはビデオ内の群衆密度に基づいて人の数を推定します。
  88. ビデオ単一オブジェクト追跡: ビデオ シーケンス内の単一のターゲット オブジェクトを追跡します。
  89. 画像 ReID (画像 ReID - 人物): 画像内の人物の外観特徴に基づいてアイデンティティを再識別します。
  90. テキスト駆動のセグメンテーション: 指定されたテキストの説明に基づいて、画像またはビデオ内のオブジェクトをセグメント化します。
  91. 映画のシーンの分割: 映画またはビデオをさまざまなシーンに分割し、各シーンが独立したプロットまたはイベントを表します。
  92. ショップのセグメンテーション: 製品の表示、インテリジェントな監視、その他のアプリケーションのために、画像やビデオから店内のオブジェクトやエリアをセグメント化します。
  93. 画像の修復: 既存の画像コンテンツに従って、欠落または破損した部分を補い、元の画像の完全性を復元します。
  94. 画像の例によるペイント: 指定されたサンプル画像に基づいて、他の画像を変更して同様のペイント スタイルまたは効果を持たせます。
  95. 制御可能な画像生成: 入力パラメータまたはベクトルを制御することにより、特定の属性、スタイル、または特性を持つ画像が生成されます。
  96. ビデオ修復: 既存のビデオ コンテンツに従って、欠落または破損したフレームまたは領域を埋め、元のビデオの整合性を復元します。
  97. ビデオ ヒューマン マッティング: 後続の編集や特殊効果処理のために、ビデオ内のキャラクターを背景から分離します。
  98. 人間の再構成: 指定された画像、ビデオ、またはセンサー データに基づいて、人体の 3D モデルまたは姿勢情報を再構成します。
  99. ビデオ フレーム補間 (ビデオ フレーム補間): 指定された 2 つのビデオ フレーム間にフレームを生成して、フレーム レートを高めたり、ビデオのスムーズな遷移を行います。
  100. ビデオ デインターレース (ビデオ デインターレース): インターレース ビデオをプログレッシブ スキャンに変換して、ビデオ再生の品質と流暢性を向上させます。
  101. 人間の全身キーポイント検出: 画像またはビデオ内の頭、手、足などの人体のキーポイントを検出して位置を特定します。
  102. 手の静的: 手のひらの形状や指の姿勢などの情報を分析することで、画像またはビデオ内の静的なジェスチャを認識します。
  103. 顔、人間、手の検出: 画像またはビデオ内の人間の顔、人間、手の領域を検出して位置を特定します。
  104. 顔の感情分析 (Face Emotion): 顔の表情を分析することにより、画像またはビデオ内の顔によって表される感情状態を判断します。
  105. 製品のセグメンテーション: 製品の認識や広告の推奨などのアプリケーションのために、背景から画像やビデオ内の商品や製品をセグメント化します。
  106. 参照ビデオ オブジェクトのセグメント化: 指定された参照画像またはビデオに基づいて、画像またはビデオ内のオブジェクトをセグメント化します。
  107. ビデオ要約 (Video Summarization): ビデオの内容と特性に従って、ビデオの概要または概要が生成され、ビデオの閲覧と検索に便利です。
  108. 画像の空の変更: 画像の空の部分を別の空の背景に置き換えて、画像の雰囲気や環境を変更します。
  109. 翻訳評価:与えられた翻訳結果に基づいて、その品質、正確さ、原文との整合性を評価します。
  110. ビデオ オブジェクトのセグメンテーション: 後続の編集または特殊効果処理のために、ビデオ内のオブジェクトを背景からセグメント化します。
  111. ビデオ マルチオブジェクト トラッキング (ビデオ マルチオブジェクト トラッキング): ビデオ内の複数の移動ターゲットを同時に追跡し、リアルタイムでターゲットの位置を特定して追跡します。
  112. マルチビュー深度推定: 複数のビューまたは画像を通じてシーン内のオブジェクトの 3 次元深度情報を推定します。
  113. 少数ショット検出: ラベル付きサンプルの数が少ない場合、モデルの一般化能力を向上させるためにターゲット検出タスクが実行されます。
  114. 身体の変形:画像またはビデオの人体の領域に応じて、人体の形状、姿勢、プロポーションを調整して、人体の外観を変更します。
  115. フェイス フュージョン: ある人の顔の特徴や表情を別の人のアバターに融合して、両方の特徴を持つ合成画像を生成します。
  116. 画像のマッチング: 画像ライブラリまたはデータベースで、指定された画像に最も類似または一致する画像を見つけます。
  117. 画質評価 - 主観的スコアリング (画質評価 - MOS): 主観的スコアリングの方法を通じて、人間の目による画像の認識を反映した画像の品質が評価されます。
  118. 画質評価 - 劣化 (画質評価 - 劣化): 客観的な測定方法を通じて、さまざまな変換または圧縮条件下での画像の品質を評価します。
  119. ビジョンの効率的なチューニング: 自動化された方法を通じてビジョン モデルとアルゴリズムを迅速に調整および最適化し、コンピューティングの効率と精度を向上させます。
  120. 3D 物体検出 (Object Detection 3D): 3D 空間において、対象物の位置、大きさ、姿勢を検出し、特定します。
  121. 不良画像の検出: 画像内のノイズ、ぼやけ、歪みなどの不良または低品質の画像を特定して検出します。
  122. Nerf 再構成精度評価 (NeRF 再構成精度): 3D シーン再構成の構築における神経放射線場 (NeRF) モデルの精度と品質を評価します。
  123. Siamese UIE: Siamese ネットワークは、UIE タスク、つまり入力ユーザー インターフェイス要素の認識または生成に関連する問題に使用されます。
  124. 数式認識 (LatexOCR): 画像内の数式のラテックス認識。

おすすめ

転載: blog.csdn.net/weixin_42878111/article/details/132262605