これらのデータ フィルタリング スキルをマスターすれば、複雑なビジネス データも効率的に処理できるようになります。

インターネットの急速な発展に伴い、データの爆発的な増加により、ユーザーは徐々に情報の海に迷い込むようになり、データ分析を行う際、膨大なビジネスデータは精度が低い、無効なデータや不要なデータが混在するなどの問題を引き起こすことがよくあります
。結果的に分析結果と実際との乖離が大きくなる;
効率が低い: 無駄なデータの分析に時間がかかり、分析効率が低下する;
コストが高い: 大量のデータには多大な労力と時間のコストがかかることが多い。
これらの課題を解決するために、最も重要な手段の一つが「データフィルタリング」であり、指定した条件に従ってデータを識別・フィルタリングすることで、データの品質を向上させ、その後のデータ分析に有効なデータを提供することができます。
データ フィルタリングの重要性を理解した後、データを効率的にフィルタリングする方法はあるでしょうか? データフィルタリングは主に行フィルタリングと列フィルタリングに分けられますが、今日はTempo人工知能プラットフォームを例に、具体的な操作を見ていきましょう。

行フィルタリング

01. 比較演算子 ユーザー
が設定した条件に従って、データフィルタリングノードを通じて行データのフィルタリングとスクリーニングを完了できます。
TempoAI の効率的なデータ フィルタリング

02. 論理演算子
TempoAI の効率的なデータ フィルタリング

►プロセス クエリ アナライザー ノードは、指定された条件に従って接続されたデータ テーブルからデータを抽出し、フィルター条件を構成することでデータ フィルター処理を完了できます; ►最初にリレーショナル データベース入力ノードとプロセス クエリ アナライザー ノードを使用してプロセスを構築し
ます;
►合格 リレーショナル データベース入力ノードが全国販売注文データ セットをアップロードします;
► プロセス クエリ アナライザー ノードのデータ選択タブで全国販売注文データ セットを選択し、必要なデータを選択します;
► プロセス クエリ アナライザー ノードでフィルター条件を構成しますデータ フィルター タブおよび/または関係 (利益が 50 を超え、注文数量が 30 を超える状況など)。プロセスが正常に実行されたら、Insights で実行結果を表示します。
Tempo 人工知能プラットフォーム、論理演算子フィルタリングの実行方法
ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入
03、ワイルドカード
先ほど説明した条件付きフィルタリングは、既知の値のフィルタリングです. 別の状況では、テキスト内の特定の単語を含むすべてのデータを取得したい場合、ここではワイルドカードを使用する必要があります。ワイルドカードは、値の一部を一致させるために使用する特殊文字です。
►最初にリレーショナル データベース入力ノードとデータ フィルター ノードを使用してプロセスを構築します; ►
リレーショナル データベース入力ノードを通じて全国販売注文データ セットをアップロードします;
►データ フィルター ノードを通じて含まれる値を識別するフィルター条件を構成します。たとえば、顧客名に Zhang が含まれるデータをフィルターで除外します;
► プロセスが正常に実行された後、Insights で実行結果を表示します。
Tempo 人工知能プラットフォーム、ワイルドカード フィルタリングの実行方法
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入ここに画像の説明を挿入04. 高度なデータ フィルタリング
1) フィールドとフィールド
高度なデータ フィルタリングは、フィールドとフィールド、重複排除、単一カテゴリの数/割合、パラメータ フィルタリングと拡張方法に分けることができます。
複数のフィールド間のクエリとフィルター条件は、データ フィルター ノードを通じて実現できます。
►最初にリレーショナル データベース入力ノードとデータ フィルター ノードを使用してプロセスを構築します。
►リレーショナル データベース入力ノードを通じて全国販売注文データ セットをアップロードします;
► データ フィルター ノードを通じて条件を設定し、輸送費よりも利益が大きいデータを除外するなど、フィールド間のフィルタリングを完了します; ► プロセス後が正常に
実行された場合は、インサイトで実行結果を表示します。
Tempo 人工知能プラットフォーム、複数のフィールド間でフィルタリングする方法
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
2) データ重複排除
データ重複排除ノードを通じて実装して、ユーザーが指定された方法に従ってデータセットの重複行を処理できるようにすることができます。2 つの重複排除方法がサポートされています:
►すべての列の正確な重複データを削除します;
► 行をランダムに保持し、指定された列の正確な重複データを削除します。
3) 単一カテゴリの数/割合
ユーザーは、データ フィルタリング ノードを通じてデータ内のフィールドの数または割合を計算し、実際のビジネスに応じて対応する行をフィルタリングできます。
4) パラメータ フィルタリング
パラメータ フィルタリングでは、プロセス クエリ アナライザ ノードを通じて接続されたデータ テーブルからデータを抽出し、構成パラメータに従ってデータ テーブルからデータ フィルタリング操作を実行できます。
►最初にリレーショナル データベース入力ノードとプロセス クエリ アナライザー ノードを使用してプロセスを構築します。 ► [
設定] をクリックし、プロセス パラメーター構成タブで必要なフィルター条件に従ってパラメーターを構成します。 ►
リレーショナル データベースを通じて全国販売注文データ セットをアップロードします。データベース入力ノード;
►パス プロセス クエリ アナライザ ノードのデータ選択タブで国内販売注文データ セットを選択します; ►
プロセス クエリ アナライザ ノードのデータ フィルタ タブでフィルタ条件を設定し、パラメータに従ってフィルタリングします;
►プロセスが正常に実行された後、Insight の操作結果を表示します。
Tempo 人工知能プラットフォーム、パラメータをフィルタリングする方法

ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入
5) 拡張方法
SQL 編集ノード、計算列、Python プログラミング ノードを通じてデータ フィルタリング操作を実行することもできます。
プラットフォームの計算列には、データ選択、集計グループ、生データのフィルター、集計データのフィルター、およびデータの並べ替え操作の実行に役立つさまざまな組み込み関数と論理処理ステートメントが含まれています。
►まず、リレーショナル データベース入力ノードとプロセス クエリ アナライザー ノードを使用してプロセスを構築します。 ►
リレーショナル データベース入力ノードを介して全国販売注文データ セットをアップロードします。
► 計算列をクリックし、列名と操作する対応する式を入力します。 。
Tempo人工知能プラットフォーム、拡張子でフィルタリングする方法
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

列のフィルタリング

01. ビジネスベースのフィルタリング
実際のアプリケーションでは、ビジネスの状況に応じて、特定の値以上または特定の値以下の条件をクエリし、条件を満たすレコードの数を確認してデータをフィルタリングする必要がある場合もあります。データ フィルター ノードのフィルター操作を通じて実行されます。ビジネス状況に基づいて、その後のモデリングや分析に無関係な列をフィルターで除外することもできます。
02. モデルベースのフィルタリング
統計的手法を使用してデータの特徴を特定し、特定された特徴に基づいてデータ列をフィルタリングします。たとえば、デバイスが故障するかどうかの予測には保守担当者の名前は関係なく、保守担当者のフィールドはモデリングの初期段階でフィルタリングされます。
AI は、属性フィルター ノードを介したデータ特性、悲惨なエンコード、変数選択、相関係数出力を記述するモデルの読み取り、および列フィルター操作を実現するためのさまざまなフィルター条件によるフィールドの追加をサポートします。
ここでは、説明のためにデータ特徴モデルについて説明します。銀行融資データセットを使用してデータを記述し、モデルを保存します。
ここに画像の説明を挿入

►最初にサンプル データ ノードと属性フィルター ノードを使用してプロセスを構築します。 ►
サンプル データ ノードを通じて Bankloan_Classification をアップロードします。 ►
属性フィルター ノードをダブルクリックして、モデルに基づいて変数を選択します。 ► モデル
を選択し、フィルターを次のように設定します。 0 フィールドに等しい欠損値の割合をフィルターで除外します;
►プロセスが正常に実行された後、Insights で実行結果を表示します。Tempo 人工知能プラットフォーム、モデル03
に基づいてフィルタリングする方法、高度なフィルタリング ビジネス ベースおよびモデル ベースの列フィルタリング方法のサポートに加えて、欠損値処理、自動データ処理、SQL 編集ノード、およびその他のデータ フィルタリング方法もサポートしています列。
ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入

概要:
汎用のエンタープライズレベルのインテリジェントなデータ分析モデル構築およびデータ アプリケーション シナリオ設計ツールとして、Tempo 人工知能プラットフォームには豊富なデータ処理ノードが組み込まれており、行データを含む 30 種類近くのデータ前処理をサポートしています。処理方法により、ユーザーはさまざまな処理方法を柔軟に使用してデータをフィルタリングし、マイニングと分析の準備をすることができます。

おすすめ

転載: blog.csdn.net/qq_42963448/article/details/129993268