【AIボトムロジック】——第4章:ビッグデータの処理とマイニング

目次

導入

1. ビッグデータの概要

2. データ処理のプロセスと方法

1. データ収集 - 「ゼロから」

2. データ処理 ~「使えるものから使えるものへ」

3. データ分析

3. ビッグデータは何を変えましたか?

 過去のハイライト:


導入

AIのパフォーマンスはビッグデータに依存します。かつて、画像認識の精度は 60% ~ 70% にしか達しませんでしたが、これは機械学習アルゴリズムとコンピューター ハードウェアの性能によって制限されましたが、最も重要なことはデータの欠如でした2009 年、スタンフォード大学のリー・フェイフェイ教授とプリンストン大学のリー・カイ教授は、コンピューター ビジョンの開発を促進するために、5,000 万枚の高解像度画像を収集し、80,000 語以上の単語にラベルを付け、ImageNet 画像認識コンテストを開催するプロジェクトを設立しました。そこで研究グループは、画像認識の精度をさらに向上させるビッグデータに基づくディープラーニングモデルを提案しました。

ビッグデータは、顧客の行動やビジネス ルールを記述するために使用できるだけでなく、AI モデルをトレーニングするための基本的な素材としても使用できます。ただし、AI にはデータに対する厳しい要件があり、すべてのデータが適しているわけではなく、データは完全で、大規模で、ビジネス上の意味があり、特性ラベルが付いている必要があります。一部のデータは、処理、処理、分析、マイニングが必要です。

1. ビッグデータの概要

「ビッグデータ」の概念は20 世紀にはすでに提案されており、マッキンゼー・アンド・カンパニーはそれを「取得、保管の点で従来のデータベース ソフトウェア ツールの能力を大幅に超えるほど規模が大きいデータの集合」と定義しました。 、管理、分析。」今日、ビッグデータの意味は状況によって異なり、複雑で大規模なデータの集合を指すだけでなく、一連の大規模なデータ処理技術を指し、データ駆動型のビジネス モデルを表すこともあります

ビッグ データの「ビッグ」は相対的なものであり、正確な定義はありません。ビッグ データは、データ容量のサイズを指すだけでなく、特定のニーズに応じてデータを処理する難しさにも依存します。ビッグ データは、大量のデータを指すだけでなく、豊富なデータ タイプ、高速な処理速度、低い値密度という特性にも依存します。「ビッグ」にはいくつかの問題も伴います。ビッグデータには真に価値のあるデータがほとんどなく、この現象は価値の低下と呼ばれます。データの量が大きくなるほど、有効なデータをマイニングすることが難しくなり、データ内のエラーが増加する可能性があり、直面する技術的な困難も大きくなります。

2. データ処理のプロセスと方法

データの2 つの基本的な使用方法:① データは「結果」を重視します: データを直接分析および処理し、データの関連性を見つけ、貴重な情報をマイニングします。② データ指向の「プロセス」:機械学習を通じてデータを処理したり、AI モデルを構築したりする実際には、この 2 つを組み合わせて使用​​できます。

以下では主に 1 番目の方法を紹介し、2 番目の方法については機械学習アルゴリズムに関する後続の章で説明します。

1. データ収集 - 「ゼロから」

このステップは最も難しく、最も重要です。多くの人が AI の鍵はアルゴリズムであると誤解していますが、そうではありません。AI のアルゴリズムのほとんどは比較的成熟して開発されています。多くの研究作業がアルゴリズムに焦点を当てています。根本的なロジックは10年以上前と同じ 本質的な違いはありませんが、前提となるデータ収集が異なります。—— 「機械学習の上限はデータによって決まります。アルゴリズムはこの上限に可能な限り近づけるだけです。」

データ収集チャネル: ① 一次データ: データのソースである直接調査のオリジナルデータ、最新かつ最も価値のあるデータ; ② 二次データ: 他人が調査したデータ、または調査結果の構築と要約後に公開されたデータ元のデータにはエラーが混在している可能性があります。

科学研究だけでなく、AI の開発にもデータ収集は不可欠です。多くの分野で、研究者はアルゴリズムを公開していますが、自らのデータを公開することはほとんどありません。たとえば、Google の主任研究員である Norvig 氏は、Google 製品について次のようにコメントしています

2. データ処理 ~「使えるものから使えるものへ」

a、ETL

データ処理は、抽出、変換、読み込み( ETLと呼ばれます)の 3 つのステップに分かれていますその目的は、散在し、乱雑で、不均一な多数のデータを統合し、分析と意思決定のためのデータ サポートを提供することです。

データ抽出: 問題は、さまざまなデータ ソースとさまざまな場所に保存されているデータにあり、さまざまなデータベース ソフトウェア製品やさまざまなデータ型形式が関係する可能性があるため、さまざまな抽出方法を選択する必要があります。

データ変換: データは、特定のニーズに応じて集計、カウント、要約されますデータ処理リンクは全体の作業量の60%~70%と最も時間がかかり、文字変数を数値変数に変更したり、欠損値の処理、異常データの処理、重複データの削除、データのチェックなどの作業負荷が多くなります。一貫したセックスなど このプロセスが複雑になる理由は、データの品質、タイプ、保存タイプが異なるためです。実際には、ほとんどのデータには、一貫性のない口径、不完全さ、わかりにくい形式などの問題があり、すべてクリーンアップする必要がある「ダーティ データ」です。 、男性患者など、 の症例記録に卵巣がんが登場しました!

データのロード: データ変換が完了すると、データがロードされ、最終的にデータ ウェアハウスに書き込まれ、データが集中的に保存されます。データを一元的に保存するには、さまざまな方法があります。たとえば、さまざまなタイプのデータを分析用に関連付けたり、それらのデータに対してバッチ クエリや計算を実行したりできます

シナリオが異なればデータ処理の要件も異なり、オフライン方式とリアルタイム方式がありますオフライン処理: リアルタイム要件は低く、処理量 (総データ量) が大きく、より多くのストレージ リソースが必要です。リアルタイム処理: リアルタイム性の要件が高く、処理速度 (単位時間あたりのデータ量) が速く、より多くのコンピューティング リソースが必要です。

データ処理プロセスは、データに役割を果たせる基本的な作業です。市場には多くの ETL ツールがあります。これらのツールは、1 つのデータ処理タスクにのみ非常に役立ちます。ただし、企業には通常、そのようなタスクが数百、数千あり、すべてのタスクが正しいことを確認するには、まだ巨大です。チャレンジ!

b. ワンホット エンコーディングと特徴量エンジニアリング

例如有ABC三个人,A:32岁,男,程序员;B:28岁,女,老师;C:38岁,男,医生。
用计算机可识别的语言数字描述,年龄就是数字不用变;性别女0或男1;职业类型用向量表示,
比如世界上有30000种职业,编号程序员1,老师2,医生3,用30000维的向量表示为[1,0,0,0...,0]、
[0,1,0,0...,0]、[0,0,1,0...,0]。ABC三个人可用一个30002维的向量表示:
[32,1,1,0,0,0...,0]、[28,0,0,1,0,0...,0]、[38,1,0,0,1,0...,0],有点类似前面的老鼠试毒的例子。

ただし、実際のデータにはさまざまな種類があり、機械学習は膨大な量のデータを処理する必要があるため、多くのストレージとコンピューティング リソースが必要になります「次元の呪い」も、アルゴリズムやモデルを選択する段階で考慮しなければならない要素です。つまり、一部の機能は変換してコード化する必要があり、一部の機能はさらに次元を削減する必要があり、一部の機能は不要になる可能性があります。 (削除および統合可能)

機械学習アルゴリズムを使用する前にデータの前処理が必要です。重要なステップは、特徴エンジニアリングです。特徴エンジニアリングとは、物理オブジェクトを特徴付けることです。元のデータをモデルのトレーニング データに変換するプロセスです。元のデータの重複を削除したり、ギャップを埋めたり、外れ値を修正したりする処理です。代表的なデータの次元を見つけて、そのデータの特徴を記述する必要があります。問題の解決策、主な機能。たとえば、車を描写する場合、「形状」はより代表的ですが、「色」はそうではありません。

特徴の選択は複雑な組み合わせ最適化問題です。特徴が多すぎると「ディメンション災害」が発生し特徴が少なすぎるとモデルのパフォーマンスが低下します特徴量エンジニアリングの目的は良好なデータを取得することであり、このステップが適切に実行されれば、単純なアルゴリズムで良好な結果が得られます。

3. データ分析

データ分析、データ サイエンス、データ マイニング、知識発見などの用語は、明確な定義なしに同じ意味で使用されることがあります。データ分析の目的は意思決定を支援することであり、一般的な分析シナリオは次のとおりです: ①質問はわかっていますが、答えはわかりません。例えば月の売上はいくらですか?どれが一番売れますか?; ② 質問も答えも不明です。たとえば、スーパーマーケットのスタッフは商品を棚に置くためのより良い方法があるかどうかを知らないため、ユーザーの買い物データからルールを見つけることしかできません。この場合、答えが出せるかどうかはわかりません。が見つからず、どのようなデータが必要なのかさえ明確ではありません。①はデータで説明する、②はデータを調べる!

以下に、データ分析のためのいくつかの一般的なアルゴリズムを簡単に紹介します。

a: アソシエーション分析アルゴリズム

多くの APP は、消費者が興味のある製品を確認できるように、「最適な組み合わせ」の形で製品を推奨します。この種の問題に対処するための効率的なアルゴリズム、アプリオリ アルゴリズム (アプリオリ アルゴリズム) がありますこれは古典的な相関ルール マイニングアルゴリズムで、頻繁に一緒に出現するセット、つまり頻繁に現れるアイテムセットを見つけるために使用されます。

Apriori アルゴリズムは、サポート信頼という 2 つの概念を提案します支持度は、データセット全体に占める製品または製品の集合の割合を表し、たとえば、100 件の購入レコードでは、人々は製品 A を 30 回購入し、30% が支持度になります。信頼度とは、ある商品を購入した後に他の商品も同時に購入する確率を表し、商品Aを購入した30人のうち、同時に商品Bを購入した人が15人とすると、15/30=50%となります。商品BからA。自信があります。

サポートと信頼は両方とも重要な指標です。店舗として運営し、最初にサポート度を介して省内で購入量が少ない一部の製品を除外します。信頼度は2 つの商品の相関ルールを示し、信頼度は条件付き確率に等しく、相関が高ければ高いほど、相関関係が強いほど、相関関係が見出されます。 強力な製品ミックス。

アプリオリ アルゴリズムには、相関ルールを計算する際の先験的な原理があります。つまり、特定のセットが頻繁に発生する (頻繁に発生する) 場合、そのすべてのサブセットも頻繁になります。この原理は非常に直感的ですが、逆に見ると別の意味がわかります。つまり、特定の集合が頻繁に存在しない場合、そのすべてのスーパーセットは頻度が高くないということです。つまり、{A} が頻繁でない場合、{A, B} などの A を含むすべての集合も頻度が高くありません。この結論により、計算プロセスが大幅に簡素化されます。

举例,假设我们拥有一批顾客购买商品的清单,Apriori算法计算过程如下:
第1步:设定支持度、置信度的阈值。
第2步:计算每个商品的支持度、去除小于支持度阈值的商品。
第3步:将商品(或项集)两两组合,计算支持度,去除小于支持度阈值的商品(或项集)组合。
第4步:重复上述步骤,直到把所有非频繁集合都去掉,剩下的频繁项集,就是经常出现的商品组合。
第5步:建立频繁项集的所有关联规则,计算置信度。
第6步:去掉所有小于置信度阈值的规则,得到强关联规则。对应的集合就是我们要找的具有
高关联关系的商品集合。
第7步:针对得到的商品集合,从业务角度分析实际意义。

以上のことから、Apriori アルゴリズムの本質は、頻繁に出現する組み合わせをループして見つけ出す「数えること」であることがわかります。Apriori アルゴリズムは、サポートと信頼性の 2 つのしきい値を通じて元のデータ セットをレイヤーごとにスクリーニングし、最適な組み合わせが見つかるまで毎回いくつかの不適格な組み合わせを削除します。

b: ユーザー像と製品の推奨事項

アソシエーション分析に加えて、データ分析のもう 1 つの一般的なアプリケーション シナリオは、ユーザー ポートレートを構築することです。ユーザー ポートレートは、企業がデータを通じて抽象化したユーザーのビジネス全体像であり、消費者の社会的属性、消費習慣、消費行動を描写し、製品デザインや広告宣伝の基礎を提供します。たとえば、Douyin はいいねやコレクションなどのデータを使用してユーザーを説明し、ユーザーが興味のあるコンテンツをプッシュします。

c: 広告心理学とABテスト

販売者から渡されたクーポンを使って、さまざまな注文をしたり、注文を組み合わせたりすると、一定の割引が受けられますが、出費が多くなり、不要なアイテムを大量に購入することになります。この背景には、企業がビッグデータ分析、広告心理学、行動経済学などの手段を利用して、ユーザーに特定の意思決定や行動を促すようになっていることが挙げられます。

心理的アンカリング現象人が未知の価格を見積もるとき、初期値(アンカーポイント)が人の心のベンチマークや出発点として機能します例えば、航空券を予約する場合、推奨便リストに掲載されているすべての便が最も手頃な価格であるとは限らず、他の推奨便よりも大幅に割高になる可能性が高く、他の運賃のメリットを引き出すために選択されないようにすることがその役割です。 ; 有名な時計店の入り口に100万の時計を置くと、自分で選んだわけではないのですが、心に定着してしまい、消費額が以前よりも高くなります(100万以下) )。

仮想ストアのアルゴリズムは常に試行錯誤を繰り返し、最適な推奨事項を見つけようとします。インターネット製品の開発では「試行錯誤を続ける」ことがよく使われます。たとえば、製品に複数の選択肢がある場合、A/B テストを使用して選択を行うことができます。他のユーザーはソリューション B を使用します。しかし実際には、企業がA/Bテストを行うのは2つのバージョンだけではなく、広告のタイトルのデザイン、フォント、太さ、サイズ、色、背景、トーン、文型、レイアウトなど、数え切れないほどの変更が加えられています

拡張:人間は視覚的な動物であり、画像情報に最も敏感であり、視覚反応野は大脳皮質の 40% を占めます。データ視覚化のデザインは、情報量と可読性の関係のバランスをとり、信頼性(リアル)、表現力(明瞭)、エレガント(シンプルで美しい)となるようにする必要があります


3. ビッグデータは何を変えましたか?

それは人々の生活習慣を変え、ビッグデータの時代にはすべての経験、時間、記憶が再定義されます。

ビッグデータは、人間が問題を発見して解決する方法を変えていますこれまでは大量のデータに対してサンプリング手法しか利用できませんでしたが、ビッグデータの時代では全量のデータを直接分析することが可能となり、従来の手法では得られなかった法則や結論が得られるようになります。

専門家の経験からデータ駆動型まで、人々は問題について考えています。AlphaGo には数億のチェスのゲーム データが必要で、スマート カーには運転中の現実世界の道路状況データが大量に必要で、顔認識にも大量の顔画像が必要です。

「データ自体を知ることよりも、データがどこにあるかを知ることの方が価値があります。」

たとえば、円周率を暗記するよりも、円周率の結果を求める方法を知っている方が明らかに役に立ちます。記憶を理解に置き換えることも、ビッグデータによってもたらされるもう一つの変化です。

結論:大量かつ豊富で高品質なデータは AI の基盤であり、AI が継続的に自ら学習してパフォーマンスを向上させるのに役立ちます。ビッグデータは AI に「知性」を与えていると言えます。機械が「インテリジェント」な学習を実現できるようにするプロセスは、強力な機械学習アルゴリズムに依存する必要があります。次の章もお楽しみに...


 過去のハイライト:

【AIボトムロジック】—第3章(パート2):情報交換、情報の暗号化、復号化、情報のノイズ

【AI ボトムロジック】—第 3 章 (パート 1): データ、情報、知識 & シャノン情報理論 & 情報エントロピー

[機械学習]—続き: 畳み込みニューラル ネットワーク (CNN) とパラメーター トレーニング

[AI ボトムロジック]——第 1 章と第 2 章: 統計と確率論とデータの「罠」

おすすめ

転載: blog.csdn.net/weixin_51658186/article/details/131426516