免責事項:この記事はブロガーオリジナル記事です、ソースを明記してください。https://blog.csdn.net/u010597819/article/details/89441662
メタデータ
- 概念:データ辞書テーブルのデータベース、テーブルのテーブル、インデックステーブル、等のロックテーブル:のようなメタデータと呼ばれるデータの記述データ、
- アプリケーション
- 問題を見つけ:タスクが異常現れ、ソースノードは、代わりに上位層に遡っ起因する時間コストを言ってから、メタデータ・プラットフォームを発生問題を分析することができます。
- 分析:タスクのインパクトエリアは、タスクは、回復のタスクは、データの完全な回復を確保するために、このタスクの他のサブタスクの精度に依存する必要がありますが、問題のタスクに依存する、異常があらわれました
- サービス品質監視:たとえば、データベースは、メタデータタスクの実行効率およびロックトランザクションを提供し、その解析と最適化SQLにすることができます。それがデッドロックまたはタイムアウトのSQLを見つけたタイムリーな割り込み、サービスの信頼性の保証品質
データソース
データウェアハウス
- コンセプト:(データ
ウェアハウス)は、サブジェクト指向(指向件名)、統合(統合)、(不揮発性)、経営の意思決定をサポートするために、歴史的な変化(タイム・バリアント)データ収集を反映し、比較的安定した(意思決定でありますサポート)。通常、BI(ビジネスインテリジェント)ビジネス・インテリジェンスはまた、OLAPシステムに持っていることを意味する、基礎となるデータ・ウェアハウスの提供をサポートするためのデータがあります。業界の多くの有名なオープンソースプロジェクト国内ユニコーン、Apacheのに貢献してきたhttps://github.com/apache/kylin - OLTP:オンライントランザクション処理、オンライン・トランザクション処理。トランザクション指向
- OLAP:オンライン分析処理、オンライン分析処理。指向分析
なぜデータウェアハウス?
- 私が注文に注文センターのさまざまな部分、昨年を分析すると、収益性のランク付けした場合に行うにはどのように?図書館サービスへのダイレクトアクセス?ビジネスデータベースはZezhengをダウン照会しますか?お問い合わせの際受注デッドロックzezhengの下に付属していません(データ待ち時間を読み書きするには、マスターから分離してもまた増加し、同期を引き起こす可能性がありますか)?それから5年か?
- 私は、単一のボリュームの各ライダーの平均月収のライダーセンター(別のサーバーセンター上の異なるデータベースとの注文)を分析し、去年行う方法をしたい場合は?
- 私は、国の様々な枝の男性と女性労働者の分布を分析したい場合は、しかし、男性と女性が行うにはどのようにサービスの各ブランチのための識別システムを異なることがわかりましたか?たとえば、次のようにFを使って上海| M、北京使用0 | 1、広東省はFを使用|メートル、杭州が男性を使う|女性など同様の問題に
- 私は会社内の実際の受注やライブラリを見つけた場合はどのように違う行うには?例えば:試験リスト、試験データ、あるいはダーティデータシステム障害。あなたはこれらのデータを除外した場合は?
位置の数の役割
問題は、これらの位置の数に対応したソリューションを持っていた後、出産の問題の製品です
- データの分離。いくつかの位置に描画されたデータの安定したビジネスデータ毎日の抽出後の前日、いくつかの倉庫および履歴データの統計分析を提供するが、ビジネス・データは、任意の影響を与えないであろう
- データの標準化。シノニム様々なビジネスライブラリデータは、同義語は、データウェアハウスの統一標準化への一歩一歩となります
- データクレンジング。ダーティデータトラフィックは、使用後の解析のためのトラフィックデータを保持する権利を除外されます
位置の数を達成
番号倉庫モデリング
- スターモデル、スノーフレークモデル:共通倉庫モデリングの数は2つのカテゴリに分類します。雪のための最も一般的に使用されるモデル
- スターモデル:冗長データが存在することを可能にします。以上の2000のフィールド属性を超えるとBaiduのマップスケールのコアのような大規模な幅の広いテーブルの一般的なタイプ、。ドリルドリルの分析操作を容易にし、重合が掘削され、ドリルはシンナー次元の統計です
- スノーフレークモデル:3つのモデリングパラダイムに厳密に従っ。冗長データは、より高い性能を、低データ・トランザクションのコストは存在しません。しかし、モデルの複雑
ETL
- エキス:抽出、データ抽出、データステージは、一般的に全く同じビジネスモデルの構造と、サービスデータベースの実質的に七日の層を持つことになり、境界層は、ビンやビジネスのステージ数であります
- translate:清洗转换,数据清洗;一般会有一个ods(Operate Data Store)层,保留所有历史数据,轻度聚合,按照主题划分业务,数据标准化,脏数据过滤。ods层之后会有一个数据集市层,叫法较多例如:mdm,app前缀等。数据高度聚合,用户运营业务数据分析,针对某项业务进行数据统计指标计算。
- load:加载,数据加载;即数据加载至仓库
数据加载策略
- 快照表:日快照、月快照。按照每日、每月进行一次数据抽取加载。
- 拉链表:部分拉链、全表拉链。数据每次变化立即产生一条新得记录,每条记录均由有效期即:开始时间、结束时间。能够详细的反应某些状态的历史变化。且数据量比快照表更小。
数据分析及数据挖掘
- 如果没有数仓,数据分析的难度是可想而知的,数据分散在各种数据库各种数据源。并且存在脏数据,同义词等问题,会为分析带来很多的麻烦
- 数仓的主题划分,按照不同主题对各个业务进行分析统计。根据分析指标对公司的业务扩展及运营进行决策
- 最为广泛的例子是:根据统计分析发现男人再去商店买尿不湿的时候通常会喜欢买一些啤酒。如果不能同时满足这两个需求,那么他可能会选择其他商店。而且把这两个产品摆放在一起会节约购物时间提升购物体验。
无监督学习
K-均值
算法:k-均值。用于划分的k-均值算法,其中每个簇的中心都用簇中所有对象的均值来表示。
输入:
- k:簇的数目;
- D:包含n个对象的数据集
输出:k个簇的集合
方法:
监督学习
贝叶斯定理
贝叶斯分类算法基于贝叶斯定理。一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。
贝叶斯定理:
P(H|X)是后验概率,在条件X下,H的后验概率。例如:假设数据元组是界限于分别由属性age和income描述的顾客,而X是一位35岁的顾客,其收入为4万美元。H是一种假设,如顾客将购买计算机。则P(H|X)反映当我们知道顾客的年龄与收入时,顾客X将购买计算机的概率。
P(H)是先验概率,H的先验概率。对于我们的例子,它是任意给定顾客将购买计算机的概率,而不管他们的年历、收入或者任何其他信息。
P(X|H)是条件H下,X的后验概率。也就是说,它是已知顾客X将购买计算机,该顾客是35岁并且收入为4万美元的概率。
P(X)是X的先验概率。它是顾客集合中年龄为35岁并且收入为4万美元的概率。
贝叶斯定理提供了一种由P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法
朴素贝叶斯
RID | age | income | student | credit_rating | Class:buys_computer |
---|---|---|---|---|---|
1 | youth | high | no | fair | no |
2 | youth | high | no | excellent | no |
3 | middle | high | no | fair | yes |
4 | senior | medium | no | fair | yes |
5 | senior | low | yes | fair | yes |
6 | senior | low | yes | excellent | no |
7 | middle | low | yes | excellent | yes |
8 | youth | medium | no | fair | no |
9 | youth | low | yes | fair | yes |
10 | senior | medium | yes | fair | yes |
11 | youth | medium | yes | excellent | yes |
12 | middle | medium | no | excellent | yes |
13 | middle | high | yes | fair | yes |
14 | senior | medium | no | excellent | no |
朴素贝叶斯分类法工作过程
- 每行数据是一个n维属性的向量X={x1,x2,…,xn}
- 分类属性:buys_computer,假设有m个分类为C={c1,c2,…,cm}。当前案例分类只有两种,yes|no。分类法预测一个新的X值属于具有最高后验概率的类。也就是说X属于类Ci,当且仅当:P(Ci|X) > P(Cj|X),其中1≤j≤m,j≠i。预测分类就是求P(Ci|X)的最大值。根据贝叶斯定理:
- 最大のP(CI)| P(X)ので、これだけP(CI X)、すべてのクラスの定数です。クラスの事前確率P(CI)が未知である場合、一般的に、これらのクラスは、すなわち、P(C1)= P(C2)= ... = P(CI)等確率であると仮定されます
- データの特定のセットの属性の多くは、P(X | CI)を算出したオーバーヘッドは非常に大きくなることがあります。計算のオーバーヘッドを減らすために、あなたが想定簡単な条件とは独立してクラスを行うことができます。このように:P(X | CI)= P(X1 | CI)P(X2 | CI)... P(Xnの| CI)。各プロパティについて、プロパティの検査は、連続値または分類です。
- Akのプロパティを分類される場合、P(XK | CI)は| CI、D | DクラスCIにおけるタプルの数で割った要素CIクラストレーニングセットD Akの属性値XKの数です。
- Akのは、連続属性値である場合、属性値は、一般に、平均、μ、ガウス分布の標準偏差σと連続想定されます。したがって、P(XK | CI)= G (XK、μCiの、σci)
ベイズ分類は、クラスラベルを予測するために使用されます
分類:C1はbuys_computerに対応= YES、C2はないbuys_computer =に相当します。細分化データは、X =(年齢=若者、収入=中、学生=はい、CREDIT_RATING =フェア)願っています。
- P(CI)は、各クラスの事前確率です。
P(buys_computer=yes)=9/14=0.643
P(buys_computer=no)=5/14=0.357
- P(X | CI)、i = 1,2、Ciの各属性の事後確率を計算します
P(age=youth|buys_computer=yes) = 2/9 = 0.222
P(age=youth|buys_computer=no) = 3/5 = 0.600
P(income=medium|buys_computer=yes) = 4/9 = 0.444
P(income=medium|buys_computer=no) = 2/5 = 0.400
P(student=yes|buys_computer=yes) = 6/9 = 0.667
P(student=yes|buys_computer=no) = 1/5 = 0.200
P(credit_rating=fair|buys_computer=yes) = 6/9 = 0.667
P(credit_rating=fair|buys_computer=no) = 2/5 = 0.400
P(X|buys_computer=yes) = P(age=youth|buys_computer=yes)*P(income=medium|buys_computer=yes)*P(student=yes|buys_computer=yes)*P(credit_rating=fair|buys_computer=yes) = 0.044
P(X|buys_computer=no) = 0.019
则P(X|Ci)P(Ci)
P(X|buys_computer=yes)*P(buys_computer=yes)=0.028
P(X|buys_computer=no)*P(buys_computer=no)=0.007