DataOps:ビッグデータの新しいフロント

出典ます。https://www.linktimecloud.com/posts/1915

2008年に私はで私の最初の仕事(Ask.com)でのHadoopを使い始めました。なぜなら増加ワークロードを処理できなかった高価なOracleクラスタ分析の当時、同社は、Hadoopのに切り替える必要がありました。ツイッターでのデータエンジニアとしての第2の仕事が続き、私は最初の行に関与していたし、(その「ビッグデータ」として知られているほぼすべてのTwitter対応の製品を促進するためにデータを使用する方法を、私は簡単なそれを呼び出すことを好みます"データ")。2008年以来、私はそれが世界をどのように変化したか、データや証人の力を目撃しました。あなたはケンブリッジアナリスト企業は、2016年に米国の大統領選挙に影響を与える方法についての記事を読む場合は、この変更の特別な意義がもたらす感じるだろう。

人気の用語「ビッグデータ」は10年に表示されますので、大規模なデータは企業だけの数が少ないために有用であると思われます。シリコンバレーでは、ほぼすべてのユニコーンの広く彼らの成功を駆動するために大規模な企業データに使用されています。中国では、BATは、大規模なデータの芸術をマスターしたように、我々はまた、主にスーパーユニコーンをベースビッグデータ技術会社で、このような見出しを持っていますが、データは使用することは困難であるどのように大きなジョークがたくさん残っています。そして、残念事実は、ほとんどの企業のために、どちらかのビッグデータは依然として人気ワード、達成することが実に困難なことです。

幸いなことに、新興の規律は、通常、企業のデータ容量のロックを解除するための鍵です。それはDataOps、およびDevOpsチームは明らかに類似した名前だけでなく、ソフトウェアの開発とDevOpsチーム同様の役割は、データエンジニアがデータの使用を簡素化したいとビジネスの成功への本当のデータ駆動型のアプローチです。

今日は、我々は簡単にそれDataOps、すべての会社があなたのデータから実際の値を取得したい非常に重要である理由を説明します。


DataOps何ですか

ウィキペディアは定義されてDataOpsです。

DataOpsは、プロセス指向の自動化された方法、分析および品質の向上とサイクルタイムのデータ分析を減らすためにチームによって使用されるデータです。

WikipediaのDataOpsページには、新しい学問分野の詳細を2017年2月に作成しました。DataOps定義は確かに時間をかけて開発されますが、主な目的は明確である:データ分析の質を改善し、データ分析の期間を短縮します。

DataOpsは、データ分析のためのしきい値を下げることができますが、それは、データ解析が簡単な作業になりことはありません。プロジェクトデータを成功裏に実施するには、まだ、同社のデータ駆動型の良いデータ仕様と使用を開発するために、このようなデータやビジネス文化との関係の深い理解と、多くの作業を必要とします。しかし、DataOpsが大幅にデータを使用してデータを使用するためのしきい値を下げ、企業がより速くなることができ、人々の効率を向上させる、それ以前の、より優れたデータの使用を開始し、低コストとリスク。

DataOps問題

ビッグデータのほとんどのアプリケーションは、AI(人工知能)やBI(ビジネスインテリジェンス)に分類することができます。AIは、ここでは、機械学習、データマイニングやデータから、以前に未知の知識を得るための他の技術を含む人工知能機能の広い意味です。BIは、人々が理解するために、より簡単なレポートに大量のデータを要約します統計的手法の大きい使用です。要するに、新しいものを計算するために様々なアルゴリズムを使用して、AIデータは、BIは、人々が理解できる統計の数字です。

書き込みAI / BIプログラムは難しいことではありません。あなたは数時間で顔認識プログラムTensorFlowを設定することができます。あるいはExcelは、この目的を達成することは困難ではありません使用して、データの一部を描画するためにMATLABを使用しています。問題は、実際にユーザー指向の製品の生産をサポートするために、結果を使用するか、これらの魔法の数字に基づいて、会社の運命を決定するために、あなたは単なる手作業よりも必要だということです。

次元の研究(上図)の調査では、それは、同社が大規模なデータ・アプリケーションは、以下の最も困難な問題を実装したいと考えていることがわかりました。

  1. データ品質を確認してください。
  2. コスト管理;
  3. 素敵なビジネスニーズと期待。
  4. ビッグデータ・プロジェクトの価値を定量化します。
  5. ビッグデータの専門知識を持つ人を見つけるのは難しいです。
  6. パフォーマンスとコンフィギュレーションの問題を修正。
  7. 正しいデータフレームを選択します。
  8. 技術リソースの不足。
  9. 動作の信頼性を維持します。
  10. タイムビッグデータ・プロジェクトは、予想よりも時間がかかります。
  11. あまりにも多くの技術やサプライヤーを管理したいです。
  12. より多くの消費者へのオープンデータアクセス。
  13. 実用的な情報を作成することは困難。
  14. 複雑な問題解決とデバッグ。

別の研究で、Googleのデータアナリストは、ほとんどの機械学習プロジェクト、MLコードの準備に費やした時間のわずか5%ということを発見しました。そして、時間の95%は、MLのコードを実行するために必要なインフラストラクチャのために提供しました。

両方の研究では、我々は簡単に多くのハードワークが実際にコードを書いていない見ることができます。準備全体のインフラや生産と効率的なオペレーションコードのレベルは非常に時間がかかり、多くの場合、さまざまなリスクを伴います。

在谷歌的研究中,他们引用了我的前同事Jimmy Lin和Dmitry Ryaboy(来自Twitter Analytics团队)的话:我们的大部分工作可以被描述为“数据管道工”。 实际上,DataOps使管道工的工作更简单和高效。

DataOps目标功能

DataOps旨在减少整个分析周期时间。 因此,从搭建基础架构到使用数据应用的结果,通常需要实现以下功能:

  1. 部署:包括基础架构和应用程序。无论底层硬件基础设施如何,配置新系统环境都应该快速而简单。部署新应用程序应该花费几秒而不是几小时或几天;
  2. 运维:系统和应用程序的可扩展性,可用性,监视,恢复和可靠性。用户不必担心运维,可以专注于业务逻辑;
  3. 治理:数据的安全性,质量和完整性,包括审计和访问控制。所有数据都在一个支持多租户的安全环境中以连贯和受控的方式进行管理。
  4. 可用:用户应该能够选择他们想要用于数据的工具,并根据需要轻松运行它们。应将对不同分析/ ML / AI框架的支持整合到系统中;
  5. 生产:通过调度和数据监控,可以轻松地将分析程序转换为生产应用,构建从数据抽取到数据分析的生产级数据流水线,并且数据的使用应该很容易并由系统管理。

简而言之,它类似于DevOps方法:从编写代码到生产部署的路径,包括调度和监视,应由同一个人完成,并遵循系统管理的标准。 与提供许多标准CI,部署,监控工具以实现快速交付的DevOps类似,通过标准化大量大数据组件,新手可以快速建立生产级的大数据平台并充分利用数据的价值。

DataOps方法论

DataOps的主要方法论仍处于快速发展阶段。 像Facebook和Twitter这样的公司通常会有一个专门的数据平台团队(Data Platform Team)处理数据运营并实现数据项目。 但是,他们的实现方式大多与公司现有的Ops基础设施集成,因此通常不适用于其他人。 我们可以从他们的成功中学习经验,并建立一个可以由每家公司轻松实施的通用大数据平台。

要构建DataOps所需的通用平台,我们认为需要以下技术:

  1. 云架构:我们必须使用基于云的基础架构来支持资源管理,可扩展性和运营效率;
  2. 容器:容器在DevOps的实现中至关重要,它在资源隔离和提供一致的dev / test / ops环境中的作用对于实现数据平台仍然至关重要;
  3. 实时和流处理:实时和流处理现在在数据驱动平台中变得越来越重要,它们应该是现代数据平台的一等公民;
  4. 多分析引擎:MapReduce是传统的分布式处理框架,但Spark和TensorFlow等框架日常使用越来越广泛,应该进行集成;
  5. 集成的应用程序和数据管理:应用程序和数据管理,包括生命周期管理,调度,监视,日志记录支持,对于生产数据平台至关重要。 DevOps的常规实践可以应用于应用程序管理,但是数据管理以及应用程序和数据之间的交互需要很多额外的工作;
  6. 多租户和安全性:数据安全性几乎是数据项目中最重要的问题:如果数据无法保护,则根本无法使用。该平台应为每个人提供一个安全的环境,以便每个人都可以使用这些数据并对每个操作进行授权,验证和审核。
  7. Dev和Ops工具:该平台应为数据科学家提供有效的工具,以分析数据并生成分析程序,为数据工程师提供大数据流水线的工具,并为其他人提供消费数据和结果的方法。

我们的思考

目前的大数据技术是强大的,但它们对于普通人来说仍然太难使用。部署一个适合生产环境的数据平台仍然是一项艰巨的任务。对于已经开始这一过程的公司来说,他们的数据平台团队大部分时间仍在做相似的事情,就像重新造轮子。

有些公司已经意识到这些问题(Qubole,DataMeer,Bluedata等),并开始采用不同的方法来解决这个问题。其中一些使用基于容器的解决方案,另外一些以Hadoop为中心构建其平台。

我们(Linktime Cloud)也在开发新一代数据平台。我们使用经过验证的分布式操作系统(Apache Mesos)作为底层支持平台,集成了很多常用的大数据组件,并将大多数大数据应用程序容纳在统一的Mesos集群中,而不是对大数据应用程序做特殊处理。 这种方法使我们能够标准化应用程序和数据的管理,从而提供关键技术并实现上述目标。

我们相信,在不久的将来,很多公司将使用集成的大数据平台快速,轻松地构建真正的大数据流水线及应用,而不仅仅是安装Hadoop并运行一些Hive查询。


原作者:彭锋
翻译人:王龙飞
原文链接:
http://www.linktimecloud.com/posts/1925

おすすめ

転載: www.cnblogs.com/jingsupo/p/12324867.html