ビッグデータの現在および将来の状態を理解するために、我々は28団体から31人のIT技術幹部にインタビュー。我々は彼らに尋ねた、「あなたは、データの抽出、分析であり、ツールとフレームワークが何であるかを使用される最も人気のある言語の報告?」次の記事を以下にまとめた後、それらを当社の記録を伝えることです。
パイソン、スパーク、カフカ
促進するためのビッグデータと人工知能AL / MLの機械学習では、スカラ座やPython言語とApacheスパークますます人気。
OLAPデータウェアハウスのマイグレーション、機械用途レス構造ならば、Pythonの開発を学びます。PythonのMLモデルを記述するための開発者は、Python拡張がサポートを提供している、非常に便利です。
開発のための抽出、RおよびPythonプログラミングをストリーミングするためカフカは、もちろん、Javaは一般的です。SQLは消えませんが、それはビッグデータの親友ではないのですが、それより多くの人々がデータにアクセスできるように、そのオープン性は、ガートナーが幻滅の谷の外のHadoop上でSQLをしましょう。
当社は、Hadoopの、スパークやカフカやその他の新興技術などのデータウェアハウスの技術も、赤方偏移、スノーフレーク、ビッグクエリは非常に興味を持って多くの人々の多くを参照してください。
技術スタックを学ぶMLマシンは、強力なツールは、学習曲線を減らし、彼らの学習の人々の信頼を高めるためにTensorFlow追加されます。
第三はKubernetesあり、また、多くのファンを集め、徐々にユーザ領域を展開します。
これらのオープンソースツールの理由を提供し、そのようなプラットフォームに統合されているスパーク、RやPythonのような、他のオープンソースツールが広く使用されているがあります。
大きなデータワークフローにおいて、それは、Python、Rスパーク開発コードまたはスクリプトを新しいノードに導入することができます。実行されると、ノードはワークフローの実行コード導管ノードの一部となります。
しばらく前に、R言語は、特にデータサイエンス事業モデルでは、支配的でした。今、真のイノベーションは、Pythonの周りで、Pythonは多くのツール、ライブラリので、サポートしています。
そして、人々は、Sparkとカフカを模索し始めました。猛烈なスピードハンドル大きなディスク・ボリュームでスパーク。カフカは、この言語は、リアルタイムアプリケーションとモデルを実行するために、過去のデータの分析のための理想的な、およびリアルタイムデータ取得モデルへのアクセス、およびヘルプのデータパケットであるR、メッセージングシステムスパークに転送データに使用されています。あなたが参加することができ、システムビッグデータを学びたいビッグデータテクノロジーは、学習 Junyangケリ:522 189 307
最後に、私はあなたがすべてすぐに満足のいくプラン、迅速な推進と賃上げを取得するには、達成している希望、人生の頂点に取りました。
いくつかの一般的なツールとフレームワークはまた、VoltDB、スパーク、嵐、FLINK、カフカ、およびいくつかのNoSQLデータベースとしてメモリリレーショナルデータベースが含まれています。
私たちは、あなたがそのようなC#、ゴー、ジャワ、JavaScriptやPythonやRubyの、PHP、スカラ座やスウィフト言語としての言語のさまざまな呼び出すことができ、CRUDデータ操作のLINQのAPIのすべての種類を提供します。高性能(予測可能な低レイテンシー)データベースの設計は、私たちは主の代わりに文のデータアクセスプログラミングのために作成したので、これまでのSQLをサポートしていません。
顧客は、彼らが現在実施されている作品を分析したい場合は、我々はSQLのサポートを追加し、我々は分析のためのバックエンドデータウェアハウスやデータプールにエクスポートデータをサポートします。こうした顧客のデフォルトデータがますます注目されているパイプなどのデータ抽出のために、カフカとキネシスコミュニケーションツール。
すべてのサイズの主要プロトコルSQLの企業がデータプラットフォームを使用すると私たちは考えます。デプロイメント・マネージャー・クラスターのために、我々はドッカーとKubernetesアプリケーションが急速に成長してご覧ください。データ抽出は、Apacheカフカは、我々のユーザーの多くは、我々は最近、コンフルエントカフカコネクタパートナープログラムに認定を達成しています。優れた処理および分析するためにはApacheののIgniteと、私たちは多くの場合、Apacheのスパーク一緒にメモリデータストレージとして使用。
Apacheのカフカの事実が標準となっている、それは(特に、センサーデータ)リアルタイムデータの近くに大量に抽出することができ、データの分析にインターネットにストリーミング。最大のパフォーマンス分析、データベースの機械学習と高度な分析のために非常に重要な方法の予測分析を提供するために、大規模な組織になっています。
タブローからルッカーに、マイクロソフトパワーBIからIBM Cognosのに続いMicroStrategyの、というように:視覚的なレポートでは、現在市販されている全体のデータ可視化ツールの様々なものがあります。ビジネスアナリストは、データのレポートを視覚化するために非常に多くの選択肢を持っていたことがありません。彼らは確かに、完全かつ正確に、数秒から数分のデータから最大の洞察を得るためにそれらを可能にするので、必ず彼らの基本的なデータ分析プラットフォームは、現在大規模かつ高い性能を有することになります
私たちは、Apacheカフカを使用して、データの抽出とインデックスのさまざまなツールを使用してNIFIプロジェクトは、現在最も一般的です。
私たちは、その後、HadoopのYARNとHBaseの/ HDFSデータ永続化層のための、およびApacheなどツェッペリン、スパーク/スパークストリーミング、嵐、SciKit-学び、Elasticsearchなどのプロジェクト、これらのオープンソースプロジェクトを学習、予測モデリング、分析と深さをデータ処理のために使用され、意志我々はまた、才能、Pentahoは、タブローや他の優れた商用ソフトウェアやツールを使用することができます。
TensorFlow、タブロー、PowerBI
1)私たちは、アマゾンアテナ(Apacheのプレスト)は、ログ分析のために使用します。
2)当社は、データの視覚化とレポート作成のためのモードAnalyticsを使用しています。
3)私たちは、トラフィックパターンを分析するためにTensorFlowを使用しています。
ML角、TensorFlow、Pytorch、Kerasからのデータの科学的、DLフレームの利用可能性を確認するために、カフェは、大規模なデータ・アプリケーション及びMLのためのモデルを作成する際に大きな技術革新を行いました。
BIユースケースは、データアナリストのサイズを拡大しようとタブロー、PowerBI、MicroStrategyの、TIBCOとQlikは、ダッシュボードの前にあるデータの数と役割を拡大しようとしています。
技術チームは、MapReduceのから離れて動いていると、私たちは、Sparkを見ました。JavaやPythonの人気が高まって。カフカは、データ抽出、可視化ビジュアルアルカディアデータ、タブロー、Qlik PowerBIとレポート生成に使用されています。
複数の言語や複数の解析ツールで多くのプロジェクト。もちろん、我々は、使用シナリオの多くは、データ・サイエンスのためのSQL言語を見ることができるようにPythonやRなどの言語が、それはまた、JavaやC#プログラミング言語として古典を再生するための場所です。科学的データのために、私たちは、このようなタブロー、PowerBIとClickViewなどのセルフサービスBIツールに続くトップキットTensorFlowを、持っています。
他の
オープンソースの世界。より多くの人々はからのリアルタイムの回答に対する需要によって駆動され、ストリーミングデータに回っています。
もちろん、これは特定のプロジェクトに依存して、我々は、様々なメカニズムを抽出、リッチテキスト、文書の分類、SciByte、大量のデータ、スマートラベルツール、綿密な研究データに使用されて見てきました。パーソナライズお薦めや意見などの情報、評判分析およびその他のリッチビッグデータ。
ブラウザコンテンツから顧客を検索を使用するか、独自のツールを構築する方法を探している、SQL言語はビッグデータの言語がまだある、それはHadoopのと他のデータベースの上に適切に動作することができます。
ODataのは、人々はそれをさらにので、新しい使用しているされていない、と一部の人々は、動的にクエリにGraphQLを使用して、サーバとクライアントからデータを取得します。
サーバサイドプログラミング、よくやったなMongoDBのなど、多くの新技術、キャッシングのためのRedisがあります。非常に便利なバックエンドのデータストレージとしてElasticsearch AWS S3およびS3については、当然のことながら、明確に技術とデザインパターンを確立してきました。
RおよびPythonの人々が身近なものに固執し、ビッグデータシステムは、多くの支持を提供し、多くのAPIを持っています。データ抽出の観点から、それはデータの入出力を処理するために多くの方法として提供することが望ましい、多くのツールとしてサポートすることができ、これはクリティカルマスではありません。食料調達の才能、需要開発ツールとAPIのサポートの両方。
大企業は、彼らがさまざまなツールを持っているので、何千人もの人々は、データ統合を提供するなど、さまざまなバックエンドのデータと生産の加速モードと標準化されたツールとの統合に行い、人々は同じ科学的データとBIツールを使用したい、加速そして、データディレクトリとセマンティクスが定義されました。プラットフォームの中心部に位置データディレクトリは、組み合わせて使用されるすべてのツールとデータソースへの開いているかもしれ層の中央部に、セキュリティ、統合と加速に焦点を当てます。
多くの点でビッグデータの世界は急速に、オンプレミスを含め、すべての開発環境に発展するというようにクラウドコンピューティング。私たちは、言語の多くは、データフォーマット実行エンジンの変更を参照してください。ビッグデータのコア値にかかわらず、使用される技術の、私たちが提供するドラッグアンドドロップまたはコード環境を使用して、これらのさまざまなツールや規格バイパスに顧客を可能にすることです、手動で任意のコードを記述する必要はないかもしれない、フレームワークの一部として簡単に再現性のデータパイプライン、プラットフォームや言語が大規模な展開を行うことができます。