Você sabe que as grandes ferramentas de dados e linguagem estruturas fazer?

Para entender o estado atual e futuro do big data, foram entrevistados 31 executivos de tecnologia de TI de 28 organizações. Nós lhes perguntou: "Você está na extração de dados, análise e elaboração de relatórios das maioria das linguagens populares usados, o que ferramentas e frameworks são?" O seguinte artigo é dizer-lhes nossos registros, após resumidos abaixo.

Python, Spark, Kafka

Com grandes dados e inteligência artificial aprendizagem de máquina AL / ML para promover, Scala e linguagem Python e Apache faísca cada vez mais popular.

Migração de data warehouse OLAP, aprendendo desenvolvimento Python se a máquina usa menos estrutura. Os desenvolvedores escrevam modelo Python ML é muito conveniente, extensões Python têm prestado apoio.

Kafka para streaming de extração, R e programação Python para o desenvolvimento, é claro, Java é comum. SQL não vai desaparecer, mas não é um grande dados melhor amigo, mas sua abertura para que mais pessoas podem acessar os dados, Gartner deixar SQL em Hadoop para fora da calha da desilusão.

Vemos um monte de tecnologias de armazenamento de dados, tais como o Hadoop, o Spark e Kafka e outras tecnologias emergentes, muitas pessoas também Redshift, Floco de Neve e Big consulta muito interessado.

ML aprendizagem de máquina pilha de tecnologia, acrescenta TensorFlow uma ferramenta poderosa para aumentar a confiança das pessoas na sua aprendizagem, reduzindo a curva de aprendizado.

O terceiro é Kubernetes, também reuniu um monte de fãs, e gradualmente expandir a área de usuário.

Há outras ferramentas de software livre são amplamente utilizados, tais como a faísca, R e Python, que é integrado com a plataforma de fornecer uma razão para estas ferramentas de código aberto.

No fluxo de trabalho de dados de grande porte, pode ser introduzido com o Python, código de desenvolvimento R faísca ou script um novo nó. Quando executado, o nó se tornará parte do nó de canalização código de execução de fluxo de trabalho.

Algum tempo atrás, a linguagem R foi dominante, especialmente no modelo de operações científicas de dados. Agora, a verdadeira inovação está em torno de Python, Python tem suporte porque as ferramentas de muitos, bibliotecas.

Então as pessoas começaram a explorar faísca e Kafka. Faísca em volumes grandes de disco vertiginosa punho velocidade. Kafka é usada para transferir dados a uma faísca sistema de mensagens, R esta linguagem é ideal para a análise de dados históricos, e acesso ao modelo de aquisição de dados em tempo real, e os pacotes de ajuda de dados, a fim de executar aplicações em tempo real e modelos. Quer saber as grandes dados do sistema, você pode se juntar a tecnologia de dados grande aprendizagem abotoado Junyang: 522 189 307

Finalmente, eu desejo a todos vocês em breve ter conseguido, para obter oferta satisfatória, uma rápida promoção e aumento salarial, levou para o auge da vida.

 

[] Você sabe grandes ferramentas de desenvolvimento de dados e estruturas de grande linguagem de dados fazer?

 

 

Algumas ferramentas comuns e estrutura também inclui um banco de dados relacional de memória, como VoltDB, Spark, Tempestade, Flink, Kafka, e algum banco de dados NoSQL.

Oferecemos todos os tipos de CRUD operações de dados LINQ API, você pode chamar para uma variedade de linguagens, como C #, Go, Java, JavaScript, Python, Ruby, PHP, Scala e linguagem Swift. Porque o design de banco de dados de alto desempenho (previsível de baixa latência), criamos principalmente para a programação de acesso a dados, em vez de uma declaração, até agora não suporta SQL.

Quando os clientes querem analisar o trabalho que estão actualmente a ser implementada, nós adicionamos suporte SQL, vamos apoiar exportar dados para armazenamento de dados back-end e os dados piscina para análise. Para a extração de dados, ferramentas de comunicação Kafka e Kinesis tais como dados tubos padrão de clientes estão ganhando cada vez mais atenção.

Vamos ser consideradas como as empresas protocolo SQL primários de todos os tamanhos usam a plataforma de dados. Para o cluster do gerenciador de implementação, vemos Docker e aplicações Kubernetes está crescendo rapidamente. Para a extração de dados, Apache Kafka por muitos dos nossos usuários, que recentemente obteve a certificação no Programa de Parceiros Connector Kafka Confluent. A fim de melhor processamento e análise, que muitas vezes faísca Apache com Apache Ignite juntos e usado como armazenamento de dados de memória.

Apache Kafka fato se tornou um padrão, ele pode ser extraído em grandes quantidades perto de dados em tempo real (em particular, os dados do sensor), para a análise dos dados transmitidos para a internet. Para a análise de desempenho máximo, a aprendizagem de máquina de banco de dados e análises avançadas está se tornando uma das organizações de grande escala para fornecer análise preditiva de uma forma muito importante.

Para relatórios visuais, atualmente no mercado há uma grande variedade de ferramentas de visualização de dados: de Tableau para Looker, do Microsoft Power BI para o IBM Cognos então MicroStrategy, e assim por diante. Os analistas de negócios nunca tivemos tantas opções para visualizar dados do relatório. Eles certamente vai ter tanta certeza de que sua plataforma básica de análise de dados tem agora uma grande escala e de alta performance, permitindo-lhes completa e precisa obter uma visão máxima de dados em poucos segundos ou minutos,

Nós usamos uma variedade de ferramentas de extração de dados e indexação, usando Apache Kafka e projeto NIFI é atualmente o mais comum.

Vamos Hadoop fios e HBase / HDFS para dados de persistência layer, e então usado para processamento de dados, modelagem preditiva, análise e profundidade de projetos de aprendizagem, tais como Apache Zeppelin, faísca / faísca Streaming, Tempestade, scikit-learn e ElasticSearch estes projetos de código aberto, também podemos usar Talend, Pentaho, Tableau e outro software ou ferramentas comerciais em circulação.

TensorFlow, Tableau, PowerBI

1) Nós usamos Amazon Athena (Apache Presto) para análise de log.

2) Nós usar o modo Analytics para visualização de dados e relatórios.

3) Nós usamos TensorFlow para analisar padrões de tráfego.

Para ver a disponibilidade de informação científica quadro, DL de dados do ângulo ML, TensorFlow, Pytorch, Keras, Caffe fez uma grande inovação na criação de um modelo para aplicações de dados em larga escala e ML.

casos de uso de BI estão tentando expandir o tamanho de analistas de dados, Tableau, PowerBI, MicroStrategy, TIBCO e Qlik tentando expandir o número e papel dos dados na frente do painel.

Com a equipe técnica está se afastando de MapReduce, vimos Spark. Java e Python cada vez mais popular. Kafka é usado para extrair dados, visualização Visual Arcadia Dados, Tableau, Qlik PowerBI e relatórios de geração.

Muitos projetos em vários idiomas e várias ferramentas de análise. Claro, podemos ver um monte de cenários de uso e a linguagem SQL para a ciência de dados, linguagens como Python e R, mas também é o lugar para clássicos de jogo como as línguas # programação Java e C. Para dados científicos, temos top-Kit TensorFlow, seguido de ferramentas de BI self-service, como Tableau, PowerBI e ClickView.

outro

mundo open source. Mais pessoas estão se voltando para os dados de streaming, que é impulsionado pela demanda por respostas em tempo real a partir.

Claro, isso depende do projeto em particular, vimos uma variedade de mecanismos são utilizados para extrair, rich text, classificação de documentos, SciByte, dados em massa, ferramenta de etiquetas inteligentes, os dados de pesquisa em profundidade. Recomendações personalizadas e opiniões, análise de sentimentos e outros dados grandes ricos.

Encontrar clientes a partir do conteúdo do navegador a ser utilizado, ou estão procurando como construir suas próprias ferramentas, a linguagem SQL ainda é a língua de big data, ele pode funcionar corretamente em cima do Hadoop e outras bases de dados.

OData não é tão novo, as pessoas estão usando-o ainda mais, e algumas pessoas usam GraphQL a consulta de forma dinâmica e recuperar dados do servidor e cliente.

de programação do lado do servidor, existem muitas novas tecnologias, como MongoDB bem feito, Redis para cache. Para ElasticSearch o AWS S3 e S3 como o armazenamento de dados de back-end muito útil, é claro, foi claramente técnicas e padrões de projeto estabelecido.

R e Python pessoas vão ficar com suas coisas familiares, sistema de dados grande tem muitos API fornece um monte de apoio. Do ponto de vista da extração de dados, é desejável fornecer tantas maneiras de lidar com dados de entrada e de saída, pode suportar tantas ferramentas, esta não é uma massa crítica. talento Cater, ambas as ferramentas de desenvolvimento da demanda e suporte API.

As grandes empresas querem que as pessoas usam os mesmos dados científicos e ferramentas de BI, porque eles têm uma variedade de ferramentas, milhares de pessoas fazem em uma ferramenta padronizada e integração com vários dados de back-end e modo de aceleração da produção, incluindo o fornecimento de integração de dados, acelerar e um diretório de dados e semântica definida. diretório de dados localizado no centro da plataforma, incidirá sobre segurança, integração e aceleração para o centro de uma camada pode estar aberto a todas as ferramentas e fontes de dados utilizadas em conjunto.

mundo Big Data em muitos aspectos, vai desenvolver rapidamente em todos os ambientes de desenvolvimento, incluindo on-premise, cloud computing e assim por diante. Vemos um monte de línguas, e formato de dados mudança mecanismo de execução. valores fundamentais da Big Data é permitir que os clientes para ignorar essas diferentes ferramentas e padrões, usando arrastar e soltar ou ambiente de código fornecido, pode não precisar de escrever qualquer código manualmente, pipeline de dados facilmente reproduzível como parte do quadro, independentemente da tecnologia utilizada , plataforma ou linguagem pode ser realizada a implantação em larga escala.

Publicado 181 artigos originais · ganhou elogios 3 · vê 30000 +

Acho que você gosta

Origin blog.csdn.net/mnbvxiaoxin/article/details/104909479
Recomendado
Clasificación