Estuche de colmena (4)

Caso: Python y R, ¿quién es más adecuado para Big Data Spark / hadoop y aprendizaje profundo?

Pregunta 1: Big data spark / hadoop, python y lenguaje R, que es utilizado por muchas personas

Prepare los datos: la captura de pantalla es la siguiente, los recursos específicos están en mis recursos de carga, puede descargar

Implementemos el problema anterior

# Crear base de datos

CREAR BASE DE DATOS db_language

# Crear tabla

CREATE TABLE db_language.tb_language_account (

id_number string,

cadena de área,

cadena de pitón,

r cadena,

cadena sql_str,

cadena de minería rápida,

cadena de Excel,

cuerda de chispa,

Mangshe cadena,

cadena de tensorflow,

cadena scikit_learn,

matriz de cadenas,

cuerda knime,

cuerda profunda

cadena spark_hadoop,

ntools int,

cadena de herramientas de votación

)

FORMATO DE FILAS CAMPOS DELIMITADOS TERMINADOS POR ','

LÍNEAS TERMINADAS POR "\ n"

 

# Importar datos

CARGAR DATOS ENTRADA LOCAL '/opt/data/sw17-top11-dl-sh.anon.csv'

EN LA TABLA db_language.tb_language_account

# 大 数据 chispa / hadoop, cuántas personas usan python (683)

#count (), sum (), avg (), max () .....

SELECCIONE

contar (*) como contar

DESDE

db_language.tb_language_account

DÓNDE

python = "1" Y spark_hadoop = "1";

#大数据spark/hadoop,使用R语言有多少人

SELECT

count(*) as count

FROM

db_language.tb_language_account

WHERE

R="1" AND spark_hadoop="1";

#合并结果:

#count  683 606

SELECT

t1.p_c,t2.r_c

FROM

(SELECT

count(*) as p_c, "1" as id

FROM

db_language.tb_language_account

WHERE

python="1" AND spark_hadoop="1"

)t1

JOIN(

SELECT

count(*) as r_c,"1" as id

FROM

db_language.tb_language_account

WHERE

R="1" AND spark_hadoop="1"

)t2

on

t1.id=t2.id

 

#注解

我的数据资源是放在/opt/data/sw17-top11-dl-sh.anon.csv,以上操作都是在hive中进行的。

#注意

在hive上执行的sql语句别忘了后面的 “;”切记切记

 

 

 

发布了105 篇原创文章 · 获赞 536 · 访问量 7万+

Supongo que te gusta

Origin blog.csdn.net/qq_41934990/article/details/81902588
Recomendado
Clasificación