Caso: Python y R, ¿quién es más adecuado para Big Data Spark / hadoop y aprendizaje profundo?
Pregunta 1: Big data spark / hadoop, python y lenguaje R, que es utilizado por muchas personas
Prepare los datos: la captura de pantalla es la siguiente, los recursos específicos están en mis recursos de carga, puede descargar
Implementemos el problema anterior
# Crear base de datos
CREAR BASE DE DATOS db_language |
# Crear tabla
CREATE TABLE db_language.tb_language_account ( id_number string, cadena de área, cadena de pitón, r cadena, cadena sql_str, cadena de minería rápida, cadena de Excel, cuerda de chispa, Mangshe cadena, cadena de tensorflow, cadena scikit_learn, matriz de cadenas, cuerda knime, cuerda profunda cadena spark_hadoop, ntools int, cadena de herramientas de votación ) FORMATO DE FILAS CAMPOS DELIMITADOS TERMINADOS POR ',' LÍNEAS TERMINADAS POR "\ n"
|
# Importar datos
CARGAR DATOS ENTRADA LOCAL '/opt/data/sw17-top11-dl-sh.anon.csv' EN LA TABLA db_language.tb_language_account |
# 大 数据 chispa / hadoop, cuántas personas usan python (683)
#count (), sum (), avg (), max () .....
SELECCIONE contar (*) como contar DESDE db_language.tb_language_account DÓNDE python = "1" Y spark_hadoop = "1"; |
#大数据spark/hadoop,使用R语言有多少人
SELECT count(*) as count FROM db_language.tb_language_account WHERE R="1" AND spark_hadoop="1"; |
#合并结果:
#count 683 606
SELECT t1.p_c,t2.r_c FROM (SELECT count(*) as p_c, "1" as id FROM db_language.tb_language_account WHERE python="1" AND spark_hadoop="1" )t1 JOIN( SELECT count(*) as r_c,"1" as id FROM db_language.tb_language_account WHERE R="1" AND spark_hadoop="1" )t2 on t1.id=t2.id |
#注解
我的数据资源是放在/opt/data/sw17-top11-dl-sh.anon.csv,以上操作都是在hive中进行的。
#注意
在hive上执行的sql语句别忘了后面的 “;”切记切记