¿Qué tan grande de datos bigdata la chispa lectura Amazon S3 cubo de datos?


1. Tenga en cuenta que mi entorno como su entorno?

Medio Ambiente: chispa nativo (versión para compensar el tiempo, no en el espacio de trabajo)
Sistema Operativo: Ubuntu 16.04
versiones de paquetes Jar: véase el artículo de la cola (es demasiado largo, la cabeza abierta antiestético)


2. Cómo realizar la escritura chispa concha?

En primer lugar, ejecute la secuencia de comandos shell de chispa. Que sepa con certeza que está en / de chispas / bin / ahora!
Cambie al directorio en el que la secuencia de comandos sh chispa cáscara y luego se ejecutan en la línea de comandos.

$ cd /spark/bin/
$ ./spark-shell	//我是执行命令

Luego imprime una larga lista de información de registro, ver la salida del icono de la chispa de texto y programas de la chispa> línea de comandos cuando tiene éxito.

spark>

En esta larga lista de información de registro, lo que queremos saber, de hecho, el efecto es equivalente al siguiente código:

//Scala 编程语言
val conf = new SparkConf().setMaster("local").setAppName("SparkSQL")
val sc = new SparkContext(conf)

La primera línea de acción es la creación de maestro para el local, local y nombre de la aplicación aplicación se llama SparkSQL.
clúster distribuido se divide en maestro y los esclavos (los trabajadores). Anfitrión hay papel regulador como intermediario, los esclavos son nodos esclavos. Expansión: maestro y los esclavos en parejas tan agradable, ¿verdad? Y un buen uso durante mucho tiempo. Pero entonces, los esclavos son los servidores del significado, lo que plantea una serie de objeciones personalidades de la cultura, que los ingredientes contenidos en la definición de la discriminación, se les pide a cambio!

Los segundos medios de línea que un nuevo SparkContext. SparkContext juega un papel principal en la aplicación aplicación de chispa, que es responsable de interactuar con el grupo de programas y chispa, incluyendo los recursos de clúster de aplicaciones, crear RDD, acumuladores y las variables de difusión.

Toda ejecución chispa cáscara, ayudará automáticamente a crear este sc (SparkContext), podemos utilizar directamente detrás de él en la línea de comandos. Por supuesto, también puede recrear a sí mismo.


3. Cómo usar chispa concha? lenguaje de programación Scala

chispa-shell nativo puede ser operado utilizando Scala o Python. Estamos utilizando Scala para conectar Amazon S3. Al utilizar Python siente una gran cantidad de operación a cielo, muchos paquetes no están disponibles, es necesario importar sus propios, los lectores interesados ​​pueden ir a probar.

Scala s3 utilizando el conector de chispa-shell en

//set the configuration
sc.hadoopConfiguration.set("fs.s3a.access.key", "your access key")
sc.hadoopConfiguration.set("fs.s3a.secret.key", "your secret key")
sc.hadoopConfiguration.set("fs.s3a.endpoint", "endpoint:port ")
sc.hadoopConfiguration.set("fs.s3a.connection.ssl.enabled", "false")

//read
val myRdd = sc.textFile("s3a://bucketms/notebook/text")  
//write
val myRDD.saveAsTextFile("s3a://bucketms/notebook/text")  
//count text data num
myRdd.count

clave de acceso y clave secreta pueden entenderse como acceso a la cuenta de usuario y contraseña, s3 es asignado por el servidor.

punto final: el puerto es la dirección IP y el puerto que esté listo para conectar el servidor S3.

El significado de la cuarta línea consiste en desactivar SSL.


Se adjunta: usar el paquete

Necesidad de utilizar el paquete para ser puesto
frasco bajo la chispa directorio del paquete

1. AWS SDK Java jar versión del paquete (servicio AWS)

AWS-java-sdk-1.11.404.jar
AWS-java-sdk-core-1.11.404.jar
AWS-java-sdk-s3-1.11.404.jar

2. hadoop AWS versión del paquete (servicio AWS)

Hadoop-AWS-3.0.3.jar

3. Jackson versión del paquete (enlace de datos, comentario)

Nota com.fasterxml.jackson bajo específica jackon envuelto !!!
Jackson-Anotaciones-2.7.8.Jar
Jackson-Core-2.7.8.Jar
Jackson-databind-2.7.8.Jar

Jackson-core-ASL-1.9.13.jar
Jackson-mapper-ASL-1.9.13.jar

Publicados 204 artículos originales · ganado elogios 59 · Vistas de 140.000 +

Supongo que te gusta

Origin blog.csdn.net/baidu_34122324/article/details/85082112
Recomendado
Clasificación