Plantilla de currículum de Big Data real (1) [Big Data-4 años de experiencia] Educación en línea

XX
27 años | Hombre | Pregrado de matrícula unificada | 4 años de experiencia | CET4, CET6
Móvil:
Correo electrónico:
Ventajas personales:
1. Ha realizado muchos proyectos, puede comenzar rápidamente con nuevos proyectos
2. Ama la tecnología, trabaja con seriedad, rigor, Tener una capacidad de aprendizaje relativamente fuerte y un sentido de la responsabilidad. Gran capacidad para resistir la presión, automotivado, bueno para la comunicación y el trabajo en equipo
3. Tener un conocimiento sólido de Java, dominar la programación en lenguaje Java y Scala
4. Dominar el uso de Spark y sus componentes SparkCore, Spark SQL, SparkStreaming
5. Dominar Hadoop Uso de Distributed File System y sus componentes HDFS, MapReduce, Yarn. Familiarizarse con la construcción del clúster de Hadoop
6. Dominar el principio de Kafka y ser capaz de integrarse con Spark y Flink para realizar el procesamiento y análisis de transmisión de datos
7. Dominar Hbase, Redis y otras bases de datos NoSQL
8. Dominar el principio de funcionamiento de Hive, el establecimiento de un almacén de datos y el uso de HQL Extracción completa del sujeto de datos, análisis multidimensional y ajuste 9.
Domine el sistema operativo Linux y pueda escribir scripts de shell
10. Domine el uso y el ajuste de la base de datos MySQL 11. Familiarícese con el uso
de herramientas auxiliares de big data como Kettle, Sqoop, Impala y Azkaban12
. Familiarizado con los principios básicos de Flink, capaz de usar Flink para procesar datos en tiempo real
13. Comprender la biblioteca de algoritmos de aprendizaje automático SparkMLlib y algoritmos relacionados de aprendizaje automático
14 Comprender los conceptos básicos de Python y el uso básico de Python
Posición esperada:
Ingeniero de desarrollo de big data a tiempo completo Salario negociable en Beijing
Experiencia laboral:
Nombre de la unidad:
Título del trabajo: Ingeniero de desarrollo de big data
Horas de trabajo: Noviembre de 2017-octubre de 2019
Descripción del trabajo: Principalmente dedicado al desarrollo de big data, incluidas estadísticas fuera de línea, Real- cálculo de tiempo
Nombre de la unidad:
Título del trabajo: ingeniero de desarrollo de big data
Horas de trabajo: octubre de 2015 a octubre de 2017
Descripción del trabajo: principalmente dedicado al desarrollo de big data, incluidas estadísticas fuera de línea y cálculo en tiempo real
Experiencia en proyectos
Proyecto 1: Plataforma de retratos de usuarios de educación en línea
Arquitectura del proyecto : SpringBoot + Vue + Flume + Hadoop + Hive + Spark + Hbase + Phoenix + Azkaban
Descripción del proyecto:
Con el vigoroso desarrollo del negocio de servicios de Internet, la informatización de la educación ha atraído cada vez más la atención. Los estudiantes se sienten perdidos cuando se enfrentan a recursos educativos en línea enormes y complejos. Este proyecto tiene como objetivo principal construir un modelo de retrato de usuario desde las perspectivas de la categoría de contenido en la que se hizo clic, la categoría de contenido comprada, la duración de la estadía en una página determinada y la evaluación del curso (profesor) después de escuchar la clase cuando el el usuario visita el sitio web de educación en línea. Con base en la recopilación y el análisis de la plataforma de big data, la configuración de la etiqueta de datos se realiza a partir de varios aspectos, como categorías de usuarios, contenido de pedidos, características de comportamiento y escenarios comerciales para compartir datos entre modelos y escenarios de aplicaciones.Operación refinada y servicios de marketing precisos .
Descripción de la responsabilidad:
Participar en el diseño y análisis de la arquitectura preliminar del proyecto
Importar los datos de Hive a Hbase para lograr el desacoplamiento
Al consultar la información de la fuente de datos en MySQL, obtener más datos en Hbase y luego usar Spark para completar el desarrollo de etiquetas coincidentes parciales de acuerdo con las reglas de etiquetas, como género, etnia, lugar de origen, afiliación política, ocupación, nivel de educación, situación laboral, etc.
Completo Como el desarrollo de algunas etiquetas estadísticas como el número de compras de cursos, frecuencia de escucha de cursos, frecuencia de compras de cursos, frecuencia de consumo, ciclo de consumo, etc. Utilice SparkMLlib para
completar el desarrollo de unas etiquetas mineras de acuerdo a las reglas de negocio. Como el modelo RFM, el modelo RFE y el modelo PSM, a través del algoritmo KMenas para completar la capacidad de consumo, la actividad y los retratos sensibles al precio de diferentes usuarios Proyecto 2: Educación en línea fuera de línea + arquitectura de software
del proyecto de almacenamiento de datos en tiempo real : Nginx + Flume + Descripción del proyecto
Hadoop + Kafka + Spark + Flink + Hbase + Redis + Superset + Azkaban : La educación siempre ha estado estrechamente relacionada con los datos. A través de la integración de datos distribuidos en múltiples niveles de enseñanza, aprendizaje e investigación y el uso efectivo de la tecnología de big data. , fundamentalmente puede traer educación mejora integral. Esto requiere una tecnología que pueda transformar varios datos recopilados en el procesamiento comercial diario en información con valor comercial, y los sistemas de bases de datos tradicionales no han podido asumir esta responsabilidad. Este proyecto construye principalmente un almacén de datos fuera de línea + un almacén de datos en tiempo real, coloca la tabla de dimensiones en Redis y completa datos comerciales fuera de línea y estadísticas de datos en tiempo real y visualización en pantalla grande a través de la tecnología de big data Spark + Flink + Hbase. Combinado con el análisis integral de big data, puede optimizar la inscripción y los planes de enseñanza, ayudar a los estudiantes a mejorar la eficiencia del aprendizaje y brindar servicios de aprendizaje personalizados en línea con la planificación profesional. Al mismo tiempo, también puede proporcionar a los gerentes soporte de datos e información para la toma de decisiones basada en datos para ayudar a los gerentes a tomar mejores decisiones. Descripción de la responsabilidad: Participar en el diseño y análisis de la estructura preliminar del proyecto, y obtener los indicadores clave de desempeño de la operación y el sitio web

Responsable de usar Kettle para extraer los datos de pedidos en MySQL, completar el preprocesamiento básico de datos, transformarlos y cargarlos en las
estadísticas de Hive Analyze, incluidos indicadores estadísticos como tipos de cursos, rotación de cursos, rotación de cursos, distribución regional y clasificación de maestros. Use Sqoop para exportar datos a la base de datos Hbase
. Use el servidor Canal para monitorear los registros de MySQL Binlog en tiempo real y colóquelos en la cola de mensajes Kafka.
Use Flink para consumir mensajes en Kafka, complete el procesamiento ETL en tiempo real y calcule indicadores de acceso de usuario como como PV, UV, tiempo de permanencia en la página del visitante, frecuencia de visita promedio, profundidad, duración, tasa de rebote y otros indicadores, y almacene los datos de resultados en
Hbase Descripción del proyecto
Flume + Kettle + Hadoop + Hive + Spark + MySQL + Kylin + Superset : con el rápido desarrollo de la tecnología, después de años de acumulación de datos, las empresas de Internet han guardado una gran cantidad de datos originales y diversos datos comerciales, por lo que la tecnología de almacenamiento de datos es actualmente las principales áreas de tecnología de la empresa que necesitan centrarse en el desarrollo y la inversión. Un almacén de datos es un entorno de datos integrado orientado al análisis que proporciona una colección estratégica de soporte de datos del sistema para todos los procesos de toma de decisiones de una empresa. A través del análisis de datos en el almacén de datos, puede ayudar a las empresas a mejorar los procesos comerciales, controlar los costos y mejorar la calidad del producto. El proyecto analiza principalmente varios datos sin procesar, cuenta los resultados y, finalmente, los muestra para proporcionar soporte de datos para los tomadores de decisiones y dirección para la dirección de la empresa. 1. Use Kettle para ETL los datos en MySQL y cárguelos en Hive 2. Use Flume para recopilar registros de Nginx y hundirlos en HDFS

3. Cree un almacén de datos Hive + SparkSQL basado en Spark y Hive
4. Utilice Spark para procesar la ampliación de datos, el cálculo de índices, el resumen, etc. en el almacén de datos
5. Importe los datos analizados en MySQL a través de Kettle
6. Importe MySQL Los datos en Superset se muestra a través de Superset, que es conveniente para que los gerentes vean y tomen decisiones.
Breve descripción de las responsabilidades:
Participar en el análisis de la estructura general del proyecto y el diseño comercial
Participar en la construcción de almacenes de datos
Responsable del procesamiento del análisis y estadísticas de algunos indicadores de datos fuera de línea, como estadísticas de usuarios activos, estadísticas de tendencias de pago, transformación del proceso de adquisición, retención de nuevos usuarios, etc.  Ayudar a los ingenieros de BI a
utilizar la herramienta de BI de Apache, Superset, para visualizar datos
Proyecto 4: Big data informe de análisis
arquitectura de software para la industria del carbón: Hadoop + Hive + Sqoop + SSM + MySQL + Azkaban
descripción del proyecto:
este proyecto es principalmente para el análisis integral de datos de la industria del carbón, los datos provienen de diferentes industrias, el formato de datos es variado y el volumen de datos es grande El negocio de la empresa es extraer y analizar información valiosa de los datos de la industria y proporcionar informes de análisis de la industria, como el análisis del consumo de carbón y electricidad y la información de consumo en la industria química, bienes raíces, acero, red eléctrica y otras industrias. , producción y consumo nacional de carbón, datos de centrales eléctricas, datos de importación y exportación de carbón, precio del carbón, carbón coquizable principal, volumen de transporte de carbón térmico, precio, etc., los datos de diferentes industrias se analizan por dimensiones de índice específicas después del trabajo ETL de Hive, y almacenados en el almacén de datos.Los datos en Hive se exportan a la empresa MySQL a través de Sqoop, y las tecnologías relacionadas con JavaEE se utilizan para realizar la visualización de informes.
Descripción técnica:
1. Utilizar Hadoop como infraestructura de la plataforma de big data
2. Use HDFS para almacenar datos masivos de la industria recopilados por la empresa.
3. Use MapReduce para preprocesar diferentes fuentes de datos.
4. Use Hive para construir un almacén de datos y use HQL para calcular indicadores.
5. Use Sqoop para exportar datos de Hive. a MySQL 6.
Usar el marco SSM para crear una plataforma de visualización de datos
Descripción de la responsabilidad:
 Escribir programas MapReduce para preprocesar los datos recopilados por el personal comercial
 Cargar datos limpios a HDFS
 Usar Hive para el cálculo de índices
 Participar en la visualización de datos
Proyecto de desarrollo cinco: Sistema de análisis de registros de comercio electrónico
Arquitectura de software: Hadoop + Flume + Hive + Sqoop + Mysql + Echarts + Azkaban
Descripción del proyecto:
Procesar una gran cantidad de registros generados por el sitio web a través de un clúster de Hadoop distribuido para extraer información de datos útiles. El registro web contiene la información más importante del sitio web, mediante el análisis del registro podemos saber el número de visitas al sitio web, qué página tiene más visitas, qué página es la más valiosa, etc. Luego analice el PV del tráfico del sitio, la cantidad de visitantes UV (incluida la cantidad de visitantes nuevos, la proporción de visitantes nuevos), la cantidad de IP visitadas, la tasa de rebote, el tiempo de visita promedio/la cantidad de páginas visitadas, los usuarios clave y otra información. El objetivo principal de este proyecto es procesar la información recopilada sobre el comportamiento del usuario en el almacén de datos, implementarla en MySQL y, finalmente, brindar soporte para la consulta de datos de diferentes indicadores y proporcionar una base para la toma de decisiones empresariales.
Descripción técnica:
1. Use Flume para recopilar datos de registro y guarde los datos originales en HDFS
2. Limpie los datos de registro escribiendo MapReduce para negocios específicos
3. Transforme los datos en una tabla de Hive estructurada y luego use tablas externas de Hive y funciones UDF personalizadas para analizar los datos fuera de línea 4. Use Sqoop
para importar los datos analizados y procesados por Hive a MySQL
5. Para la visualización de datos, use Echarts a Los datos se muestran en la página
Descripción de la responsabilidad:
Participar en el análisis preliminar del proyecto, diseñar la arquitectura general del sistema
Responsable de la codificación del módulo de análisis de información básica del usuario, como PV del sitio web, UV, tasa de conversión y otros indicadores
Responsable de recopilar información de registro utilizando Flume

Plantilla de currículum de Big Data real (1) [Big Data-4 años de experiencia] Educación en línea

Supongo que te gusta