Ali Jiang Xiaowei: similitudes y diferencias calcular y ventajas del motor de encendido y Flink

Sobre el autor: Jiang profesor Xiaowei, serio y riguroso. Antes de unirse a Ali, trabajó en Facebook Seattle, fue el responsable de la programación del sistema, la línea de tiempo y Infra proyecto Messenger. Luego se desempeñó como ingeniero principal en el motor de SQL Server de Microsoft, responsable de la obra de arquitectura de base de datos relacional. Ali después de unirse en 2014 como Senior Ali buscar la división de búsqueda de expertos, fue responsable de equipo de búsqueda de datos de ingeniería.

 

En este artículo se Yunqi comunidad desde antes de terminar una entrevista con el maestro Ali Buscar División experto de alto nivel Jiang Xiaowei. Hablando de marco de datos grande, especialmente para muchos de código abierto excepcional marco computacional grandes volúmenes de datos de la industria del Ecosistema familiar, tal como Spark, Hadoop, Storm y así sucesivamente. Sin embargo, para proyecto de nivel superior Flink Fundación Apache, sabiendo son relativamente limitados. Pero más contraste de chispa, por ejemplo, sabe discusión casi post es "Apache Flink y Spark Apache qué similitudes y diferencias? ¿Cuáles son sus perspectivas?"

  • Yunqi comunidad: En comparación Spark, Hadoop, Tormenta, es lo que necesita la escena para hacer Ali equipo de búsqueda seleccionado Flink?

Jiang Xiaowei: En primer lugar, queremos tener un programa de integración de procesamiento stream computing y el lote . Spark y Flink tiene un flujo y procesamiento por lotes capacidades, pero su enfoque es el opuesto. Transmisión de chispa se pone en circulación un lote de pequeña para hacer frente a un problema con este enfoque es que necesitamos una menor latencia, la proporción será mayor sobrecarga, lo que conduce a la segunda chispa nivel Streaming difícil de hacer, incluso sub-segundo de retardo. Flink es conceder como un flujo limitado, una característica de este enfoque es que el flujo y la participación de la mayor parte del código de lote al mismo tiempo ser capaz de retener una serie de optimización específica del lote. Por esta razón, si se utiliza un motor de resolver el procesamiento por lotes y flujo, que debe basarse el procesamiento de flujo, por lo que decidimos elegir un motor de procesamiento de flujo buena. Del proceso anterior se puede dividir en sin estado y con estado funcional de dos tipos. La introducción de la gestión de estado en el marco del procesamiento de flujos en gran medida a mejorar la potencia expresiva del sistema, permitiendo a los usuarios implementar fácilmente lógica de procesamiento complejo, es un salto en las funciones de procesamiento de flujo. motor de procesamiento de flujo a la consistencia de soporte se puede dividir en: mejor esfuerzo, al menos una vez, y exactamente una vez. Exactamente una vez la semántica a fin de garantizar la coherencia verdaderamente completa, utilizando la arquitectura Flink se realiza con elegancia exactamente una vez procesado el flujo con estado. También en garantizar la coherencia Flink bajo la premisa de la actuación es bastante bueno. En resumen, creemos que en términos de la función de procesamiento de flujo Flink, en diferido, la consistencia y el rendimiento de toda la comunidad es la mejor. Así que decidimos usarlo para lograr programas de integración y flujo de proceso por lotes. Por último, hay una razón muy importante es que hay una comunidad activa relativamente Flink.

  • Yunqi comunidad: ¿Cómo Flink, las ventajas bajo el Spark, Hadoop, Storm y otra el desarrollo tecnológico y la comparación de las distintas escenas? Tales como el contraste, Flink se convirtió en el procesamiento de flujo de proceso por lotes, de esta manera si hay alguna restricción en el uso de la chispa?

Jiang Xiaowei: Big Data es desde el principio de la carga, por lo que muchos sistemas son por lotes desde el principio, incluyendo la chispa. En el Chispa lote tiene una acumulación de profundidad, es un relativamente buen sistema. A medida que avanza la tecnología, muchos de los lotes original de negocio sólo tiene una demanda en tiempo real, streaming será cada vez más importante, incluso convertido en el principal escenario de procesamiento de datos de gran tamaño. Flink como la corriente de proceso por lotes tiene una ventaja muy importante es que si se introduce un bloqueo en los operadores de flujo, entonces podemos hacer unas optimizaciones específicas de lote, esto es una base de streaming de un motor de cálculo gran ventaja. Así que creo que en el marco de este diseño se puede hacer de lote óptimo, pero hay algunas ventajas especiales respecto al enfoque tradicional, por supuesto, realizar el proyecto también es importante.

  • Yunqi Comunidad: stream computing y el motor de búsqueda de lote Alibaba se basa en proyectos Apache Flink de parpadeo y es compatible con la API. Así que hay un pozo en el que vadear supuesto Flink? En un abrir y cerrar lo que ha llevado a cabo mejoras?

Jiang Xiaowei: Flink Hay muchas innovaciones en la arquitectura, es muy guiando. Sin embargo, existen algunas deficiencias en la realización del proyecto. Por ejemplo, diferentes tareas de trabajo pueden ejecutar en el mismo proceso, por lo que un trabajo de cuestiones que pueden afectar a la estabilidad de otro trabajo. El uso más racional de los mismos no puede lograr Flink los recursos de clúster de ingeniería. Parpadear reintroducción de una combinación de hilado, resolver completamente estos problemas. Además Flink a través del mecanismo de punto de control para garantizar la coherencia, pero el mecanismo existente es relativamente ineficiente, que resulta en un estado grande, cuando no está disponible, Blink mejorar en gran medida el punto de control, ser capaz de manejar de manera eficiente un estado grande. La estabilidad y la escalabilidad son críticas en la producción, por temperamento en grandes grupos, de parpadeo a resolver una serie de problemas y cuellos de botella en este sentido, se ha convertido en un motor de computación capaz de soportar el negocio principal. Al mismo tiempo, hemos ampliado capa de Transmisión de SQL Flink para que pueda apoyar mejor las operaciones más complejas.

  • Yunqi comunidad: ¿Hay planes de retroalimentación de la comunidad Flink? Flink y qué cree usted que el futuro va a ser la aplicación asesina?

Jiang Xiaowei: Estamos Flink e inventor de la comunicación Stephan Flink parpadeo realimenta a la comunidad, con el fin de hacer que la comunidad más fuerte y más poderosa comunidad vamos a ser más poderoso. El primer paso en nuestro plan es lograr Hilados de vuelta retroalimentación de parpadeo, y la abstracción de un diferentes programas de apoyo del sistema de programación. A continuación, vamos a mejorar y optimizar el puesto de control, estabilidad, escalabilidad, operación y mantenimiento de la lata, SQL, etc., están alimentados gradualmente. Creo que Flink ventaja en el cálculo de flujo es muy grande, con el aprendizaje en línea, el crecimiento del flujo de cálculo de la demanda en este sentido Flink brillará.

  • Yunqi comunidad: desde Facebook, Microsoft a Ali, una rica experiencia en el desarrollo de tecnología. Así que para el crecimiento de los desarrolladores de tecnología, ¿qué sugerencias o experiencias que compartir? Y recomendar un favorito de libros técnicos.

Jiang Xiaowei: Creo en el aprendizaje y el trabajo es muy importante que todos los problemas tienen que ser curioso, no se quedan en el fenómeno y parte de la razón intuitiva poco profunda, tenemos que encontrar la esencia. Una señal de buena es que se puede determinar la palabra a los demás a hablar claramente. Para ello puede hacer que empiece a pasar más tiempo, incluso sienten que aprendieron mucho más lento que otros, pero cada cosa que se aprende es entender a fondo por completo, y los principios de una gran cantidad de cosas están interrelacionadas, en después de un período de acumulación se encuentra aprender nada nuevo acaba de leer las instrucciones de la misma. Realmente no puedo recomendar el libro, ya que por lo general tienen problemas ahora comprobar, porque es manual.

Publicados 363 artículos originales · ganado elogios 74 · vistas 190 000 +

Supongo que te gusta

Origin blog.csdn.net/sinat_26811377/article/details/104617969
Recomendado
Clasificación