Registro en vivo | Salón de Tecnología Meituan 56: Práctica de tecnología multimedia y visión por computadora de Meituan - Sesión especial ACM MM2020 ...

[Salón de tecnología de Meituan] Patrocinado por el equipo técnico de Meituan y la Asociación de ciencia y tecnología de Meituan, cada salón invita a expertos técnicos de Meituan y otras empresas de Internet para compartir experiencias prácticas de primera línea, cubriendo todos los campos técnicos principales.

A partir de septiembre de 2020, el Salón de Tecnología de Meituan también creará una serie de actividades académicas, que incluyen el intercambio de artículos de conferencias importantes, debates académicos, etc., invitando a la industria y la academia a discutir temas de vanguardia.

Hora de la actividad: 31 de octubre de 2020 14: 00-17: 00

Dirección del evento: evento en línea

Registro del evento: empujame para registrarme

/ Vendedor /

Investigador de Ma Lin | Meituan

Actualmente es investigador en el Centro de Inteligencia Visual del Departamento de Plataformas de IA de Meituan. Fue investigador experto en Tencent AI Lab e investigador en Noah's Ark Laboratory en Hong Kong. Se dedica principalmente al aprendizaje profundo, visión por computadora, análisis y comprensión de video, etc., especialmente a la investigación del aprendizaje profundo multimodal de la visión y el lenguaje. Publicó muchos artículos en las principales conferencias y revistas como CVPR, ICCV, ECCV, NIPS, ICML, ACL, EMNLP, TPAMI, etc.

| Introducción a la actividad

Como el principal evento internacional en el campo de la tecnología multimedia, ACM MM es el foco de preocupación común en los círculos académicos e industriales. Este salón técnico presentará los resultados publicados por Meituan y sus socios en ACM MM2020, y espera intercambiar y aprender con colegas técnicos de la industria.

| Horario

| Compartir Introducción

Tema 1: Aplicación del modelo de atención híbrido en la tarea de resumen de video

Wang Junyan | estudiante de doctorado, Universidad de Nueva Gales del Sur, Sydney

Actualmente es candidato a doctorado en la Universidad de Nueva Gales del Sur en Sydney y ha sido pasante en el Meituan Vision Intelligence Center. Su dirección de investigación es la comprensión de video y el procesamiento de imágenes médicas, y sus intereses de investigación son redes de gráficos y metaaprendizaje.

breve introducción

Este trabajo utiliza la red de autoatención como estructura básica, propone una capa de atención híbrida por medio de características de consulta auxiliares secundarias y distribución de atención híbrida, y adopta un método de extracción de características de doble canal "tiempo-espacio", utilizando un solo elemento de video aprendizaje Con base en la estrategia de entrenamiento, obtenemos nuestra red de atención híbrida de doble canal final, que puede resolver mejor el problema de cuello de botella de SoftMax en una base de datos pequeña y obtener mejores capacidades de extracción abstracta.

Tema 2: Tecnología de reconocimiento de alimentos a gran escala basada en una red de atención local global apilada

Wang Zhiling | Pasante del Proyecto de Investigación Meituan

Actualmente está estudiando una maestría en tecnología informática en la Academia de Ciencias de la Universidad de China, y actualmente es pasante en el Centro de Inteligencia Visual de AI Platform. La principal dirección de investigación es el reconocimiento detallado de imágenes de platos.

breve introducción

El informe presenta el conjunto de datos de platos ISIA Food500 (500 categorías y 399.726 imágenes) propuesto por el artículo, que supera el conjunto de datos de referencia existente en términos de número de categorías y cantidad de imágenes. Además, presentaremos nuestra última red de reconocimiento de imágenes de platos (SGLANet), que aprende en conjunto las características visuales generales y locales de las imágenes de platos y ha alcanzado el nivel líder en múltiples conjuntos de datos de referencia de platos.

Tema 3: Investigación sobre la fusión de información "lenguaje-visual" en tareas de diálogo

Xu Zipeng | Postgrado de la Universidad de Correos y Telecomunicaciones de Beijing

Estudiante de posgrado con especialización en Ciencia y Tecnología de la Inteligencia en la Universidad de Correos y Telecomunicaciones de Beijing, su dirección de investigación es el diálogo visual y sus intereses de investigación son el diálogo y el lenguaje visual.

breve introducción

En este trabajo, enfatizamos el papel de la "respuesta" en el diálogo visual orientado a objetivos y propusimos un estimador de estado visual impulsado por la respuesta para la fusión de la información del historial del diálogo y la información de la imagen en el diálogo visual, con atención enfocada El mecanismo fortalece efectivamente la respuesta información, y el mecanismo de fusión de información visual condicional se utiliza para seleccionar adaptativamente información global y de diferencia. Este estimador se puede utilizar no solo para generar preguntas, sino también para adivinar objetivos. Los resultados experimentales en GuessWhat?!, Un conjunto de datos públicos internacionales de diálogo visual, muestran que el modelo ha alcanzado el nivel de liderazgo actual tanto en la generación de problemas como en la adivinación de objetivos.

Tema 4: Mejora de imagen no emparejada basada en una red de adversarios de generación de atención de calidad

Ni Zhangkai | estudiante de doctorado, City University of Hong Kong

Candidato a doctorado en el Departamento de Ciencias de la Computación de la City University of Hong Kong, su dirección de investigación son los modelos generativos, el aprendizaje no supervisado y la evaluación de la calidad de imagen / video. Publicó más de diez artículos en TIP, TCSVT, ACM MM y otras revistas / conferencias.

breve introducción

La mejora de la estética de la imagen es una tarea básica y desafiante. Los modelos de mejora de la calidad de imagen existentes basados ​​en el aprendizaje supervisado todavía tienen una serie de limitaciones, como el alto costo y la pérdida de tiempo para obtener datos de entrenamiento emparejados y, lo que es más importante, las imágenes de alta calidad obtenidas no son necesariamente reconocidas por todos los usuarios. En base a esto, proponemos un modelo generativo basado en la atención de calidad que puede aprender de manera efectiva un modelo de mejora de la calidad de la estética de la imagen orientada al usuario a partir de datos no apareados.

Tema 5: Generación de descripciones de video basadas en oraciones de ejemplo

Yuan Yitian | Estudiante de doctorado de la Universidad de Tsinghua

Estudiante de doctorado en la Universidad de Tsinghua, su dirección de investigación es el análisis y comprensión multimedia, y el análisis conjunto de video y texto.

breve introducción

En este trabajo, proponemos una tarea desafiante, a saber, el problema de generar una descripción de video con sintaxis controlable basada en oraciones de ejemplo. Específicamente, dado un video y cualquier oración de ejemplo gramaticalmente correcta, la tarea es generar una descripción en lenguaje natural para el video. Esta oración no solo puede describir el contenido semántico del video, sino que también puede seguir la forma sintáctica de la oración de ejemplo dada. Para resolver este problema de generación de descripciones de video basadas en oraciones de ejemplo, proponemos un novedoso generador de descripciones de videos basado en modulación sintáctica. El generador toma la representación semántica de video como entrada y modula condicionalmente el vector de puerta de la red de memoria a corto y largo plazo para la información sintáctica de una oración de ejemplo dada, controlando así la actualización del estado oculto de la red de memoria a corto y largo plazo. utilizado para la predicción de palabras Finalmente, se realiza la generación de descripciones de video sintácticamente personalizadas. Una gran cantidad de resultados experimentales demuestran la efectividad de nuestro método para generar descripciones de video con sintaxis controlable y expresión semántica precisa. Al proporcionar diferentes oraciones de ejemplo, nuestro método puede generar oraciones de descripción de video con varias estructuras sintácticas, proporcionando así una perspectiva novedosa y efectiva para mejorar la diversidad de descripciones de video.

| Gracias

Organizador del evento: equipo técnico de Meituan, Asociación de Ciencia y Tecnología de Meituan

Socio de promoción: línea de eventos

| Método de registro

"Meituan Technology Salon Issue 56: Meituan Computer Vision and Multimedia Technology Practice-ACM MM 2020 Special" registro por favor empuje: regístrese .

| Recordatorio importante

Agregue el WeChat (MTDPtech05) del asistente Meimei y responda: 1031 para unirse al grupo WeChat del evento y comunicarse con profesores y compañeros.

Para PPT y productos secos de video de eventos pasados, escanee el código QR a continuación, siga la cuenta oficial de meituantech del equipo técnico de Meituan y luego véala a través del [Salón técnico] en la [Barra de menú].

Supongo que te gusta

Origin blog.csdn.net/MeituanTech/article/details/109108419
Recomendado
Clasificación