Desde datos hasta aplicaciones de modelos grandes, el 25 de noviembre se celebró la Conferencia Hangzhou Yuanchuang para compartir consejos de desarrollo.

Autor | Tianbao

Introducción

Desde 2023, la tecnología AIGC ha dado origen a una nueva ola de inteligencia artificial. La pintura con IA, como uno de los campos de aplicación más llamativos de los modelos grandes, también ha logrado importantes avances en los últimos años. El sistema de pintura con IA puede generar imágenes de varios estilos según las entradas o indicaciones del usuario, lo que proporciona herramientas poderosas para artistas, diseñadores y creadores, y también brinda nuevas posibilidades al campo de la creatividad digital.

Recientemente, Tianbao, arquitecto jefe de Baidu Search, fue invitado a participar en el programa de diálogo "Geeks Meet" del conocido medio tecnológico InfoQ, y tuvo una discusión en profundidad con el presentador y la audiencia sobre la tecnología de generación de imágenes, incluida la Escenarios de aplicación de búsqueda de Baidu y tecnologías relacionadas Pensamiento y experiencia de aplicación en escenarios comerciales de búsqueda.

Este artículo registra las entrevistas en detalle.

El texto completo tiene 10.034 palabras y el tiempo estimado de lectura es de 26 minutos.

Reflejos:

1. Este es un gran cambio. Desde el pasado, los usuarios buscaban imágenes en todo Internet a una combinación de búsqueda de imágenes y generación de imágenes para satisfacer las necesidades más específicas de los usuarios. Esto también anima a los usuarios a ser más proactivos en un determinado medida Expresar sus verdaderas necesidades.

2. Para permitir que un modelo comprenda mejor el chino, es muy importante preparar y limpiar el corpus relacionado con la semántica china.

3. La capacidad de eliminar muestras de baja calidad y construir muestras de alto valor es necesaria para la alineación de imágenes y texto.

4. La búsqueda de Baidu debe satisfacer las diversas necesidades de los usuarios en términos de contenido y estilo. Actualmente, la búsqueda de Baidu admite miles de definiciones de estilos de imágenes diferentes.

5. Siga los estándares estéticos y desarrolle su propia cognición estética. Ya sea en términos de construcción general del modelo u optimización del algoritmo, es necesario llevar a cabo una orientación y evaluación relevantes de acuerdo con estos estándares avanzados.

01 El proceso de desarrollo técnico de los diagramas vicencianos

Moderador: Desde AIGC en septiembre pasado hasta ahora, podemos ver surgir una variedad de modelos y empresas. Desde el principio, todos usaron Stable Diffusion para generar imágenes simples, y luego usaron algunos otros métodos para la edición generativa de imágenes. Más tarde, Adobe Photoshop incluso admitió el uso de lenguaje natural para modificar imágenes. Creo que hay áreas de aplicación más interesantes que he visto antes, más allá de los logros de AIGC en la generación de texto. Además de generar imágenes, también puede generar vídeos y audios. Recientemente, también he visto algunos productos de vídeo generativo sorprendentes. Hoy me gustaría pedirle al profesor TianBao que les presente la tendencia actual de desarrollo general de la tecnología gráfica vicenciana.

TianBao : 2022 puede considerarse como el primer año de Wenshengtu y generalmente se divide en el género de código abierto representado por Stable Diffusion y el modelo de código cerrado representado por Midjourney, Adobe's Firefly y Dall-E 3. La razón por la que este año es el primero es por Disco Diffusion. El objetivo principal de Disco Diffusion son las creaciones de paisajes, como paisajes. Las escenas de paisajes son escenas con una tasa de tolerancia a fallas relativamente alta y se combinan con colores visualmente impactantes y texturas artísticas. Este es un movimiento muy audaz desde finales de 2021 hasta principios. de 2022. , un intento muy sorprendente.

Hasta febrero de 2022, Midjourney lanzó la versión v1. El efecto general de v1 es bastante sorprendente, pero su rendimiento a la hora de generar retratos está lejos de ser satisfactorio. No fue hasta mediados de julio del mismo año que Midjourney v3 pudo generar algunos retratos regulares con normalidad. En agosto, la obra "Space Opera" se generó a través de Midjourney v3, junto con el posprocesamiento en Photoshop, lo que hizo que Midjourney causara sensación.

La versión 1.5 de difusión estable también fue de código abierto durante el mismo período. Este evento de código abierto fue un hito porque desde entonces, más usuarios como Station C han comenzado a acudir en masa al campo de los modelos descentralizados y la optimización. Con el desarrollo de la tecnología de código abierto, todo el ecosistema, incluidas las aplicaciones posteriores, ha experimentado un crecimiento y un surgimiento explosivos. Desde entonces, los avances tecnológicos y el desarrollo de aplicaciones posteriores han seguido reforzándose mutuamente.

02 Exploración y resultados de Baidu Wenshengtu

Moderador : Desde AIGC en septiembre pasado hasta ahora, podemos ver surgir una variedad de modelos y empresas. Desde el principio, todos usaron Stable Diffusion para generar imágenes simples, y luego usaron algunos otros métodos para la edición generativa de imágenes. Más tarde, Adobe Photoshop incluso admitió el uso de lenguaje natural para modificar imágenes. Creo que hay áreas de aplicación más interesantes que he visto antes, más allá de los logros de AIGC en la generación de texto. Además de generar imágenes, también puede generar vídeos y audios. Recientemente, también he visto algunos productos de vídeo generativo sorprendentes. Hoy me gustaría pedirle al profesor TianBao que les presente la tendencia actual de desarrollo general de la tecnología gráfica vicenciana.

Todavía recuerdo aproximadamente que el efecto inicial de Difusión Estable no fue muy bueno, por ejemplo, al intentar generar un retrato, hubo muchos resultados distorsionados, como una persona con tres piernas o múltiples ojos. Con el tiempo, esta tecnología se volvió gradualmente más realista. Al mismo tiempo, también ha surgido tecnología de inteligencia artificial como Civitai, que permite a las personas crear varias escenas basadas en sus imágenes, como la popular serie Genshin Impact. El desarrollo de esta tecnología de imágenes generativas ha dado lugar a una variedad de aplicaciones. Por ejemplo, en los juegos de dibujo de cartas, los artistas originales pueden utilizar esta tecnología para crear componentes del juego. En aplicaciones a nivel nacional como la búsqueda de Baidu, ¿cómo se integran las imágenes vicencianas con las escenas? Al principio, entiendo que puede estar en el cuadro de búsqueda y los usuarios pueden encontrar imágenes relacionadas después de ingresar palabras clave, pero creo que habrá más innovaciones diferentes.

**TianBao **: Al principio, Baidu también hizo algunos intentos de generación de imágenes AIGC. Como acabo de comentarle, la tecnología de diagramas vicencianos se ha vuelto utilizable gradualmente a partir de resultados iniciales que no eran utilizables, y puede liberar la imaginación, generando un impacto visual llamativo.

Para las búsquedas, los usuarios que anteriormente querían encontrar una imagen normalmente realizaban una búsqueda de texto. Por ejemplo, un gato con gafas de sol y sombrero y gestos de enfado es una imagen que evocan los usuarios, que normalmente sólo pueden buscar en toda la red el contenido creado y percibido. Pero para algunas escenas más específicas, como gatos que hacen gestos de enojo y usan ropa especial, si nadie en toda la red crea tales imágenes, la satisfacción de las necesidades del usuario será limitada, lo que hará que las necesidades degeneren en la búsqueda de un gato enojado. Luego, recurrirán a sus necesidades de navegación, para ver si hay gatos enojados similares en la web que puedan satisfacer sus necesidades.

Sin embargo, con el rápido desarrollo de la tecnología generativa, ahora tenemos la capacidad de representar concretamente las imágenes en la mente del usuario para satisfacer sus necesidades. Transformamos las necesidades de búsqueda de los usuarios en una combinación de búsqueda de imágenes y generación de imágenes para satisfacer las necesidades más específicas de los usuarios, lo que también los alienta a expresar sus necesidades reales de manera más activa hasta cierto punto. En términos de productos, los usuarios pueden buscar "dibujar un gato enojado" o "hacer un dibujo" a través de la aplicación de Baidu y luego ingresar a la página de funciones correspondiente de Wen Sheng Tu, donde todos pueden experimentarlo por sí mismos.

Encontrar una imagen es el primer paso en su búsqueda. En el campo de las imágenes, muchos creadores primero necesitan encontrar una imagen que se adapte a sus necesidades, y luego es posible que necesiten usar esta imagen como avatar, usarla como material creativo o usarla en su trabajo. Por lo tanto, durante el proceso de generación, agregamos trabajos de edición, como pintar y pintar. Por ejemplo, si hay un gato con sombrero en la imagen, mediante la interacción del lenguaje natural, podemos reemplazar el gato con un perro, aumentando así la capacidad de reutilización de la imagen. Por lo general, esto implica un gran modelo previamente entrenado basado en gráficos vicencianos para la edición de imágenes.

En general, la búsqueda inicial de imágenes se ha convertido en un proceso de "encontrar imágenes" más "generar imágenes" y luego ingresar a la segunda etapa, que es el uso de imágenes para satisfacer las necesidades de los usuarios en el campo de las imágenes.

03 La práctica y los desafíos de los diagramas vicencianos

Moderador : Parece que este es un escenario de aplicación muy interesante, porque muchas veces, por ejemplo, cuando solía hacer PPT, necesitaba encontrar imágenes que pudieran coincidir con mis escenas imaginarias, como escenas de clientes usando productos o fotografías de un determinada industria. Sin embargo, no quiero infringir los derechos de autor ni evitar disputas que involucren varias fuentes de imágenes. En este caso, poder encontrar la imagen y realizar modificaciones en la pintura, completar el borde e incluso procesar la imagen en superresolución sobre esta base es en realidad un escenario de aplicación muy práctico.

Los forasteros pueden pensar que solo admitimos algunas funciones básicas de generación y edición de imágenes, como generación, edición simple, expansión de bordes y finalización de imágenes de alta resolución. Pero en realidad, por lo que tengo entendido, esta tecnología es bastante desafiante en el contexto chino. Especialmente para la cultura china y los escenarios semánticos, la mayoría de los modelos generalmente se entrenan en un contexto basado en inglés y sus corpus originales son principalmente en inglés. Sin embargo, como gigante en el campo de los motores de búsqueda chinos, Baidu necesita lidiar con el chino, el inglés e incluso algunos dialectos, ¿cómo afronta este desafío?

TianBao : Como el motor de búsqueda chino más grande, Baidu tiene mayores ventajas en la comprensión del chino, incluida la comprensión de elementos chinos únicos, expresiones tradicionales y dialectos chinos. Para permitir que un modelo comprenda mejor el chino, preparar y limpiar el corpus relacionado con la semántica china es obviamente un paso indispensable.

En el campo de la búsqueda, tenemos la capacidad de percibir el corpus chino más completo de todo Internet, lo cual es una ventaja natural. Pero además, también se necesita una limpieza de muestras, una cobertura de conocimientos más completa y la obtención de muestras más diversas y de alta calidad para comprender mejor la semántica del modelo general. Al mismo tiempo, si queremos que las imágenes generadas por el modelo sean de mayor calidad, debemos considerar la calidad de la imagen y los factores estéticos, como las características obvias de los objetos en la imagen y la presentación precisa del estilo estético. Además, también se requiere el procesamiento de deduplicación, lo que requiere el soporte de capacidades básicas del operador.

Por lo tanto, para la limpieza, la infraestructura de los operadores básicos subyacentes también es una tarea muy importante. Baidu tiene muchos años de experiencia en el nivel básico del sistema de caracterización de imágenes, por lo que podemos organizar y filtrar muestras rápidamente según los diferentes objetivos del modelo según las ventajas de los datos recopilados. Por ejemplo, queremos mejores muestras semánticas, necesitamos lograr una muestra equilibrada y necesitamos acumular muestras con diferentes niveles de calidad y estética, incluidos algunos retratos o conceptos de propiedad intelectual especiales. Aprendemos rápidamente estas muestras y luego las aplicamos al modelo.

Moderador : Para generar modelos de imágenes grandes, por un lado, durante el proceso de capacitación, debemos preparar conjuntos de datos de alta calidad y establecer una buena base. Por otro lado, los usuarios pueden proporcionar una variedad de descripciones complejas al usarlos. Por ejemplo, para describir una taza, los usuarios pueden agregar muchos adjetivos, como alto, transparente, azul, que contiene un grillo, etc. Estos descriptores pueden exceder el longitud del token admitida por el modelo estándar. Especialmente en el contexto chino, la descripción del usuario puede ser más larga, como lo que acabas de mencionar, un gato con sombrero, parado en la cima de una montaña, con viento del noroeste soplando y copos de nieve cayendo detrás. En este caso, ¿es un desafío lidiar con imágenes con muchos descriptores y adjetivos?

TianBao : Ésta es una muy buena pregunta. La calidad del emparejamiento imagen-texto es muy importante. En la actualidad, todo el mundo está preocupado principalmente por el Laion-5b de código abierto, un modelo inglés que contiene 5 mil millones de muestras, se basa principalmente en conjuntos de datos ingleses y hay relativamente pocos datos chinos. Al mismo tiempo, a partir de este conjunto de datos, también observamos muchos problemas con pares imagen-texto irrelevantes, que pueden deberse a algunas impurezas. Por lo tanto, necesitamos utilizar algoritmos de modelado de correlación para filtrar estos pares imagen-texto irrelevantes.

Para utilizar conjuntos de datos chinos, como Laion-5b, existe un método más rápido, que consiste en traducir del inglés al chino. Sin embargo, este método puede introducir muchas ambigüedades lingüísticas, especialmente las ambigüedades de expresión entre chino e inglés, así como algunas semánticas exclusivas del chino. Por ejemplo, si traducimos "transformer" al chino, puede convertirse en "transformer", y si se refiere a un avatar, el equivalente en inglés correspondiente puede ser "Avatar". Todas estas situaciones son causadas por una capacidad insuficiente de comprensión de los chinos debido a una construcción insuficiente del corpus chino. Con respecto al problema de la calidad de la correlación de los pares imagen-texto mencionado anteriormente, para filtrar pares imagen-texto de baja calidad, es necesario utilizar métodos similares al CLIPScore convencional para medir la correlación de imágenes y textos.

Otra dirección es la construcción de conjuntos de datos de alta calidad. Después de todo, una imagen se puede describir con gran detalle en cientos de palabras y actualmente hay relativamente pocos datos sobre descripciones tan detalladas en Internet. Las descripciones actuales en Internet suelen ser breves y quizás contengan sólo unas pocas docenas de etiquetas, o incluso menos. Por lo tanto, en términos de construir un conjunto de datos de alta calidad, es necesario combinar algunas imágenes de alta calidad con la solidez y perspectiva de las descripciones de texto para complementar las descripciones de texto. Por lo general, las personas pueden describir el tema y la concepción artística de la imagen, pero pueden ignorar el fondo, la cantidad de objetos y la descripción de las entidades básicas de la imagen. Por lo tanto, cómo lograr una comprensión alineada de imágenes y textos es muy importante para la construcción de diagramas vicencianos.

Por lo tanto, para el problema de proporcionar muestras de alta calidad, es posible que se requieran modelos más adecuados para tareas de generación de imágenes, como los modelos de generación de subtítulos. Baidu ha acumulado cierta experiencia en esta área, por lo que para eliminar muestras de baja calidad y construir muestras de alto valor, estas son las capacidades necesarias para la alineación de imágenes y texto.

04 Evaluación de la estética de la imagen.

Moderador : De hecho, la complejidad de este proceso es mucho mayor de lo que imaginaba. Lo que acaba de mencionar es que es importante eliminar la baja calidad y conservar la alta calidad. Por valores bajos y altos te refieres a calidad de imagen, ¿verdad? Al generar una imagen, si quieres generar un gato, primero debe ser un gato y, segundo, debe ser estéticamente agradable. Tiene que adaptarse a la forma de un gato, o tiene que adaptarse a la forma de un perro, y la belleza es algo muy subjetivo. Por ejemplo, incluso si es un gato, a algunas personas les gustan los gatos redondos, gordos y peludos, y piensan que es mejor ser como una pelota, pero algunas personas piensan que los gatos deberían ser como gatos y deberían tener características de gato, el la cabeza es la cabeza, las piernas son las piernas y el cuello es el cuello. En este caso, ¿cómo aborda Baidu la cuestión de cómo debería verse un gato?

TianBao : En cuanto a la estética, como se mencionó hace un momento, es una percepción subjetiva. De hecho, es diferente para cada uno. Cada uno puede tener diferentes percepciones de la belleza, pero aquí realmente esperamos utilizarla en todos. La cognición estética de algunas personas plantea Algunas definiciones de estética.

Por ejemplo, la definición de estética a menudo incluye la composición de la imagen, cómo es la estructura general de la imagen y también incluye la aplicación del color, como la saturación, el contraste, la combinación general de colores y la percepción de la luz, como Como la configuración de iluminación en un estudio, cómo crear una iluminación mejor y más adecuada para diferentes escenas. Además de la definición del color visual, el contenido de la imagen también puede reflejar la estética, como la riqueza del contenido de la imagen o la narrativa de la imagen, todos los cuales están compuestos por el contenido dentro de la imagen. Por tanto, estas dimensiones forman estándares estéticos más universales.

Seguimos estos estándares estéticos y luego construimos nuestra propia cognición estética. Ya sea en términos de construcción general del modelo u optimización de algoritmos, llevamos a cabo orientación y evaluación relevantes de acuerdo con estos estándares avanzados. Además de la estética, la claridad de la imagen también afecta la textura general. Al mismo tiempo, la coherencia del contenido también es importante : si ve un gato con tres patas, la inconsistencia de las entidades del contenido provocará defectos que afectarán indirectamente la usabilidad y la belleza de la imagen.

Moderador : Acabas de mencionar la coherencia del contenido. ¿Puedes ampliar esto y explicar este concepto?

TianBao : La coherencia del contenido puede entenderse aproximadamente como la calidad o disponibilidad del contenido. Por ejemplo, si dibujas una mano y hay deformidad o distorsión en la mano, esto en realidad es inconsistente con nuestro concepto habitual de manos. Esto hace que la entidad de la mano sea inconsistente, por lo que se podría considerar que tiene un problema de calidad.

05 Proyecto de propuesta de diagrama de Vincent

Moderador : Diferentes escenas y usos tienen diferentes requisitos estéticos. Tomando como ejemplo el gato con sombrero y gafas de sol, los usuarios pueden querer generar cómics de diferentes estilos, como los cómics japoneses y los cómics estadounidenses, que tienen diferencias significativas en la experiencia visual. Los cómics estadounidenses suelen ser ricos en color y contornos nítidos, mientras que los cómics japoneses son principalmente en blanco y negro y tienen un fuerte impacto visual. Bajo el requisito de garantizar la coherencia del contenido, ¿cómo obtiene Baidu información relevante de las indicaciones de los usuarios en diferentes estilos para respaldar la generación de diferentes estilos de pintura?

TianBao : Echemos un vistazo a los escenarios de aplicación de los gráficos generados por texto actuales. Actualmente, en las interacciones convencionales, suele haber algunas opciones claramente definidas para un estilo específico, como el estilo de cómic o el estilo de acuarela. Pero para los usuarios, no debería haber demasiadas restricciones: por ejemplo, si el usuario necesita generar un gato al estilo cyberpunk, dibujarlo en un estilo de dibujos animados no satisfará sus necesidades. Es decir, los usuarios pueden describir no sólo lo que aparece en las imágenes generadas, como gatos, sino también el estilo de imagen que desean. Por lo tanto, la búsqueda de Baidu debe satisfacer las diversas necesidades de los usuarios en términos de contenido y estilo.

En Baidu Search, actualmente admitimos miles de definiciones de estilos de imagen diferentes. Por ejemplo, los usuarios pueden representar un gato como una pintura en tinta o un dibujo animado, o como un producto o escultura de aluminio, o incluso en diferentes materiales. Además, los usuarios también pueden elegir diferentes perspectivas, como efectos de desenfoque de movimiento, efectos de fotografía a intervalos o perspectivas de ojo de pez y gran angular. Cubrimos una variedad de estilos y categorías diferentes, por lo que si los usuarios tienen requisitos de estilo más específicos, solo necesitan incluir el estilo relevante en su mensaje y obtendrán una imagen que cumpla con sus expectativas y tenga el estilo correspondiente.

Moderador : Tengo otra pregunta, sobre la superposición de estilos, ¿admite esta operación? Por ejemplo, ¿puedes aplicar un estilo de ojo de pez gran angular y un estilo de pintura con tinta a tu imagen al mismo tiempo? Debido a que uno trata sobre el estilo de pintura y el otro es la perspectiva, si queremos combinar la pintura con tinta con el estilo de dibujos animados, ¿esto también es compatible?

TianBao : En términos de modelos, es factible admitir múltiples estilos, lo que puede estimular la creatividad de nuevos estilos. Sin embargo, otro problema al que nos enfrentamos es cómo combinar y coordinar eficazmente varios estilos manteniendo la coherencia del contenido. Debido a que las diferencias entre diferentes estilos pueden ser enormes, pueden ocurrir algunas limitaciones mutuas, pero esto brinda a los usuarios más oportunidades para la experimentación y exploración, y pueden lograr un espacio creativo más amplio al probar combinaciones de diferentes estilos.

Moderador : Si tengo varias palabras clave de estilo para describir el tema final, ¿el efecto de toda la imagen está estrechamente relacionado con la ubicación de las palabras clave? Por ejemplo, ¿los efectos de un gato con tinta y dibujos animados y un gato con tinta y dibujos animados serían los mismos?

TianBao : Esto en realidad implica la controlabilidad mencionada hace un momento. En su forma más básica, como el gato que acabo de mencionar. Se trata de cómo controlamos el contenido que generamos, especialmente en lo que respecta al estilo. De hecho, la controlabilidad está relacionada con nuestro método de aviso general, porque diferentes métodos de aviso pueden conducir a resultados diferentes. Algunas personas pueden proporcionar indicaciones breves, tal vez escribiendo dos estilos diferentes uno al lado del otro, mientras que otras pueden preferir una indicación más detallada. Por ejemplo, pueden desear describir la apariencia de una escena, especificar un estilo específico o enfatizar la proporción de un cierto estilo en la generación. Todos estos son métodos de aviso diferentes que pueden afectar la forma en que se genera el contenido.

Y para este tipo de controlabilidad, en realidad existen algunos sesgos en este orden. Por ejemplo, la alquimia de indicaciones de Stable Diffusion también mencionará algunas cosas, como cómo escribir indicaciones y si es mejor colocarlas al frente o detrás. De hecho, es esencialmente una especie de habilidad de control. Idealmente, hay No debería haber tales desviaciones. Por supuesto, lo ideal es que podamos guiar a los usuarios para que expresen las imágenes en sus mentes con mayor precisión.

Moderador : Acabo de mencionar que Baidu admite miles de estilos. Me gustaría preguntar: ¿estos miles de estilos se clasifican manualmente o se generan automáticamente mediante la agrupación de modelos? Para los usuarios, saber que hay tantos estilos para elegir puede resultar un poco abrumador al principio y un poco difícil elegir.

TianBao : En cuanto al estilo, con base en lo que mencionamos antes, nuestra percepción del contenido de toda la red es muy extensa, por lo que tenemos la capacidad de percibir varios datos de estilo que existen en toda la red. El segundo punto es que también confiamos en la comprensión de las imágenes. Ya sea un algoritmo de agregación o una descripción de la estética del estilo, primero necesitamos tener datos y luego, a través de las capacidades de detección e identificación de los datos, podemos presentar de forma natural. estos estilos. Así se define el estilo.

Además, como se acaba de mencionar, por ejemplo, actualmente admitimos miles de estilos. Para los usuarios, de hecho, es posible que todos tengan que pasar por un proceso cognitivo, porque cada estilo puede ser relativamente diferente para los usuarios artísticos. Algunas grandes sorpresas . Por ejemplo, vemos un estilo determinado que es muy diferente a las imágenes que vemos habitualmente y también tiene un fuerte impacto visual. Entonces, ¿cómo podemos transmitir mejor nuestros estilos existentes a los usuarios, para que puedan entenderlos y poder aplicarlos en creaciones posteriores que satisfagan sus necesidades? Esto en realidad requiere un producto holístico: un trabajo guiado por la tecnología.

Anfitrión : Como acabas de mencionar, hay miles de estilos artísticos diferentes. Incluso los estudiantes de arte que no son especialistas y algunos profesionales, generalmente solo conocen uno o dos estilos, como el dibujo o la pintura con tinta. De hecho, pocas personas tienen un conocimiento profundo de tantos estilos diferentes y escriben buenas palabras clave. Entonces, ¿qué debemos hacer cuando los usuarios no saben cómo escribir palabras clave? Por ejemplo, es posible que los usuarios que utilicen Baidu por primera vez no sepan que admite miles de estilos a menos que alguien se lo indique. En este caso, ¿cómo debemos abordarlo y guiarlos para que aprendan más sobre los diversos estilos de Baidu y otras palabras clave que se pueden escribir?

TianBao : En cuanto al estilo artístico y la creatividad, las personas están más expuestas a la palabra clave "Midjourney", que puede usarse como ejemplo para describir un proceso de estimulación de la imaginación desde cero. En la promoción operativa inicial, algunos recursos no optimizaron demasiado las palabras clave. Por lo general, proporcionan palabras inspiradoras relativamente simples, como "perro". Sin embargo, esta se basa en la comunidad disco, permitiendo participar a todos los usuarios. Algunos usuarios intentan cambiar las palabras que utilizan para describir un perro peludo, mientras que otros prefieren un tema de ciencia ficción, como cómo se vería un perro con ojos láser. A través de la experimentación constante, descubrirán que pueden lograr efectos más atractivos o interesantes con diferentes palabras clave. Esto resultó en aprender unos de otros, observar cómo otros generaban contenido, cómo configuraban las palabras clave y qué efectos tenía esto. Por lo tanto, la optimización rápida de palabras se está volviendo popular gradualmente. Este problema es similar a toda la industria, incluidos Baidu Search y Wenshengtu.

Para los usuarios comunes, es posible que tengan menos exposición a la escena de las fotografías vicencianas. Para los usuarios primerizos, es común intentar simplemente dibujar un gato o un cachorro, lo que plantea la pregunta de cómo generar mejores resultados para los usuarios dado su entorno relativamente simple.

Esto implicará la expansión o reescritura del mensaje. Hay dos ideas aquí: una es ampliar el contenido de la imagen, que es similar a la riqueza del contenido o el sentido de la historia. Por ejemplo, el perro que lleva sombrero y hace gestos de enojo que acabamos de mencionar hace que la imagen sea más realista, de hecho, este es un trabajo realizado mediante la optimización del aviso. También podemos expandir el estilo . Podemos detectar qué estilos prefiere la mayoría de las personas para este contenido y podemos usar este mensaje para expandir más estilos. Como se mencionó anteriormente, además de cierta expansión y diversidad de estilos, la riqueza del contenido, la narración, el estilo y la belleza de la imagen se pueden optimizar en gran medida. Entonces, esto implicará cómo convertir la entrada de un mensaje expresado simple en un conjunto de mensajes que sean mejores para el modelo a través de la optimización.

Moderador : Hay un tema más específico que debe discutirse y que implica la reescritura de las indicaciones. Por ejemplo, cuando cambiamos un mensaje que describía un perro a un perro que hacía gestos enojados con un sombrero, el usuario no podía ver la parte sobrescrita. ¿Podemos asegurarnos de que cada reescritura sea igual o cada reescritura podría ser ligeramente diferente? Por ejemplo, la primera vez podría ser un perro con sombrero y la segunda vez podría ser un perro con gafas tumbado en la playa. ¿Este proceso es aleatorio o se soluciona siempre?

TianBao : En cuanto a la reescritura de indicaciones, en realidad esperamos brindar a los usuarios resultados más diversos y ricos. Porque si es un perro, podemos imaginar que el sujeto es un perro. Puede haber diferentes razas de perros, pero el perro puede aparecer en diferentes escenas con ropa diferente. Esto es para más personas. Habrá resultados más diversos y todos tener más expectativas. Entonces, a nivel de modelo, esperamos tener alternativas más diversas a través de la reescritura y optimización de mensajes, y luego, en base a los comentarios reales de los usuarios, podemos percibir los resultados de una imagen de qué estilos y tipos de escenarios de contenido prefieren los usuarios. estará interesado y la retroalimentación posterior será relativamente alta, lo que también tendrá un efecto de promoción de datos en el modelo general de reescritura inmediata.

06 Retroalimentación y evaluación

Moderador : Acabo de mencionar la reescritura, la recopilación de comentarios del lado del usuario para iterar el modelo, hay una palabra llamada RLHF (Aprendizaje reforzado a partir de comentarios humanos). Creo que el punto más difícil aquí es que la retroalimentación humana es inestable porque las opiniones subjetivas varían mucho entre las personas. Si necesitamos confiar en los comentarios de las personas para iterar el modelo, en realidad es más difícil. Si hablamos de la evaluación del modelo, en este caso, ¿cómo gestiona Baidu el equilibrio y lo evalúa en la dirección de la generación de imágenes?

TianBao : Con respecto a la retroalimentación posterior, primero debe considerar si los datos de retroalimentación realmente pueden representar la retroalimentación posterior humana, que tiene requisitos más altos en cuanto a la calidad de la retroalimentación. Por lo tanto, este aspecto se puede integrar con el diseño general y la interacción del usuario del producto para recopilar comentarios más positivos sobre el comportamiento del usuario. Por ejemplo, cuando los usuarios están interesados en un resultado determinado, pueden hacer clic en la imagen para ampliarla y luego realizar acciones posteriores, como la descarga, lo cual es una retroalimentación positiva. También se proporciona retroalimentación directa si a un usuario le gusta o comenta una imagen. Esperamos recopilar estos comentarios de manera más eficiente en todo el sistema de comentarios porque en realidad reflejan las preferencias de los usuarios. En cuanto a la retroalimentación ambigua, sólo se pueden recolectar datos más representativos con un tamaño de muestra mayor.

Moderador : En el pasado, ya fuera aprendizaje automático estadístico tradicional o modelos estándar de aprendizaje profundo, eran básicamente aprendizaje supervisado, que requería muestras o supervisión para calcular indicadores como la puntuación F1, IQZ y VCR. Sin embargo, para los modelos generativos, como los modelos de la serie GPT o DALL-E, técnicamente no existe un conjunto de datos de referencia estándar como antes, en base al cual todos puedan generar y evaluar. Por el contrario, los modelos generativos requieren un método de evaluación más eficiente en lugar de depender de la observación humana uno por uno. En esta área, en lugar de permitir que las personas miren cada elemento individualmente a simple vista, ¿hay alguna manera de evaluarlo de manera más eficiente?

TianBao : El método más eficiente en realidad implica una mayor integración hombre-máquina. Al igual que la evaluación de imágenes mencionada anteriormente, podemos realizar observaciones a través de algunos indicadores preliminares de la máquina.

Si nos centramos en la relevancia general o la estética de la calidad, se pueden realizar algunas caracterizaciones sobre determinadas métricas de la máquina. Sin embargo, si necesita evaluar con precisión la diferencia entre dos imágenes, es posible que estos indicadores de la máquina no sean de mucha importancia y sea necesario realizar un juicio manual. La evaluación preliminar de la máquina mencionada anteriormente puede ayudar a las personas a realizar una evaluación preliminar, ahorrando así algo de trabajo en la evaluación manual.

07 Perspectivas de futuro

Moderador : Bien, la siguiente pregunta mira un poco hacia el futuro, aunque no muy lejos, porque recientemente veo muchos equipos de startups y empresas relacionadas probando este campo. Tomemos como ejemplo la animación: en realidad, la animación se presenta superponiendo fotogramas de varias imágenes juntas. Normalmente, las películas animadas se reproducen a 24 o 16 fotogramas por segundo. Además de la edición de imágenes individuales estáticas, podemos ver que en el campo de AIGC, la generación de videos o la generación de videos cortos, ya sean tres segundos, siete u ocho segundos de video, está en constante desarrollo. Previamente el equipo de Runway realizó un concurso utilizando diagramas vicencianos para la generación de videos. ¿Qué tan pronto en el futuro crees que veremos la primera película o estado de la película totalmente generado por IA?

TianBao : Repasemos brevemente la generación de imágenes. A principios de 2022, el efecto de generación de imágenes no era particularmente ideal, pero en julio y agosto de 2022, el efecto general se volvió más factible. De acuerdo con la tendencia de desarrollo de la tecnología, se espera que la generación de gráficos o videos dinámicos marque el comienzo de un rápido desarrollo tecnológico en no mucho tiempo. Porque recientemente se ha explorado mucho el campo de la generación de videos, ya sea basado en métodos de generación controlables o métodos como Runway que generan videos cortos de unos pocos segundos. Para vídeos cortos de unos pocos segundos, solemos utilizar el último fotograma generado como primer fotograma del siguiente segmento para lograr un vídeo largo más coherente. Sin embargo, para la generación de vídeo, existe un desafío mayor, porque no sólo necesita garantizar el efecto espacial, sino también garantizar la coherencia temporal, lo que introduce una dimensión adicional y es más exigente desde el punto de vista técnico. Con la reciente exploración continua de la generación de video, podemos esperar que ocurran momentos revolucionarios como la Difusión Estable dentro de uno o dos años.

reclutamiento

Bienvenido a unirse al equipo de I+D de Shengtu y continuar contratando ingenieros de I+D de algoritmos visuales.

Le invitamos a enviar su currículum a [email protected]. Comience el correo electrónico con [Envío de currículum].

--FIN--

Lectura recomendada

Práctica de aplicación de modelos grandes en el campo de la detección de defectos de código.

Admite la práctica de reconstrucción de código OC a través de scripts de Python (2): los elementos de datos proporcionan generación de código para las rutas de datos de acceso al módulo

Hable con InfoQ sobre el motor de búsqueda de alto rendimiento y código abierto de Baidu, Puck

Una breve discusión sobre la tecnología del escenario de la capa de presentación de búsqueda: la práctica de tanGo

Primera introducción a la búsqueda: la primera lección del gerente de productos de búsqueda de Baidu

Práctica a gran escala de Wenshengtu: ¡Revelando la historia detrás de la búsqueda de Baidu de herramientas de pintura AIGC!