Lo difícil vulgar anti-tecnología? Esta vez, por primera vez los titulares de hoy BERT

 

30 de julio de titulares anunció hoy el lanzamiento de una nueva versión de "Espíritu perros" anti-vulgar ayudante, una nueva herramienta, además de la evolución de la función de reconocimiento de texto por primera vez se unió a la función de identificación con foto. Esta es la primera vez en seis meses, "el espíritu del perro" es otro importante actualización.

"Espíritu Perros" es un problema de salud contenido de la prueba de aparatos diseñados para ayudar a las personas a combatir el contenido de baja calidad vulgar, purificar el espacio de Internet. Una nueva generación de "Perro del alcohol" se introdujo por primera vez en el campo del procesamiento del lenguaje natural en reciente y popular  BERT  modelo, después de la formación de datos de hasta 1.2T, los perros precisión de reconocimiento contenidos espirituales elevaron a 91%.

 

AI realmente puede resolver los contenidos revisados? En la sede de los titulares de hoy, byte latidos Artificial Intelligence Laboratory director Wang Zhanghu y hemos tenido algunos intercambios. Ahora parece que la tecnología puede resolver muchos problemas, pero también una gran cantidad de desventajas.

 

 

revisión técnica difícil de

 

En la Internet móvil en la corriente principal de hoy en día, las empresas de tecnología tienen que procesar los datos están creciendo exponencialmente, muchas empresas están estableciendo su propia auditoría técnica. En septiembre pasado, Facebook libera y se llama sistema de examen del contenido "Rosetta" desplegado para resolver el problema, Rosetta tiempo real para extraer texto de más de 1 mil millones de imágenes y fotogramas de vídeo en un día, y puede identificar y examinar una variedad de idioma del texto.

 

En casa, no sabemos casi lanzó el año pasado la gestión comunitaria del cerebro, esperanza "Wali" que a través de una variedad de algoritmos de tratamiento hostil en la comunidad, respuestas irrelevantes de contenido, de baja calidad, ilegal y así sucesivamente. Según los informes, el sistema puede limpiar el contenido de baja calidad de nueva creación de alrededor de 5.000 por día.

 

A pesar de que varias compañías están utilizando su propia tecnología de algoritmo para hacer frente a los contenidos ilícitos, pero la cara de las posibilidades ilimitadas de la lengua y las imágenes, la inteligencia artificial todavía a menudo erróneo. Por otro lado, el contenido de la auditoría como los coches sin conductor, las consecuencias serán muy graves debido a los desaparecidos. No hay suficiente memoria, entonces buen algoritmo no puede ser práctico. Entre el Día de la Independencia de Estados Unidos el año pasado, el algoritmo de "Declaración de Independencia" en extractos estado de Facebook determina que la presunta discriminación racial que se ha eliminado.

 

Así, en el texto, imagen procesamiento de dificultades técnicas en? Empecemos con la tecnología de cómo puede hacer el aprendizaje de una lengua a empezar.

 

La comprensión del lenguaje: la joya de la corona

 

Historia Procesamiento del Lenguaje Natural (PLN) con una historia casi tan larga como las computadoras y la inteligencia artificial. Desde el nacimiento de la computadora, no es el estudio de la inteligencia artificial, que es el campo de la investigación temprana de la traducción automática de la inteligencia artificial y la comprensión del lenguaje natural. Esto no significa que la capacidad de que hoy en día para entender qué tan alto el lenguaje de máquina, de hecho, tenemos un largo camino por recorrer desde una muy inteligente.

 

Informáticos muy buenos datos estructurados, tales como hojas de cálculo y tablas de bases de datos. Pero nosotros los seres humanos utilizan normalmente la comunicación de texto estructurado entre sí, esto no es una cosa buena para un ordenador.

 

Para que la máquina de comprender el lenguaje, a menudo necesitamos para seguir un proceso en paralelo: En primer lugar, para dividir el texto en frases individuales, entonces la frase se divide en diferentes palabras o signos, entonces, tenemos que dejar que la máquina para tratar de adivinar cada uno partes de las etiquetas de voz: los sustantivos , verbos, adjetivos y así sucesivamente. Después del reconocimiento Lematización, parada de la palabra, y el otro proceso de dependencia de resolución en el proceso de reconocimiento de entidades con nombre (NER) a través de modelos estadísticos, usando el contexto de adivinar la palabra en nombre de qué tipo de términos.

 

Aunque la tecnología de procesamiento de lenguaje natural permite a los ordenadores para entender el significado del texto, en cierta medida, pero la mayoría de los estudios se basan en Inglés. Sólo desde el punto de vista de la investigación PNL: en Inglés en el etiquetado del habla, una gran diferencia en el análisis sintáctico y otras tareas. reflejado principalmente a las inflexiones significativas (singular y plural, tiempos, etc.) en Inglés y chino carecen de estas inflexiones.

 

Deje BERT aprender chino

 

El texto de la auditoría, el algoritmo debe ser capaz de "ajuste" a través de un proceso conocido semántica de palabras; por el contrario, el algoritmo debe tener también la capacidad de generalización, sobre la base de la semántica comprensión, pueden aprender por analogía.

 

El modelo más texto común clasificación incluye Fasttext, TextCNN, TextRNN y variaciones de los mismos. En donde, Fasttext directamente basada en token de media incrustado en la clasificación de texto, aunque este método no tiene en cuenta el orden de las palabras, pero es sencillo y eficaz. TextCNN convolucional modelado basado en una dependencia local del texto (función local), la información global de aprendizaje agruparon. CNN es capaz de capturar la relación entre el orden de las palabras, mientras que la reducción de dimensionalidad local. Para modelar las dependencias de larga distancia, tienen que confiar en la capa de células de múltiples capas y el modelo de convolución estructura más compleja. TextRNN patrón de secuencia basado en el modelado GRU LSTM o texto, el texto se puede modelar eficazmente dependencias de larga distancia.

 

Los titulares de hoy detrás de modelo de clasificación de texto "Espíritu Perros" ha pasado por tres iteraciones, aplicación de reconocimiento de texto del modelo del perro espíritu de primera generación es "vector de la palabra" y "CNN (red neuronal de convolución)" la tecnología, la formación conjunto de datos que contiene 3,5 millones muestras de datos, la precisión de la predicción de la muestra aleatoria de 79%. El espíritu perro de segunda generación, la aplicación es "LSTM (memoria a corto y largo plazo)" y "mecanismo de atención", el conjunto de datos de entrenamiento que contiene 8,4 millones de muestras de datos, la tasa de precisión aumentó a 85%.

 

Cada nueva versión en comparación con la versión anterior, y los aspectos técnicos de la recolección de datos tiene un salto significativo. Los perros de tercera generación Ling ya tienen acceso a BERT.

 

"BERT" es actualmente la tecnología más avanzada de procesamiento de lenguaje natural en los últimos años, importantes avances en el campo de la PNL sintetizador. Esta técnica común en la comprensión de lectura, la implicación semántica, preguntas y respuestas en diversas tareas, tales como la correlación vez había roto el 11 mejor registro, pero también debido a la cantidad de parámetros hasta 300 millones prohibitivo para la mayoría de los desarrolladores. "BERT" presenta un modelo de estructura profunda, enfoque de "bloque", mientras que aprovechando el contexto de mejorar la exactitud y corpus natural ultra-gran escala modelado por aprendizaje no supervisado. Debido al lenguaje natural tiene una coherencia natural, a través del poder predictivo de la formación a gran escala de los modelos de lenguaje, alcanzó un nivel sin precedentes.

 

El nuevo "Espíritu Perros", mientras que la aplicación del modelo de "BERT" y semi-aprendizaje supervisado, y el uso de un corpus especial china sobre esta base, se ajustó la estructura del modelo, sin sacrificar la eficacia, por lo que la eficiencia computacional alcanzó un nivel práctico.

 

Los titulares de hoy dijeron LSTM + Atención en comparación con la realización anterior, el esquema de identificación de la máquina modelo BERT contenido bajo 125 ms de retardo, el aumento de operador fuerza la demanda 33 veces, mejorar la tasa de precisión era 7,04%.

 

Reconocimiento de Imagen: siempre hay cosas extrañas suceden

 

Y el texto es diferente proceso de reconocimiento de imágenes de la máquina es como en el píxel de lectura Braille es un solo puntos de información, para hacer un juicio final en el conjunto más razonable de todos los puntos de contenido de información. Este enfoque permite que la máquina tiene más de los seres humanos puede en un procesamiento de la imagen visual particular. Por ejemplo, en la identificación de especies vegetales y animales, que son algo más que un equipo "profesional". Sin embargo, en más casos, la inspección de contenido es una tarea difícil.

 

La idea básica de la clasificación de imágenes común actual se basa en IMAGEnet pre-formados modelos de clasificación (por ejemplo ResNet, Xception, Senet, etc.), haciendo los ajustes estructurales y parámetros, y luego en base a la extracción de características de imagen modelo después de un ajuste fino, como una entrada de modelo de clasificación tarea específica la clasificación de imágenes. El enfoque de redes neuronales basadas en convolución tiene el riesgo de ser "engañado" en.

 

 

imágenes de animales en la figura anterior, la primera vez desde 1892 en una revista alemana ha sido confusa la gente: algunas personas sólo ven un conejo, algunas personas sólo ven un pato. Algunas personas tomaron esta entrada de la imagen en la máquina de reconocimiento de herramientas de imagen Google, los resultados de la máquina considerados 78% de probabilidad de un pájaro, es un 68% de probabilidad de un pato.

 

Trabajado en BuzzFeed científico de datos Max Woolf continuación, se diseñó un experimento más complejo: se limitó a dejar esta imagen espín hacia arriba, quería ver lo que la máquina hará el juicio. Como resultado, Google AI principio pensó que era una boca de pato, pato que apunta 09:00 dirección. Con la boca de pato hasta 10:00 dirección, y pronto Google AI considera que la pintura no es un conejo, la boca de pato ir hasta después de las 2:00 dirección. Después de un período de tiempo, Google Ai que ni pato ni conejos. Hasta el 7 de dirección en punto, Google AI nuevo es sin duda un pato.

 

Algunas personas creen que, tal vez porque los seres humanos tienen un conocimiento a priori de espacio para la hora de juzgar un objeto - dichos datos una marcada para entrenar el modelo, también consideraciones de espacio y dirección, etc., sin saberlo. Por otra parte, la máquina no sólo girar la imagen confusa, a veces incluso diferentes tamaños de imagen también hacer que la máquina da un juez diferente.

 

Optimización modelo de aprendizaje de profundidad

 

Para examen del contenido de la imagen, la dificultad consiste en tres áreas: datos no está equilibrado, gran variación dentro de la clase y no exhaustiva . conjunto de datos de muestra de la imagen menos ofensivo representaron la proporción del contenido, a menudo conducen a la formación ineficaz modelo de aprendizaje profundo. Además, el tipo de imágenes vulgares de rico, complejo, compuesto de características de imagen vulgares varían ampliamente.

 

En este sentido, "el espíritu del perro" solución es optimizar el uso del aprendizaje profundo. "Estamos en el modelo de datos y el cálculo, por lo que hacemos un montón de optimización," Wang Zhanghu carretera. "En el plano de datos, el perro Espíritu ha acumulado decenas de conjunto de entrenamiento millones de nivel, mientras que a nivel de modelo, el perro espíritu de una serie de muestras difíciles hizo modelo de sintonización estructura, intentar resolver el tamaño multi, multi-escala, pequeños objetivos complejos problemas. sobre el nivel de potencia de cálculo, el espíritu de entrenamiento del perro utilizando un algoritmo distribuido y la formación de clúster de GPU, formación acelerada y puesta en marcha del modelo ".

 

En respuesta al usuario subir fotos en diferentes proporciones, titulares de hoy diseñada "modelo de varios cañones" en algoritmos de reconocimiento de imagen, por lo que varias proporciones de identificación con foto puede tener un efecto bueno. Cuando el modelo para predecir la relación de las miradas algoritmo para el "cubo" más cercano de acuerdo a la proporción de la imagen entrante, y luego dar las predicciones correspondientes. Dado que los parámetros correspondientes a diferentes proporciones del modelo de bañera es compartido, y tiempo de predicción monomodo estaba cerca. Y debido a que después de un proceso correspondiente al modelo, el algoritmo se puede mejorar aún más la precisión.

 

En el escenario orientado a las personas, la proporción de personas en la zona con el fin de resolver la situación cambia un gran problema, los ingenieros introdujeron la estructura piramidal característica de los objetos a diferentes escalas, se puede mejorar la capacidad del modelo a las características de consistencia extracto. imagen estructura de red voluntad convencional una pluralidad de veces la convolución de la función de mapa de imagen, imagen, entonces el resultado de la clasificación más trasero toda capa de conexión obtenido - pero este método tiene un inconveniente, si la proporción de personas en el equipo de prueba en el cuadro conjunto de entrenamiento y una gran brecha, que dará lugar a la disminución del efecto. Alta información de la característica semántica en la estructura piramidal de red, en el que la parte inferior y las funciones de integración superiores, y dar a cada resultado predicción, el uso simultáneo de las características subyacentes características de alto nivel y alta resolución.

 

 

En respuesta a los desafíos áreas pequeñas aparecen en la imagen, titulares de hoy también diseñaron ayudar a la división de la red clasificada. La red incorpora la estructura característica de pirámide, la formación se divide en dos partes, cada parte dividida predicciones se denotan mediante el cálculo de la pérdida de área predijo la sección Mapas de la clasificación en la región de características y luego entra en el clasificador y clasificación de las etiquetas de cálculo de la pérdida ; predicción, en el que la salida de región predicción pirámide estructura, en donde la región de la figura superpuesta, y alimenta entonces a un clasificador para obtener un resultado clasificada.

 

Aunque el uso de algoritmos optimizados, pero difícil de conseguir algunos problemas técnicos en esta etapa también depende de juicio humano: pinturas famosas aparecen a menudo la imagen desnuda, si totalmente de la máquina juicio, el área expuesta de la máquina mediante la identificación de las personas retratadas en la piel, usted piensa que la imagen es pornográfica vulgar; y algunas fotos tomadas de ballet, vista en perspectiva de la máquina, tal vez similar a las faldas fotografiados.

 

Wangchang Hu cree que la complejidad de los problemas y limitaciones para el juicio vulgares diferentes formas de juicio, uno necesidades cambiantes modelo de la tecnología, por otra parte, la necesidad de combinación eficaz de la tecnología y el juicio humano de dos maneras.

 

"Nuestro modelo está todavía en evolución, además de cientos de sistemas modelo vulgar espíritu anti-perro, así como, en dirección del partido, de información falsa pornográfica, vulgar, tales como baja calidad", expresó Wang Changhu. "Desde su creación en 2012, encabeza hoy se ha establecido cerca de diez mil personas al equipo de auditoría profesional para garantizar la seguridad del contenido."

 

La inteligencia artificial puede ayudar a mejorar significativamente la eficiencia de la auditoría y la precisión, pero incluso en esta etapa de un largo tiempo, todavía no puede sustituir completamente a los seres humanos todo el juicio. Debido a que la máquina también es difícil de entender el significado detrás del contenido, no lo hacen libres de cambiar la escena cultural diferente, o aprender en el tiempo para el cambio de las normas y criterios. Ahora parece que el contenido de la auditoría sobre el método manual de la máquina + es la práctica común más razonable.

Publicados 363 artículos originales · ganado elogios 74 · vistas 190 000 +

Supongo que te gusta

Origin blog.csdn.net/sinat_26811377/article/details/104684652
Recomendado
Clasificación