¡El proveedor de servicios de almacenamiento de datos detrás de OpenSLR China Mirror resulta ser una de esas empresas!

Zhang Qingqing

Autor | Xiyan

Invitado de la entrevista | Zhang Qingqing

Listado | CSDN (ID: CSDNnews)

Los desarrolladores y estudiantes en el campo de la voz deben estar familiarizados con OpenSLR Esta conocida plataforma abierta de recursos de voz de EE. UU. Alberga recursos de datos de voz de código abierto de todo el mundo. Con la participación de Daniel Povey, el fundador de Kaldi, una herramienta de código abierto para el reconocimiento de voz, OpenSLR China Mirror permite a los desarrolladores chinos disfrutar de más beneficios. A través de este espejo, los desarrolladores chinos pueden descargar datos de código abierto OpenSLR de manera más conveniente.

El fabricante que proporciona servicios de almacenamiento de datos para esta imagen es una empresa china llamada Aishu Wisdom. El propio Daniel también se desempeña como consultor de voz para esta empresa.

Esto hace que la gente se pregunte, ¿qué tipo de empresa es esta? Después de comprender el contexto de desarrollo de esta empresa, encontrará que este fabricante de datos que surgió en el momento del auge de la IA nacional y la ola de datos, su proceso de desarrollo de cuatro años, parece ser el epítome de la transformación del servicio de datos de China de modo extensivo a operación refinada. .

El big data está en la cúspide, presenciando los cambios en la industria nacional de servicios de datos de IA

El fundador de Aishu Wisdom es Zhang Qingqing, un experto postdoctoral francés "retornado" en habla.

Conocido de voz, comenzando en el período junior Zhang Qingqing en contacto con el "procesamiento de señales digitales de voz" (Autor: Yangxing Jun, Chi Huisheng) este libro. En ese momento, este curso lo impartía una experta de Datang Telecom. Cuando decidió postularse para la escuela en su último año, Zhang Qingqing se dio cuenta de que estaba muy interesada en el curso de fonética del Instituto de Acústica de la Academia China de Ciencias. En ese momento, le pidió al profesor que le escribiera una lista de referencias. . Desde entonces, ha forjado un vínculo indisoluble con la voz.

En 2010, Zhang Qingqing obtuvo la oportunidad de realizar un posdoctorado en procesamiento de señales de voz en el Laboratorio Nacional Francés LIMSI-CNRS.Su tema de investigación es el modelado acústico para el reconocimiento de voz continuo de vocabulario extenso. Aquí, tiene la oportunidad de participar en un proyecto en la Unión Europea, que involucra el reconocimiento de voz multilingüe europeo. Este año, su mayor ganancia es que puede juzgar los mejores métodos y algoritmos de procesamiento de datos a escala internacional. Este equipo presta atención a la equidad y el estilo de trabajo riguroso, que también ha tenido un impacto importante en su futura investigación profesional.

En 2011, Zhang Qingqing regresó a China desde LIMSI-CNRS y llegó al Instituto de Acústica de la Academia de Ciencias de China para participar en la investigación de modelado acústico y modelado de lenguaje para el reconocimiento de voz continuo de vocabulario extenso.

En los días de la Academia de Ciencias de China, Zhang Qingqing profundizó en el conocimiento y la comprensión profundos de la dependencia de la inteligencia artificial en los datos y fundó una empresa de servicios de datos profesionales para proporcionar a los clientes datos más profesionales. En los años siguientes, su experiencia en la industria de datos profundizó su comprensión de la importancia de los datos y su idea de convertirse en la mejor empresa de servicios de datos de la industria se hizo más fuerte.

Zhang Qingqing recordó que durante su período de posgrado y doctorado, para construir modelos acústicos y modelos de lenguaje y algoritmos, Zhang Qingqing compró algunos datos para el entrenamiento de modelos, pero en el proceso, encontró datos producidos por proveedores de datos tradicionales. No es fácil de usar y algunos métodos de procesamiento de datos no son lo que ella desea. En ese momento, todos conocían la importancia de los datos para la inteligencia artificial. El entrenamiento de modelos era "basura adentro, basura afuera" cuando la calidad de los datos no podía mantenerse, pero no muchas personas estaban dispuestas a calmarse y hacer datos. Pero sin buenos datos, el rendimiento del producto no se puede mejorar.

"Me di cuenta de que los buenos métodos de procesamiento de datos pueden aportar una mejora considerable en el rendimiento del reconocimiento final. Para comprender la situación básica de los datos de varias industrias, dejé la oficina de acústica y me fui a la empresa. Métodos de recopilación y procesamiento de datos, pero desde una perspectiva de investigación científica, estos métodos todavía tienen ciertos defectos ", dijo.

Cuando el desarrollo de la inteligencia artificial estaba en un período bajo, Zhang Qingqing hizo mucho trabajo de algoritmos de investigación. En ese momento, GPU y big data no se usaban ampliamente, y la mayoría de la gente no se daba cuenta de la importancia de los datos. Desde 2016, el auge nacional de la inteligencia artificial y el big data ha aumentado, y el hardware y el software relacionados han comenzado a utilizarse a gran escala. Los valores y las capacidades fundamentales de las empresas con datos y las empresas que pueden procesar datos de manera eficiente se han vuelto gradualmente prominentes. Una variedad de empresas de servicios de datos han surgido como brotes de bambú después de una lluvia, una mezcla.

Experimentó el proceso cambiante de la inteligencia artificial y comprendió profundamente el valor y las deficiencias de los datos y los algoritmos. Zhang Qingqing está bien versado en este campo como un "océano azul" prometedor. Zhang Qingqing tomó la importante decisión de dejar el Instituto de Acústica y establecer su propio negocio. Fundó una empresa de servicios de datos , Aishu Wisdom, para brindar servicios de recopilación y etiquetado de datos para reconocimiento de voz, síntesis de voz, procesamiento de lenguaje natural y visión por computadora.

En poco tiempo, aprovechando el "viento del este" que sopla en las industrias de datos e inteligencia artificial, Aishu Wisdom también marcó el comienzo de una nueva oportunidad de desarrollo en medio de cambios.

En primer lugar, en 2020, en comparación con el comienzo del establecimiento de la empresa, Zhang Qingqing siente que la industria de servicios de datos de IA ya ha experimentado cambios muy significativos.

Alrededor de 2010, la inteligencia artificial cambió el algoritmo, pasando del aprendizaje superficial al aprendizaje profundo en el pasado. Al mismo tiempo, la popularidad del hardware inteligente ha provocado que la demanda de datos crezca a pasos agigantados. Si confía en los métodos de procesamiento de datos puramente manuales de las empresas de datos tradicionales, la calidad y la eficiencia de los datos no pueden satisfacer la demanda de datos precisos. Además, las personas que realizan investigaciones y aplicaciones de modelos se han dado cuenta gradualmente de que la calidad de los datos es mucho más importante que el rendimiento del reconocimiento, y la optimización de los métodos de procesamiento de datos es más importante que la optimización del algoritmo.

Zhang Qingqing analizó que, desde la perspectiva del desarrollo de la industria, cada vez más empresas están comenzando a utilizar los datos recopilados para construir e implementar modelos de IA para respaldar nuevos servicios, y cada vez más empresas dependerán de la IA para mejorar la productividad de los empleados. La industria de la inteligencia artificial todavía está dominada por el entrenamiento de modelos de aprendizaje supervisado y tiene una fuerte demanda de datos anotados.

En segundo lugar, en esencia, los datos son como "forraje". Sólo cuando los datos son nutritivos puede "correr" el caballo de aprendizaje automático. Sin embargo, en escenarios reales de aplicaciones industriales, los servicios de datos aún enfrentan algunos puntos débiles.

Por ejemplo, en el campo del reconocimiento de voz con el que Zhang Qingqing está más familiarizado, el vocabulario limitado es un punto difícil en el reconocimiento de voz . Aunque la tecnología actual de reconocimiento de voz ha sido capaz de reconocer la mayoría de las palabras en inglés, todavía es difícil reconocer nombres y jergas. Cómo reducir el vocabulario limitado (Sin vocabulario) sobre el impacto de la tasa de reconocimiento, Aishu Wisdom ha desarrollado un sistema de etiquetado de diccionario de pronunciación con derechos de propiedad intelectual independientes . En este sistema, la máquina puede predecir la pronunciación de nuevas palabras basándose en el diccionario existente y enviar el resultado al anotador para que el anotador pueda marcar más rápido y agregar la pronunciación al diccionario. De esta manera, Aishu Wisdom puede actualizar e iterar rápidamente el diccionario, acelerando así la solución de problemas OOV.

Además, el modelo de reconocimiento de voz requiere una gran cantidad de datos para aprender nuevas palabras. Aishu Wisdom proporciona diccionarios de pronunciación a gran escala y los conjuntos de datos de voz correspondientes para varios idiomas, y ha diseñado una variedad de corpus.

Para otro ejemplo, una serie de problemas causados por el sesgo de los sistemas de inteligencia artificial se están volviendo cada vez más graves. Tomemos como ejemplos las empresas de reconocimiento facial más típicas como Microsoft, IBM y Facebook. Se ha demostrado que los sistemas de reconocimiento facial de los tres son precisos para identificar a las personas blancas. Es más alto que la raza con piel más oscura, por lo que causa mucha controversia. En respuesta al sesgo del sistema de IA, las empresas y los desarrolladores también han ofrecido algunas soluciones, pero en el análisis final, garantizar la "neutralidad" de los datos del nivel más bajo de datos es la forma más sencilla y eficaz de eliminar el sesgo de la IA. Cómo mantener la imparcialidad de los datos también es un desafío difícil en la industria.

"El prejuicio del modelo proviene de datos sesgados. Proporcionaremos una gama completa de soluciones de datos para escenarios de aplicación. Diseñaremos escenarios de aplicación para ellos basados en el escenario de aplicación del cliente y combinados con la situación de datos actual del cliente. El corpus mejora la cobertura de los datos y las características de pronunciación de la escena. Contrario a nuestro sentido común, los datos puros y limpios (como sin ruido de fondo) no son necesariamente buenos para el modelo. Debido a la escena real El reconocimiento de voz es muy complicado. Por ejemplo, el entorno puede ser ruidoso, la voz hablada es diversa, etc. Por lo tanto, el entorno de recopilación de datos debe ser lo más cercano posible al entorno real ", dijo Zhang Qingqing.

Según la descripción de Zhang Qingqing, la industria de servicios de datos de IA está experimentando una transformación. La evolución de la comercialización de IA ha hecho que los métodos de servicios de datos tradicionales se queden atrás y no puedan satisfacer las necesidades de servicios de datos cada vez más diversas.

La industria de servicios de datos de inteligencia artificial está cambiando mucho, el servicio integral de Aishu resuelve los puntos débiles de la industria

En un entorno así, la práctica de la industria ha demostrado que los productos de conjuntos de datos más avanzados y los servicios altamente personalizados se han convertido en las principales formas de servicio de la industria de servicios de datos básicos de IA. Zhang Qingqing cree que desde la perspectiva de la industria, con el cese de la última ronda de emprendimiento de IA, la industria ha experimentado una ronda de reorganización y tiene el estado de una marca con experiencia superior en términos de capacidades comerciales, beneficios de marca, conocimiento del servicio, calificaciones, etc. Resalta gradualmente.

Para adaptarse a tales cambios en la demanda, los productos de servicio de datos de Aishu Smart se actualizan e iteran constantemente, formando el actual servicio de datos único.

En la actualidad, Aishu Wisdom ofrece servicios de datos de ventanilla única, que incluyen la recopilación, limpieza, procesamiento, transcripción y anotación de datos, comprensión de textos, anotación de imágenes y servicios multimodales. Las aplicaciones de IA son muy sensibles a los cambios en los escenarios. Por lo tanto, para adaptarse a los requisitos de datos de los diferentes escenarios, Aishu Smart proporciona datos personalizados, que es un servicio de datos todo en uno. Después de comunicarse con los clientes y comprender los requisitos, desarrolle un plan de datos y llegue a un acuerdo con el cliente. Una vez alcanzado el consenso, se llevará a cabo la recolección de datos, transcripción, etiquetado, limpieza y otros servicios para brindar a los clientes datos estructurados.

En la actualidad, Aishu Wisdom tiene una gran cantidad de conjuntos de datos de productos terminados, que admiten más de 50 idiomas, que cubren múltiples conjuntos de datos de escenarios, incluidos escenarios de servicio al cliente, redes sociales, educación en línea, vehículos inteligentes, medicina inteligente, nuevos minoristas, etc.

Para ayudar a las empresas a entrenar modelos de inteligencia artificial, como el servicio al cliente de IA o los robots comerciales, el sitio web oficial de Aishu Wisdom ha agregado recientemente una gran cantidad de conjuntos de datos de dialectos y lenguas extranjeras adecuados para el reconocimiento y la síntesis de voz, incluidos Shanghai, Sichuan, Guangdong, Zhengzhou, Wuhan, Hunan. , Shanxi y otros dialectos locales, y tailandés, español, indonesio y otros idiomas extranjeros, que cubren conjuntos de datos de personas y escenas de diferentes edades y géneros.

Nota: Para obtener más conjuntos de datos, inicie sesión en el sitio web oficial de Aishu Wisdom (http://www.magicdatatech.cn) para consultar el servicio al cliente.

Este conjunto de datos es de gran importancia, porque en la actualidad, el reconocimiento y la síntesis de voz en dialectos y lenguas extranjeras sigue siendo un problema muy difícil en la industria. Muchos productos con un rendimiento superior serán difíciles de identificar dialectos e idiomas extranjeros, lo que reducirá en gran medida la experiencia del usuario. Solo con conjuntos de datos similares se pueden entrenar las IA que pueden reconocer mejor dialectos e idiomas extranjeros, y se pueden implementar mejor en aplicaciones del mundo real.

Además, las personas ahora tienen hábitos mixtos de habla chino-inglés en muchos escenarios, y el reconocimiento de este tipo de habla también es un problema importante en el campo del reconocimiento de voz. Aishu Wisdom continúa agregando el "conjunto de datos de audio de lectura de teléfonos móviles híbridos chino-inglés" para facilitar el desarrollo de productos de reconocimiento híbrido en varios idiomas para las empresas de inteligencia artificial.

Desde una perspectiva técnica, el proceso de producción de los productos de datos inteligentes Aishu también es diferente de los métodos tradicionales. Por ejemplo, el método de colaboración hombre-máquina se adopta en el enlace de recopilación de datos y el entorno de grabación está diseñado con derechos de propiedad intelectual independientes estándar de la industria para lograr altos estándares. La recopilación de datos mejora la calidad y confiabilidad de los datos y reduce la dificultad y el costo del procesamiento y la limpieza posteriores. La máquina filtra los datos de baja calidad recopilados en la etapa inicial, lo que puede reducir en gran medida la carga de trabajo de la limpieza de datos en la etapa posterior y hacer que la precisión de la recopilación de datos alcance más del 99%, lo que garantiza mejor la calidad de los productos de datos.

Vale la pena señalar que los conjuntos de datos de código abierto también pueden reflejar la fortaleza de una empresa de datos y también reflejar su actitud abierta. En la actualidad, Aishu Wisdom ha obtenido múltiples conjuntos de datos de voz de código abierto, incluido el conjunto de datos de evaluación de la pronunciación en inglés recientemente publicado (más de 14 horas de datos en inglés de habla china, registrados principalmente en un entorno de campo cercano sin reverberación o ruido significativos. Datos de estilo de lectura), un corpus japonés de 30 horas, un conjunto de datos de síntesis de voz para niños chinos y un conjunto de datos de lectura de voz en chino de código abierto que contiene 755 horas, etc.

La actitud abierta y de código abierto y la sólida fortaleza de los datos han creado el físico de la sabiduría de Aishu para atraer polvo.

En la era de la inteligencia artificial y el big data, ¿a dónde irá la industria de servicios de datos?

En la era de la IA, el big data y la IA se promueven entre sí, y la industria de servicios de datos actuará como un "operador" en la tubería de fabricación de IA, controlando el progreso y la calidad del desarrollo de la IA.

Como proveedor líder de servicios de datos nacionales, Aishu Wisdom no solo participa en la industria de servicios de datos nacionales, sino que también cambia, incluida su contribución a los conjuntos de datos en plataformas de código abierto como OpenSLR. Aishu Wisdom ha sido seleccionada recientemente en la lista "Las 30 empresas de tecnología de más rápido crecimiento en 2020" de "Silicon Valley Review", lo que indica el reconocimiento de la industria a su compromiso con la innovación de aplicaciones impulsadas por datos y la aplicación y desarrollo de tecnología de inteligencia artificial.

Actualmente, la industria tiene requisitos de datos más precisos ¿Qué tendencias tendrá la industria de servicios de datos en el futuro? ¿Cómo deberían responder las empresas de servicios de datos a estos cambios? Zhang Qingqing, quien ha trabajado en la industria de datos durante más de diez años, dio sus propias opiniones.

Ella cree que la industria de servicios de datos de IA y los usuarios de la industria estarán más alineados, con escenarios más ricos y, por supuesto, la competencia se volverá cada vez más feroz. Para adaptarse a los cambios, las empresas de servicios de datos deben:

Poseer capacidades de diseño de productos de conjuntos de datos más prospectivas y lanzar herramientas técnicas relacionadas;
Mejore la capacidad de preprocesamiento de datos y reduzca los costos laborales.

"Más importante aún, la plataforma de datos integrada se utiliza para controlar el comportamiento del personal y la calidad de los datos en todos los enlaces (inspección completa de responsabilidad múltiple y mecanismo de inspección aleatoria) para garantizar la estructura del resultado final, el cumplimiento de los datos y la garantía de calidad. ", Dijo Zhang Qingqing.

更多精彩推荐
☞滴滴 AI Labs 负责人叶杰平因个人原因即将离职！CTO 张博接任
☞TIOBE 9 月编程语言：C++ 突起、Java 流行度下降
☞被劝退的学渣，逆袭成高级语言之父，改变编程方式却说“不喜欢写代码”！
☞5年5亿美金，华为昇腾如何构建全行业AI生态？
☞该买哪家二手手机呢？程序员爬取京东告诉你！
☞总计2171个BTC被盗，这个钱包漏洞的受害者越来越多

点分享点点赞点在看

¡El proveedor de servicios de almacenamiento de datos detrás de OpenSLR China Mirror resulta ser una de esas empresas!

Supongo que te gusta