Cómo implementar un altavoz inteligente conectado a chatGPT

Algunos "altavoces inteligentes" existentes, como un cierto grado y un cierto espíritu de gato, tienen una discapacidad mental en comparación con el chatGPT actual. Si hay un altavoz inteligente conectado a chatGPT, su interactividad será mucho mejor. Los parlantes inteligentes con soporte gpt definitivamente serán muy fuertes.La siguiente es una discusión sobre las ideas de implementación.

En la actualidad, los altavoces inteligentes aún son inmaduros a nivel de interacción de voz. Como se menciona en el artículo "ChatGPT debería complementar el 'IQ' para los asistentes de voz" escrito por Lei Technology, la mayoría de ellos, ya sea Siri o Xiaoai, han utilizado la voz. Los usuarios de los asistentes probablemente estarían de acuerdo en que definitivamente no son inteligentes, o incluso incómodos para interactuar con ellos.

La experiencia de interacción de voz no es buena y, naturalmente, los usuarios están menos interesados ​​en usarla.

Sin embargo, la aparición repentina de ChatGPT ha traído esperanza a la industria. Este tipo de modelo de procesamiento de lenguaje natural a gran escala puede resolver el problema de los asistentes de voz tradicionales que "no pueden entender el significado antes y después, y el reconocimiento de oraciones largas no es lo suficientemente preciso", y puede proporcionar una mejor precisión, escalabilidad y coherencia para la interacción de voz, lo que permite que las máquinas entiendan a los humanos La capacidad de dar comandos de voz ha dado un salto exponencial.

Debido a esto, la idea de usar ChatGPT para optimizar los asistentes de voz tiene una alta viabilidad. Si el asistente de voz realmente se puede conectar a ChatGPT, permitirá que el altavoz inteligente distinga activamente si el usuario se está comunicando consigo mismo y se comunique con el usuario de forma natural en cualquier momento y en cualquier lugar. Permita que los usuarios estén dispuestos a hablar con altavoces inteligentes y haga de los altavoces inteligentes un asistente verdaderamente eficiente e inteligente en la vida o el trabajo diario de los usuarios.

Para realizar un altavoz inteligente de IA, se involucran múltiples campos técnicos, como el reconocimiento de voz, el procesamiento del lenguaje natural y la síntesis de voz. A continuación se describe una breve implementación de los pasos del programa.

Proceso de implementación

  1. La recopilación de comandos de voz requiere el uso de un micrófono u otros dispositivos externos para recopilar los comandos de voz del usuario. Las bibliotecas de audio como PortAudio se pueden usar para grabar y convertir a una frecuencia de muestreo y un formato adecuado para el reconocimiento de voz.

  2. Reconocimiento de voz Una vez recopilados los datos de voz, es necesario convertirlos en texto mediante la tecnología de reconocimiento de voz. Se pueden usar servicios de reconocimiento de voz como Baidu Smart Cloud, Xunfei, etc., o se pueden usar bibliotecas de reconocimiento de voz de código abierto como Kaldi para el reconocimiento fuera de línea.

  3. Procesamiento de texto Después de obtener el texto, se requiere el procesamiento del lenguaje natural para clasificar y analizar las instrucciones. Aquí puede usar chatgpt para la clasificación de comandos y la gestión de diálogos. Chatgpt debe integrarse en el código y, cuando se procesa el texto, enviarlo a chatgpt para su procesamiento.

  4. Procesamiento de la respuesta de chatgpt Después de obtener la respuesta de chatgpt, debe convertirse en voz y reproducirse. Puede usar varias bibliotecas de síntesis de voz, como Baidu Smart Cloud, Xunfei, MaryTTS, etc. para la síntesis de voz y usar bibliotecas de audio como PortAudio para la reproducción. La solución anterior es solo una breve solución de implementación.

Introducción a PortAudio

PortAudio es una biblioteca de E/S de audio gratuita, multiplataforma y de código abierto. Le permite compilar programas de audio simples en C o C++ y ejecutarlos en una variedad de plataformas, incluidas Windows, Macintosh OS X y UNIX (OSS / ALSA). Su objetivo es facilitar la convergencia de software de audio entre desarrolladores en diferentes plataformas. Muchas aplicaciones ya utilizan la biblioteca PortAudio para el procesamiento de E/S de audio.

Introducción

Kaldi es uno de los proyectos de código abierto ASR (Automatic Speech Recognition) más populares y ha sido utilizado por muchos sistemas comerciales de reconocimiento de voz. Desde que el desarrollador y mantenedor más importante de Kaldi, Daniel Povey, conocido como el padre de Kaldi, se unió a Xiaomi en 2019 como científico jefe de voz del Grupo Xiaomi, ha mejorado aún más los productos de voz inteligente de Xiaomi, y Xiaomi también prometió seguir insistiendo. en su pura cultura de código abierto definitiva, seguir aumentando la inversión en Kaldi y seguir contribuyendo a la comunidad de Kaldi.

posdata

Algunos desarrolladores ya lo han hecho. En la plataforma de alojamiento de código Github, algunos desarrolladores intentan conectar ChatGPT a Xiao Ai. Siempre que el usuario complete la implementación, todas las preguntas que comiencen con "Ayúdame" después de despertar a Xiao Ai se enviarán automáticamente a ChatGPT en forma de texto. y el texto generado por ChatGPT será respondido por Xiao Ai a través de TTS (tecnología de síntesis de voz).

La demostración del desarrollador muestra que todo el proceso es lo suficientemente fluido, y la respuesta real está mucho más allá del nivel de "inteligencia" original de Xiao Ai.

Sin embargo, este proyecto es solo un intento de un desarrollador individual, lo que significa que Xiao Ai, que actualmente está conectado a ChatGPT, solo tiene la capacidad de chatear.Si conecta todas las conversaciones a ChatGPT, entonces la función de interconexión inteligente será completamente inútil, como configurar el despertador, reproducir música, controlar dispositivos iot, etc.

Cómo hacer que ChatGPT pueda ayudar a las personas a hacer cosas mientras pueden entender el habla de las personas es la clave para mejorar la experiencia de usar parlantes inteligentes.alt

cita

Desarrollar un proyecto de reconocimiento de voz fuera de línea de Android basado en KALDI

在树莓派上搭建kaldi离线语音识别系统

kaldi嵌入式平台的移植及实现 Linux音频录制和播放

markdown PortAudio —— 跨平台音频采集API PortAudio portaudio使用笔记

Kaldi的简单介绍

kaldi在Windows下的使用

本文由 mdnice 多平台发布

Supongo que te gusta

Origin blog.csdn.net/qq8864/article/details/130372900
Recomendado
Clasificación