페이 디지털 휴먼 어시스턴트
Fay Digital Assistant Edition은 지능형 디지털 비서용 오픈 소스 솔루션 구축에 중점을 둔 fay 오픈 소스 프로젝트의 중요한 분기입니다 . 유연한 모듈식 설계를 제공하여 개발자가 감정 분석, NLP 처리, 음성 합성 및 음성 출력 등 다양한 기능 모듈을 사용자 정의하고 결합할 수 있습니다. Fay Digital Assistant Edition은 개발자에게 지능적이고 개인화된 다기능 디지털 비서 애플리케이션을 구축하기 위한 강력한 도구와 리소스를 제공합니다. 이 버전을 통해 개발자는 다양한 시나리오와 분야에 적합한 디지털 어시스턴트를 쉽게 만들고 사용자에게 지능형 음성 상호 작용 및 개인화 서비스를 제공할 수 있습니다.
추천 플레이
Lingju NLP api(GPT3.5 및 여러 애플리케이션 지원): Fay Digital Human은 Lingju NLP api를 통합합니다(GPT3.5 및 여러 애플리케이션 지원)_哔哩哔哩_bilibili
로컬 립 알고리즘 통합: 페이 디지털 휴먼 어시스턴트 업데이트 로컬 립 알고리즘 릴리스(새로운 UE5 엔지니어링 예제 포함)_哔哩哔哩_bilibili
디지털 휴먼에 눈 추가(yolo+VisualGLM 통합): Bilibili 비디오
Fay(Dharma Academy funaar)에 로컬 자유 언어 인식 추가: Fay(Dharma Academy funaar)에 로컬 자유 언어 인식 추가_哔哩哔哩_bilibili
소비자 등급 PC 대형 모델(ChatGLM-6B 기반의 라사 이전 세션 관리): fay에 rasa 및 chatglm 추가(github 디지털 휴먼 오픈 소스 프로젝트): 실시간, 제어 가능, 메모리 및 대형 모델 생성 기능 고려_哔哩哔哩_bilibili
UE5 프로젝트: https://github.com/xszyou/fay-ue5
라이브 비디오 3D 재구성(NeRF): https://github.com/waityousea/xuniren
페이 디지털 어시스턴트 에디션
참고: 상품이 포함된 버전은 지점 fay-sales-edition 으로 이동되었습니다.
Fay 컨트롤러의 어시스턴트 버전은 음성 통신, 음성 및 문자 응답, 문자 통신, 문자 응답을 사용합니다.
PC 원격 비서 PC 데모
휴대폰 원격 비서 안드로이드 데모
디지털 이미지와 통신 (필요하지 않음, 컨트롤러에서 "패널 재생"을 꺼야 함)
컨트롤러는 WebSocket을 통해 UE와 통신합니다.
프로젝트 다운로드: Baidu 네트워크 디스크, 추출 코드를 입력하십시오
Windows 런타임 패키지 다운로드: Baidu Netdisk, 압축 해제 코드를 입력하십시오
프로젝트: https://github.com/xszyou/fay-ue5
중요한:
페이(서버)와 디지털 휴먼 간의 통신 인터페이스: ws://127.0.0.1:10002
(연결됨)
메시지 형식: WebSocket.md 보기
원격 오디오 입력 및 출력 장치와 연결 (필요하지 않음, 외부 네트워크에서 http://ngrok.cc tcp 채널의 clientid를 구성해야 함)
컨트롤러는 소켓(websocket 아님)을 통해 오디오 출력 장치와 통신합니다.
인트라넷 통신 주소: ws://127.0.0.1:10001
외부 네트워크 통신 주소 : http://ngrok.cc 를 통해 받으세요 (커뮤니티가 무료로 사용할 수 있도록 서버를 후원할 파트너가 있나요?)
2. Fay 컨트롤러의 핵심 로직
메모:
위의 각 모듈은 자체 핵심 제품으로 쉽게 교체할 수 있습니다.
디렉토리 구조
.
├── main.py # 程序主入口
├── fay_booter.py # 核心启动模块
├── config.json # 控制器配置文件
├── system.conf # 系统配置文件
├── ai_module
│ ├── ali_nls.py # 阿里云 实时语音
│ ├── ms_tts_sdk.py # 微软 文本转语音
│ ├── nlp_lingju.py # 灵聚 人机交互-自然语言处理
│ ├── xf_aiui.py # 讯飞 人机交互-自然语言处理
│ ├── nlp_gpt.py # gpt api对接
│ ├── nlp_chatgpt.py # chat.openai.com逆向对接
│ ├── nlp_yuan.py # 浪潮.源大模型对接
│ ├── nlp_rasa.py # ChatGLM-6B的基础上前置Rasa会话管理(强烈推荐)
│ ├── nlp_VisualGLM.py # 对接多模态大语言模型VisualGLM-6B
│ ├── yolov8.py # yolov8资态识别
│ └── xf_ltp.py # 讯飞 情感分析
├── bin # 可执行文件目录
├── core # 数字人核心
│ ├── fay_core.py # 数字人核心模块
│ ├── recorder.py # 录音器
│ ├── tts_voice.py # 语音生源枚举
│ ├── authorize_tb.py # fay.db认证表管理
│ ├── content_db.py # fay.db内容表管理
│ ├── interact.py # 互动(消息)对象
│ ├── song_player.py # 音乐播放(暂不可用)
│ └── wsa_server.py # WebSocket 服务端
├── gui # 图形界面
│ ├── flask_server.py # Flask 服务端
│ ├── static
│ ├── templates
│ └── window.py # 窗口模块
├── scheduler
│ └── thread_manager.py # 调度管理器
├── utils # 工具模块
├── config_util.py
├── storer.py
└── util.py
└── test # 都是惊喜
3. 업그레이드 로그
2023.07.12:
- 어시스턴트 버전의 텍스트 입력 시 상대방의 답장이 읽히지 않는 문제 수정;
- 어시스턴트 버전의 텍스트 입력이 qa 응답을 읽지 않는 문제를 수정하십시오.
- 향상된 마이크 액세스 안정성.
2023.07.05:
- 립알고리즘 실행이 되지 않아 소리가 재생되지 않는 문제를 수정합니다.
2023.06.28:
- 무료 확장을 위한 NLP 모듈 관리 로직 리팩토링
- gpt: ChatGPT 및 GPT로 분할하고 새 GPT 인터페이스를 교체하고 프록시 서버를 별도로 구성합니다.
- yolo 비호환성 문제를 해결하기 위해 yolov8 패키지 버전을 지정하십시오.
- 수정: 혼잣말 버그, 보류 중인 여러 메시지 버그 수신.
2023.06.21:
- Lingju NLP api 통합 (GPT3.5 및 여러 애플리케이션 지원)
- ui 수정.
2023.06.17:
- 네이티브 립 알고리즘 통합 .
2023.06.14:
- 다중 채널 마이크 호환성 문제를 해결합니다 .
- fay_core.py 및 fay_booter.py 코드를 리팩터링합니다 .
- UI는 레이아웃 조정에 적응합니다.
- 사운드 선택 복원;
- "Thinking..."은 논리 수정을 보여줍니다.
2023.05.27:
- 여러 버그 수정: 메시지 상자 줄 바꿈 및 공간 문제, 음성 인식 최적화;
- 부활절 달걀이 긍정적이 되고, Fay 커뮤니케이션과 ChatGPT가 병렬화됩니다 .
- yolov8 제스처 인식을 추가하십시오.
- VisualGLM-6B 다중 모달 독립형 오프라인 대형 언어 모델을 추가합니다 .
2023.05.12:
- Fay 디지털 휴먼 어시스턴트 버전을 기본 분기로 재생합니다( 상품이 있는 버전은 분기 fay-sales-edition 으로 이동됨 ).
- Fay Assistant의 텍스트 통신 창 추가(텍스트 및 음성 동기화)
- 통신 기록을 로컬에 저장하는 기능을 추가합니다.
- ChatGLM-6B의 애플리케이션 로직을 업그레이드하여 긴 텍스트와 음성 회신을 분리합니다.
4. 설치 지침
환경
- 파이썬 3.9、3.10
- 윈도우, macos, 리눅스
종속성 설치
pip 설치 -r requirements.txt
애플리케이션 키 구성
- AI 모듈 보기
- 링크를 탐색하고, 애플리케이션을 등록 및 생성하고, 애플리케이션
./system.conf
키를 입력합니다.
시작하다
페이 컨트롤러 시작
파이썬 메인.py
AI 모듈
시작하기 전에 애플리케이션 키를 입력해야 합니다.
코드 모듈 | 설명하다 | 링크 |
---|---|---|
./ai_module/ali_nls.py | 실시간 음성인식 (불필요, 3개월 무료, asr 중 택1) | 실시간 음성인식_음성전환_실시간회의녹화_인공지능-알리바바 클라우드 |
./ai_module/funasr.py | Dharma Academy 오픈 소스 무료 로컬 ASR(필수 아님, ASR 중 하나 선택) | 페이/테스트/funasr/README.MD |
./ai_module/ms_tts_sdk.py | Microsoft text-to-emotion 음성(필수 아님, 구성되지 않은 경우 free edge-tts 사용) | 텍스트 음성 변환 - 실제 AI 음성 생성기 | Microsoft Azure |
./ai_module/xf_ltp.py | Xunfei 감정 분석 | 감정 분석 - 자연어 처리 - Xunfei Open Platform |
./utils/ngrok_util.py | ngrok.cc 외부 네트워크 침투(선택 사항) | http://ngrok.cc |
./ai_module/nlp_lingju.py | Lingju NLP api(GPT3.5 및 여러 응용 프로그램 지원)(NLP 객관식 1) | https://open.lingju.ai gpt3.5 권한을 활성화하려면 고객 서비스에 문의해야 합니다. |
./ai_module/yuan_1_0.py | Inspur 소스 대형 모델(NLP 객관식 1 ) | 출처 1.0-초대형 사전 훈련 모델-인스퍼 정보 |
./ai_module/chatgpt.py | ChatGPT(NLP 객관식 1) | ******* |
./ai_module/nlp_rasa.py | ChatGLM-6B 기반, 사전 라사 세션 관리(NLP 객관식 1) | fay에 rasa 및 chatglm 추가(github 디지털 휴먼 오픈 소스 프로젝트): 실시간, 제어 가능, 메모리 및 대규모 모델 생성 기능 고려_哔哩哔哩_bilibili |
./ai_module/nlp_VisualGLM.py | 도킹 VisualGLM-6B 다중 모달 독립형 오프라인 대형 언어 모델(NLP 객관식 1) | B 스테이션 비디오 |
5. 사용 지침
사용 지침
- 음성 어시스턴트: 페이 컨트롤러(마이크 입력 소스 켜짐, 패널 재생 켜짐);
- 원격 음성 비서: fay 컨트롤러(패널 재생 꺼짐 ) + 원격 장치 액세스;
- 디지털 휴먼 인터랙션: 페이 컨트롤러(마이크 입력 소스 켜짐, 패널 재생 꺼짐, 문자 Q&A 작성) + 디지털 휴먼;
- Jarvis, Her: 함께 끝내자.
음성 명령
가까운 코어 | 무음 | 음소거 해제 |
---|---|---|
가까이, 안녕, 가자 | 뮤트 닥쳐 조용히 하고 싶어 | Unmute, 어디야, 이제 얘기해도 돼 |
노래 재생(음악 라이브러리를 일시적으로 사용할 수 없음) | 재생 일시 중지 | 더 |
---|---|---|
노래 틀어, 음악 틀어, 노래 불러, 노래 틀어, 음악 들어, 노래할 수 있어 | 그만해 노래 그만해 듣기 싫어 | 하나도 남지 않았다... |
사람들이 설정
사용자와의 상호 작용에 따라 대응할 수 있는 디지털 인간 속성.
인터랙티브 감도
상호 작용하는 동안 디지털 휴먼은 사용자의 감정을 느끼고 반응할 수 있습니다. 가장 직접적인 표현은 행복/슬픔/화남과 같은 어조의 변화입니다. 사용자의 감정이 디지털 휴먼에 영향을 미치는 정도를 변경하는 민감도를 설정합니다.
수신 소스
텍스트 입력
통신창을 통한 어시스턴트와의 문자 통신
마이크로폰
대면 상호 작용을 실현하고 파트너가 될 마이크 장치를 선택하십시오.
소켓 원격 오디오 입력
원격 오디오 입력, 원격 오디오 출력에 액세스할 수 있습니다.
관련 기사:
1. 소비자 등급 PC 대형 모델 통합 (ChatGLM-6B 기반의 사전 라사 세션 관리): fay에 rasa 및 chatglm 추가(github 디지털 휴먼 오픈 소스 프로젝트): 실시간, 제어 가능, 메모리 및 대형 모델 생성 기능 고려_哔哩哔哩_bilibili
2. (34개 메시지) 매우 포괄적인 디지털 휴먼 솔루션_궈쩌빈의 블로그-CSDN 블로그_디지털 휴먼 알고리즘
3. [오픈소스 프로젝트: Digihuman FAY—— Fay의 새로운 아키텍처 사용 설명 ] 오픈소스 프로젝트: Digihuman FAY——Fay의 새로운 아키텍처 사용 설명_哔哩哔哩_bilibili
4. [오픈소스 프로젝트 FAY - UE 엔지니어링 설명 ] 페이(github 디지털 휴먼 오픈소스 프로젝트): UE 엔지니어링 설명_哔哩哔哩_bilibili
5. M1 머신 설치 방법(Gason 제공) : MacBook Pro m1 버전에 python의 pyqt5를 어떻게 설치하나요? - 거의 안다
6. 빌빌 홈페이지 : xszyou의 개인공간_哔哩哔哩_bilibili
비즈니스 연락처 QQ 467665317, 우리는 다음을 제공합니다: 개발 컨설턴트, 디지털 인간 모델 사용자 지정 및 대학 교육 리소스 구현 서비스 소스를 끝까지 오픈하고 주변에서 추가 수익을 얻습니다 - 페이 디지털 인간 - Yaheng 포럼 - Discuz 제공!
공개 계정(페이 디지털 사람)을 팔로우하여 최신 WeChat 기술 교환 그룹 QR 코드를 받으십시오( 이 창고를 먼저 별표 표시하십시오 ).