Fay Digital Assistant Edition은 지능형 디지털 도우미를 위한 오픈 소스 솔루션 구축에 중점을 둔 fay 오픈 소스 프로젝트의 중요한 분기입니다. 유연한 모듈식 설계를 제공하여 개발자가 감정 분석, NLP 처리, 음성 합성 및 음성 출력 등 다양한 기능 모듈을 사용자 정의하고 결합할 수 있습니다.

페이 디지털 휴먼 어시스턴트

Fay Digital Assistant Edition은 지능형 디지털 비서용 오픈 소스 솔루션 구축에 중점을 둔 fay 오픈 소스 프로젝트의 중요한 분기입니다 . 유연한 모듈식 설계를 제공하여 개발자가 감정 분석, NLP 처리, 음성 합성 및 음성 출력 등 다양한 기능 모듈을 사용자 정의하고 결합할 수 있습니다. Fay Digital Assistant Edition은 개발자에게 지능적이고 개인화된 다기능 디지털 비서 애플리케이션을 구축하기 위한 강력한 도구와 리소스를 제공합니다. 이 버전을 통해 개발자는 다양한 시나리오와 분야에 적합한 디지털 어시스턴트를 쉽게 만들고 사용자에게 지능형 음성 상호 작용 및 개인화 서비스를 제공할 수 있습니다.

추천 플레이

Lingju NLP api(GPT3.5 및 여러 애플리케이션 지원): Fay Digital Human은 Lingju NLP api를 통합합니다(GPT3.5 및 여러 애플리케이션 지원)_哔哩哔哩_bilibili

로컬 립 알고리즘 통합: 페이 디지털 휴먼 어시스턴트 업데이트 로컬 립 알고리즘 릴리스(새로운 UE5 엔지니어링 예제 포함)_哔哩哔哩_bilibili

디지털 휴먼에 눈 추가(yolo+VisualGLM 통합): Bilibili 비디오

Fay(Dharma Academy funaar)에 로컬 자유 언어 인식 추가:  Fay(Dharma Academy funaar)에 로컬 자유 언어 인식 추가_哔哩哔哩_bilibili

소비자 등급 PC 대형 모델(ChatGLM-6B 기반의 라사 이전 세션 관리): fay에 rasa 및 chatglm 추가(github 디지털 휴먼 오픈 소스 프로젝트): 실시간, 제어 가능, 메모리 및 대형 모델 생성 기능 고려_哔哩哔哩_bilibili

UE5 프로젝트: https://github.com/xszyou/fay-ue5

라이브 비디오 3D 재구성(NeRF): https://github.com/waityousea/xuniren

페이 디지털 어시스턴트 에디션

참고: 상품이 포함된 버전은 지점 fay-sales-edition 으로 이동되었습니다.

Fay 컨트롤러의 어시스턴트 버전은 음성 통신, 음성 및 문자 응답, 문자 통신, 문자 응답을 사용합니다.

PC 원격 비서  PC 데모

휴대폰 원격 비서  안드로이드 데모

디지털 이미지와 통신 (필요하지 않음, 컨트롤러에서 "패널 재생"을 꺼야 함)

컨트롤러는 WebSocket을 통해 UE와 통신합니다.

프로젝트 다운로드:  Baidu 네트워크 디스크, 추출 코드를 입력하십시오

Windows 런타임 패키지 다운로드:  Baidu Netdisk, 압축 해제 코드를 입력하십시오

프로젝트: https://github.com/xszyou/fay-ue5

중요한:

페이(서버)와 디지털 휴먼 간의 통신 인터페이스:  ws://127.0.0.1:10002(연결됨)

메시지 형식:  WebSocket.md 보기

원격 오디오 입력 및 출력 장치와 연결 (필요하지 않음, 외부 네트워크에서 http://ngrok.cc  tcp 채널의 clientid를 구성해야 함)

컨트롤러는 소켓(websocket 아님)을 통해 오디오 출력 장치와 통신합니다.

인트라넷 통신 주소: ws://127.0.0.1:10001

외부 네트워크 통신 주소 : http://ngrok.cc 를 통해 받으세요 (커뮤니티가 무료로 사용할 수 있도록 서버를 후원할 파트너가 있나요?)

메시지 형식: remote_audio.py  참조 

2. Fay 컨트롤러의 핵심 로직

메모:

위의 각 모듈은 자체 핵심 제품으로 쉽게 교체할 수 있습니다.

디렉토리 구조

.
├── main.py					# 程序主入口
├── fay_booter.py			# 核心启动模块
├── config.json				# 控制器配置文件
├── system.conf				# 系统配置文件
├── ai_module
│   ├── ali_nls.py			# 阿里云 实时语音
│   ├── ms_tts_sdk.py       # 微软 文本转语音
│   ├── nlp_lingju.py       # 灵聚 人机交互-自然语言处理
│   ├── xf_aiui.py          # 讯飞 人机交互-自然语言处理
│   ├── nlp_gpt.py          # gpt api对接
│   ├── nlp_chatgpt.py      # chat.openai.com逆向对接
│   ├── nlp_yuan.py         # 浪潮.源大模型对接
│   ├── nlp_rasa.py         # ChatGLM-6B的基础上前置Rasa会话管理(强烈推荐)
│   ├── nlp_VisualGLM.py    # 对接多模态大语言模型VisualGLM-6B
│   ├── yolov8.py           # yolov8资态识别
│   └── xf_ltp.py           # 讯飞 情感分析
├── bin                     # 可执行文件目录
├── core                    # 数字人核心
│   ├── fay_core.py         # 数字人核心模块
│   ├── recorder.py         # 录音器
│   ├── tts_voice.py        # 语音生源枚举
│   ├── authorize_tb.py     # fay.db认证表管理
│   ├── content_db.py       # fay.db内容表管理
│   ├── interact.py         # 互动(消息)对象
│   ├── song_player.py      # 音乐播放(暂不可用)
│   └── wsa_server.py       # WebSocket 服务端
├── gui                     # 图形界面
│   ├── flask_server.py     # Flask 服务端
│   ├── static
│   ├── templates
│   └── window.py           # 窗口模块
├── scheduler
│   └── thread_manager.py   # 调度管理器
├── utils                   # 工具模块
    ├── config_util.py      
    ├── storer.py
    └── util.py
└── test                    # 都是惊喜

3. 업그레이드 로그

2023.07.12:

  • 어시스턴트 버전의 텍스트 입력 시 상대방의 답장이 읽히지 않는 문제 수정;
  • 어시스턴트 버전의 텍스트 입력이 qa 응답을 읽지 않는 문제를 수정하십시오.
  • 향상된 마이크 액세스 안정성.

2023.07.05:

  • 립알고리즘 실행이 되지 않아 소리가 재생되지 않는 문제를 수정합니다.

2023.06.28:

  • 무료 확장을 위한 NLP 모듈 관리 로직 리팩토링
  • gpt: ChatGPT 및 GPT로 분할하고 새 GPT 인터페이스를 교체하고 프록시 서버를 별도로 구성합니다.
  • yolo 비호환성 문제를 해결하기 위해 yolov8 패키지 버전을 지정하십시오.
  • 수정: 혼잣말 버그, 보류 중인 여러 메시지 버그 수신.

2023.06.21:

  • Lingju NLP api 통합 (GPT3.5 및 여러 애플리케이션 지원)
  • ui 수정.

2023.06.17:

  • 네이티브 립 알고리즘 통합 .

2023.06.14:

  • 다중 채널 마이크 호환성 문제를 해결합니다 .
  • fay_core.pyfay_booter.py 코드를 리팩터링합니다 .
  • UI는 레이아웃 조정에 적응합니다.
  • 사운드 선택 복원;
  • "Thinking..."은 논리 수정을 보여줍니다.

2023.05.27:

  • 여러 버그 수정: 메시지 상자 줄 바꿈 및 공간 문제, 음성 인식 최적화;
  • 부활절 달걀이 긍정적이 되고, Fay 커뮤니케이션과 ChatGPT가 병렬화됩니다 .
  • yolov8 제스처 인식을 추가하십시오.
  • VisualGLM-6B 다중 모달 독립형 오프라인 대형 언어 모델을 추가합니다 .

2023.05.12:

  • Fay 디지털 휴먼 어시스턴트 버전을 기본 분기로 재생합니다( 상품이 있는 버전은 분기 fay-sales-edition 으로 이동됨 ).
  • Fay Assistant의 텍스트 통신 창 추가(텍스트 및 음성 동기화)
  • 통신 기록을 로컬에 저장하는 기능을 추가합니다.
  • ChatGLM-6B의 애플리케이션 로직을 업그레이드하여 긴 텍스트와 음성 회신을 분리합니다.

4. 설치 지침

환경

  • 파이썬 3.9、3.10
  • 윈도우, macos, 리눅스

종속성 설치

pip 설치 -r requirements.txt

애플리케이션 키 구성

  • AI 모듈 보기 
  • 링크를 탐색하고, 애플리케이션을 등록 및 생성하고, 애플리케이션  ./system.conf 키를 입력합니다.

시작하다

페이 컨트롤러 시작

파이썬 메인.py

AI 모듈

시작하기 전에 애플리케이션 키를 입력해야 합니다.

코드 모듈 설명하다 링크
./ai_module/ali_nls.py 실시간 음성인식 (불필요, 3개월 무료, asr 중 택1) 실시간 음성인식_음성전환_실시간회의녹화_인공지능-알리바바 클라우드
./ai_module/funasr.py Dharma Academy 오픈 소스 무료 로컬 ASR(필수 아님, ASR 중 하나 선택) 페이/테스트/funasr/README.MD
./ai_module/ms_tts_sdk.py Microsoft text-to-emotion 음성(필수 아님, 구성되지 않은 경우 free edge-tts 사용) 텍스트 음성 변환 - 실제 AI 음성 생성기 | Microsoft Azure
./ai_module/xf_ltp.py Xunfei 감정 분석 감정 분석 - 자연어 처리 - Xunfei Open Platform
./utils/ngrok_util.py ngrok.cc 외부 네트워크 침투(선택 사항) http://ngrok.cc
./ai_module/nlp_lingju.py Lingju NLP api(GPT3.5 및 여러 응용 프로그램 지원)(NLP 객관식 1) https://open.lingju.ai  gpt3.5 권한을 활성화하려면 고객 서비스에 문의해야 합니다.
./ai_module/yuan_1_0.py Inspur 소스 대형 모델(NLP 객관식 1 ) 출처 1.0-초대형 사전 훈련 모델-인스퍼 정보
./ai_module/chatgpt.py ChatGPT(NLP 객관식 1) *******
./ai_module/nlp_rasa.py ChatGLM-6B 기반, 사전 라사 세션 관리(NLP 객관식 1) fay에 rasa 및 chatglm 추가(github 디지털 휴먼 오픈 소스 프로젝트): 실시간, 제어 가능, 메모리 및 대규모 모델 생성 기능 고려_哔哩哔哩_bilibili
./ai_module/nlp_VisualGLM.py 도킹 VisualGLM-6B 다중 모달 독립형 오프라인 대형 언어 모델(NLP 객관식 1) B 스테이션 비디오

5. 사용 지침

사용 지침

  • 음성 어시스턴트: 페이 컨트롤러(마이크 입력 소스 켜짐, 패널 재생 켜짐);
  • 원격 음성 비서: fay 컨트롤러(패널 재생 꺼짐 ) + 원격 장치 액세스;
  • 디지털 휴먼 인터랙션: 페이 컨트롤러(마이크 입력 소스 켜짐, 패널 재생 꺼짐, 문자 Q&A 작성) + 디지털 휴먼;
  • Jarvis, Her: 함께 끝내자.

음성 명령

가까운 코어 무음 음소거 해제
가까이, 안녕, 가자 뮤트 닥쳐 조용히 하고 싶어 Unmute, 어디야, 이제 얘기해도 돼
노래 재생(음악 라이브러리를 일시적으로 사용할 수 없음) 재생 일시 중지
노래 틀어, 음악 틀어, 노래 불러, 노래 틀어, 음악 들어, 노래할 수 있어 그만해 노래 그만해 듣기 싫어 하나도 남지 않았다...

사람들이 설정

사용자와의 상호 작용에 따라 대응할 수 있는 디지털 인간 속성.

인터랙티브 감도

상호 작용하는 동안 디지털 휴먼은 사용자의 감정을 느끼고 반응할 수 있습니다. 가장 직접적인 표현은 행복/슬픔/화남과 같은 어조의 변화입니다. 사용자의 감정이 디지털 휴먼에 영향을 미치는 정도를 변경하는 민감도를 설정합니다.

수신 소스

텍스트 입력

통신창을 통한 어시스턴트와의 문자 통신

마이크로폰

대면 상호 작용을 실현하고 파트너가 될 마이크 장치를 선택하십시오.

소켓 원격 오디오 입력

원격 오디오 입력, 원격 오디오 출력에 액세스할 수 있습니다.

관련 기사:

1. 소비자 등급 PC 대형 모델 통합 (ChatGLM-6B 기반의 사전 라사 세션 관리): fay에 rasa 및 chatglm 추가(github 디지털 휴먼 오픈 소스 프로젝트): 실시간, 제어 가능, 메모리 및 대형 모델 생성 기능 고려_哔哩哔哩_bilibili

2. (34개 메시지) 매우 포괄적인 디지털 휴먼 솔루션_궈쩌빈의 블로그-CSDN 블로그_디지털 휴먼 알고리즘

3. [오픈소스 프로젝트: Digihuman FAY—— Fay의 새로운 아키텍처 사용 설명  ] 오픈소스 프로젝트: Digihuman FAY——Fay의 새로운 아키텍처 사용 설명_哔哩哔哩_bilibili

4. [오픈소스 프로젝트 FAY - UE 엔지니어링 설명 ] 페이(github 디지털 휴먼 오픈소스 프로젝트): UE 엔지니어링 설명_哔哩哔哩_bilibili

5. M1 머신 설치 방법(Gason 제공) : MacBook Pro m1 버전에 python의 pyqt5를 어떻게 설치하나요? - 거의 안다

6. 빌빌 홈페이지 : xszyou의 개인공간_哔哩哔哩_bilibili

비즈니스 연락처 QQ 467665317, 우리는 다음을 제공합니다: 개발 컨설턴트, 디지털 인간 모델 사용자 지정 및 대학 교육 리소스 구현 서비스 소스를  끝까지 오픈하고 주변에서 추가 수익을 얻습니다 - 페이 디지털 인간 - Yaheng 포럼 - Discuz 제공!

공개 계정(페이 디지털 사람)을 팔로우하여 최신 WeChat 기술 교환 그룹 QR 코드를 받으십시오( 이 창고를 먼저 별표 표시하십시오 ).

추천

출처blog.csdn.net/sinat_37574187/article/details/131896562