フェイ デジタル ヒューマン アシスタント
Fay Digital Assistant Edition は、 fay オープンソース プロジェクトの重要な部門であり、インテリジェント デジタル アシスタント用のオープンソース ソリューションの構築に重点を置いています。柔軟なモジュール設計を提供し、開発者が感情分析、NLP 処理、音声合成、音声出力などのさまざまな機能モジュールをカスタマイズして組み合わせることができます。Fay Digital Assistant Edition は、インテリジェントでパーソナライズされた多機能デジタル アシスタント アプリケーションを構築するための強力なツールとリソースを開発者に提供します。このバージョンを使用すると、開発者はさまざまなシナリオや分野に適したデジタル アシスタントを簡単に作成でき、ユーザーにインテリジェントな音声対話とパーソナライズされたサービスを提供できます。
おすすめの遊び方
Lingju NLP API (GPT3.5 および複数のアプリケーションをサポート): Fay Digital Human は Lingju NLP API (GPT3.5 および複数のアプリケーションをサポート) を統合_哔哩哔哩_bilibili
ローカル リップ アルゴリズムの統合: fay デジタル ヒューマン アシスタントがローカル リップ アルゴリズム リリースを更新 (新しい UE5 エンジニアリング サンプルを含む)_哔哩哔哩_bilibili
デジタル ヒューマンに目を追加 (yolo+VisualGLM を統合): Bilibili ビデオ
ローカルの自由音声認識を Fay (Dharma Academy funaar) に追加: ローカルの自由音声認識を Fay (Dharma Academy funaar) に追加します_哔哩哔哩_bilibili
消費者グレードの PC 大型モデル (ChatGLM-6B に基づく Rasa 以前のセッション管理): fay (github デジタル ヒューマン オープン ソース プロジェクト) に rasa と chatglm を追加: リアルタイム、制御可能、メモリおよび大規模モデル生成機能を考慮_哔哩哔哩_bilibili
UE5 プロジェクト: https://github.com/xszyou/fay-ue5
ライブビデオ 3D 再構築 (NeRF): https://github.com/waityousea/xuniren
Fay デジタル アシスタント エディション
注: 商品が含まれるバージョンは、fay-sales-editionブランチに移動されます。
Fay コントローラのアシスタント バージョンは、音声通信、音声およびテキスト応答、テキスト通信、テキスト応答を使用します。
PCリモートアシスタント PCデモ
携帯電話リモートアシスタント アンドロイドデモ
デジタル画像と通信します(必須ではありません。コントローラーは「パネル再生」をオフにする必要があります)
コントローラーは WebSocket を介して UE と通信します
プロジェクトをダウンロード: Baidu ネットワーク ディスク、抽出コードを入力してください
Windows ランタイム パッケージをダウンロードします: Baidu Netdisk、抽出コードを入力してください
プロジェクト: https://github.com/xszyou/fay-ue5
重要:
フェイ(サーバー)とデジタルヒューマン間の通信インターフェース:( ws://127.0.0.1:10002
接続済み)
メッセージ形式: WebSocket.mdを表示
リモートのオーディオ入出力デバイスに接続します(必須ではありません。外部ネットワークはhttp://ngrok.cc TCP チャネルのクライアント ID を構成する必要があります)。
コントローラーはソケット (WebSocket ではなく) を介してオーディオ出力デバイスと通信します。
イントラネット通信アドレス: ws://127.0.0.1:10001
外部ネットワーク通信アドレス: http://ngrok.cc から取得します (コミュニティが無料で使用できるサーバーをスポンサーしてくれるパートナーはいますか?)
メッセージフォーマット: remote_audio.py を参照
2. Fay コントローラーのコアロジック
ノート:
上記の各モジュールは、独自のコア製品と簡単に置き換えることができます。
ディレクトリ構造
.
├── main.py # 程序主入口
├── fay_booter.py # 核心启动模块
├── config.json # 控制器配置文件
├── system.conf # 系统配置文件
├── ai_module
│ ├── ali_nls.py # 阿里云 实时语音
│ ├── ms_tts_sdk.py # 微软 文本转语音
│ ├── nlp_lingju.py # 灵聚 人机交互-自然语言处理
│ ├── xf_aiui.py # 讯飞 人机交互-自然语言处理
│ ├── nlp_gpt.py # gpt api对接
│ ├── nlp_chatgpt.py # chat.openai.com逆向对接
│ ├── nlp_yuan.py # 浪潮.源大模型对接
│ ├── nlp_rasa.py # ChatGLM-6B的基础上前置Rasa会话管理(强烈推荐)
│ ├── nlp_VisualGLM.py # 对接多模态大语言模型VisualGLM-6B
│ ├── yolov8.py # yolov8资态识别
│ └── xf_ltp.py # 讯飞 情感分析
├── bin # 可执行文件目录
├── core # 数字人核心
│ ├── fay_core.py # 数字人核心模块
│ ├── recorder.py # 录音器
│ ├── tts_voice.py # 语音生源枚举
│ ├── authorize_tb.py # fay.db认证表管理
│ ├── content_db.py # fay.db内容表管理
│ ├── interact.py # 互动(消息)对象
│ ├── song_player.py # 音乐播放(暂不可用)
│ └── wsa_server.py # WebSocket 服务端
├── gui # 图形界面
│ ├── flask_server.py # Flask 服务端
│ ├── static
│ ├── templates
│ └── window.py # 窗口模块
├── scheduler
│ └── thread_manager.py # 调度管理器
├── utils # 工具模块
├── config_util.py
├── storer.py
└── util.py
└── test # 都是惊喜
3. アップグレードログ
2023.07.12:
- アシスタント版のテキスト入力で相手の返信が読み上げられない問題を修正。
- アシスタント版のテキスト入力でQA回答が読み込まれない問題を修正しました。
- マイクアクセスの安定性が向上しました。
2023.07.05:
- リップアルゴリズムを実行できないためにサウンドが再生されない問題を修正します。
2023.06.28:
- 自由な拡張のための NLP モジュール管理ロジックのリファクタリング。
- gpt: ChatGPT と GPT に分割し、新しい GPT インターフェイスを置き換えて、プロキシ サーバーを個別に構成します。
- yolo の非互換性の問題を解決するには、yolov8 パッケージのバージョンを指定します。
- 修正: セルフトークのバグ、複数の保留中のメッセージを受信するバグ。
2023.06.21:
- Lingju NLP APIを統合(GPT3.5および複数のアプリケーションをサポート)。
- ui修正。
2023.06.17:
- ネイティブリップアルゴリズムを統合します。
2023.06.14:
- マルチチャンネルマイクの互換性の問題を解決します。
- fay_core.pyおよびfay_booter.pyコードをリファクタリングします。
- ui はレイアウト調整に適応します。
- サウンドの選択を復元します。
- 「考え中...」はロジックの修正を示します。
2023.05.27:
- 複数のバグを修正しました: メッセージ ボックスの改行とスペースの問題、音声認識の最適化。
- イースターエッグがポジティブになり、Fay コミュニケーションとChatGPT が並行して行われます。
- yolov8 ジェスチャ認識を追加します。
- VisualGLM-6B マルチモーダル スタンドアロンオフライン大規模言語モデルを追加します。
2023.05.12:
- Fay デジタル ヒューマン アシスタント バージョンをメイン ブランチとしてプレイします (商品を含むバージョンはブランチfay-sales-editionに移動します)。
- Fay Assistant のテキスト通信ウィンドウ (テキストと音声の同期) を追加します。
- 通信記録をローカルに保存する機能を追加;
- ChatGLM-6Bのアプリケーションロジックをアップグレードし、長文と音声応答を分離しました。
4. インストール手順
環境
- Python 3.9、3.10
- Windows、macos、linux
依存関係をインストールする
pip install -r 要件.txt
アプリケーションキーを構成する
- AI モジュールを表示する
- リンクを参照し、アプリケーションを登録して作成し、アプリケーション
./system.conf
キーを入力します。
起動
フェイコントローラーを起動する
Python main.py
AIモジュール
開始する前にアプリケーションキーを入力する必要があります
コードモジュール | 説明 | リンク |
---|---|---|
./ai_module/ali_nls.py | リアルタイム音声認識 (不要、3 か月間無料、ASR のいずれかを選択) | リアルタイム音声認識_音声合成_リアルタイム会議録音_人工知能-Alibaba Cloud |
./ai_module/funasr.py | Dharma Academy オープンソースの無料ローカル ASR (必須ではありません、いずれかの ASR を選択してください) | fay/test/funasr/README.MD |
./ai_module/ms_tts_sdk.py | Microsoft テキストから感情への音声変換 (必須ではありません。設定されていない場合は無料の Edge-tts を使用してください) | テキスト読み上げ – 本物の AI 音声ジェネレーター | Microsoft Azure |
./ai_module/xf_ltp.py | 荀飛の感情分析 | 感情分析 - 自然言語処理 - Xunfei オープン プラットフォーム |
./utils/ngrok_util.py | ngrok.cc 外部ネットワーク侵入 (オプション) | http://ngrok.cc |
./ai_module/nlp_lingju.py | Lingju NLP API (GPT3.5 および複数のアプリケーションをサポート) (NLP 多肢選択 1) | https://open.lingju.ai は、 gpt3.5 権限を有効にするためにカスタマー サービスに連絡する必要があります |
./ai_module/yuan_1_0.py | Inspur ソース大規模モデル (NLP 多肢選択 1 ) | ソース 1.0 - 超大規模事前学習モデル - Inspur 情報 |
./ai_module/chatgpt.py | ChatGPT (NLP 多肢選択 1) | ******* |
./ai_module/nlp_rasa.py | ChatGLM-6B に基づく、Rasa 前のセッション管理 (NLP 多肢選択 1) | rasa と chatglm を fay (github デジタル ヒューマン オープン ソース プロジェクト) に追加: リアルタイム、制御可能、メモリ、大規模モデル生成機能を考慮_哔哩哔哩_bilibili |
./ai_module/nlp_VisualGLM.py | ドッキング VisualGLM-6B マルチモーダル スタンドアロン オフライン大規模言語モデル (NLP 多肢選択 1) | B局ビデオ |
5. 使用上の注意
使用説明書
- 音声アシスタント: フェイコントローラー (マイク入力ソースがオン、パネル再生がオン)。
- リモート音声アシスタント: フェイコントローラー (パネル再生オフ) + リモートデバイスアクセス。
- デジタル ヒューマン インタラクション: フェイ コントローラー (マイク入力ソースがオン、パネル再生がオフ、キャラクター Q&A が入力) + デジタル ヒューマン。
- ジャービス、彼女: 一緒に終わらせましょう。
音声コマンド
クローズコア | 無音 | ミュートを解除する |
---|---|---|
近い、さようなら、行きましょう | ミュート、黙って、静かになりたい | ミュートを解除して、どこにいるの、今すぐ話せます |
曲を再生する(音楽ライブラリは一時的に利用できなくなります) | 再生を一時停止する | もっと |
---|---|---|
曲をかけて、音楽をかけて、歌を歌って、曲をかけて、音楽を聴いて、歌えますか | 一時停止して、歌うのをやめて、聞きたくない | 何も残っていない... |
人物セット
ユーザーとの対話に応じて対応できるデジタル人間の属性。
インタラクティブな感度
インタラクション中に、デジタル ヒューマンはユーザーの感情を感じて反応することができます。最も直接的に現れるのは、嬉しい/悲しい/怒っているなどの口調の変化です。ユーザーの感情がデジタルヒューマンに影響を与える度合いを変更する感度を設定します。
受信元
テキスト入力
コミュニケーションウィンドウを介したアシスタントとのテキストコミュニケーション
マイクロフォン
マイクデバイスを選択して対面での対話を実現し、あなたのパートナーになれます
ソケットリモートオーディオ入力
リモートオーディオ入力、リモートオーディオ出力にアクセス可能
関連記事:
1.消費者グレードの PC 大規模モデル(ChatGLM-6B に基づく Rasa 以前のセッション管理) の統合: fay (github デジタル ヒューマン オープン ソース プロジェクト) に rasa と chatglm を追加: リアルタイム、制御可能、メモリおよび大規模モデル生成機能を考慮_哔哩哔哩_bilibili
2. (メッセージ 34 件) 非常に包括的なデジタル ヒューマン ソリューション_郭沢斌のブログ-CSDN ブログ_デジタル ヒューマン アルゴリズム
3. [オープンソース プロジェクト: Digihuman FAY—— Fay の新しいアーキテクチャの使用についての説明 ]オープンソース プロジェクト: Digihuman FAY—— Fay の新しいアーキテクチャの使用についての説明_哔哩哔哩_bilibili
4. [オープンソース プロジェクト FAY - UE エンジニアリングの説明] Fay (github デジタル ヒューマン オープンソース プロジェクト): UE エンジニアリングの説明_哔哩哔哩_bilibili
5. M1 マシンのインストール方法 (Gason 提供): Python の pyqt5 を MacBook Pro m1 バージョンにインストールするにはどうすればよいですか? - ほぼ知っています
6. Bilbil ホームページ: xszyou の個人空間_哔哩哔哩_bilibili
ビジネス連絡先 QQ 467665317、当社は以下を提供します: 開発コンサルタント、デジタル ヒューマン モデルのカスタマイズ、大学教育リソースの実装サービス 最後までオープン ソース、周りで余分なお金を稼ぐ - fay デジタル ヒューマン - Yaheng フォーラム - Powered by Discuz!
パブリック アカウント (フェイ デジタル担当者) をフォローして、最新の WeChat テクノロジー交換グループ QR コードを取得してください (最初にこのウェアハウスにスターを付けてください)