【AI新趋势期刊#1】GPT自动理解视频、法律顾问、大模型安全围栏

每天都要浏览大量AI相关新闻,是不是感到信息量爆炸,有效信息少,无从看起?

这么多新产品和新工具,到底哪些是真正是有价值的,哪些只是浮躁的热点?

想参与AI产品和工具的开发,但苦于没有灵感,从哪里能够获得大量的灵感和思路?

我会把自己浏览和使用过的AI相关新闻、产品、工具、模型等,整理在这里,帮助大家去除信息噪音,简化阅读,更高效的了解AI前沿发展。主要围绕:

  • AI终端产品
  • AI开发者工具
  • AI相关新模型
  • AI大厂方向
  • AI业界趋势

作为本期刊的第一期,我们主要围绕2023年4月发布的相关产品和技术工具。

终端产品

AI中国法律助手

https://github.com/lvwzhen/law-cn-ai

该项目把 中国法律文书 作为知识库,将知识库embedding后存入向量数据库,然后向用户提供了完整界面,用户可以用自然语言提问,后台使用openAI的API,结合知识库的现有知识进行自然语言的回答。

主要技术:

  • 预处理知识库
  • 在PostgreSQL中使用 pgvector 存储嵌入向量。
  • 执行向量相似性搜索,查找与问题相关的内容。
  • 将内容注入到OpenAI GPT-3文本自动补全中,并将响应流式传输到客户端。

HuggingChat

https://huggingface.co/chat/

Hugging Face发布了一个ChatGPT开源替代品名为HuggingChat。Hugging Face大家都懂的,可以理解成AI界的Github,很多注明的开源模型都在上面首发。

底层模型目前有两种选择:

金融/投资 GPT助手

https://finchat.io/

FinChat.io是由ChatGPT提供技术支持的工具。它利用人工智能生成关于公共公司和投资者的问题的答案。为了提供准确的答案,FinChat会提供推理、来源和数据等支持。实测效果有点酷炫。

微软AI设计器

https://designer.microsoft.com/

输入文字,通过AI生成一个合适的设计图,且支持动态图。例如下面的文字描述"为我的油管频道‘Science for Littles’设计一个动态的广告"生成了右方的一些设计图,生成速度非常快,还可调节图片尺寸。

选择了右方较为满意的设计后,可以继续在在线编辑器中修改你的设计,支持自由导出各种格式与下载。

AI Shell

https://github.com/builderio/ai-shell

将chatGPT整合到你的shell中,用ai命令进行操作

VLog

https://github.com/showlab/VLog

V是大写,他可以将一段长视频转换成包含视觉和音频信息的文档。通过将此文档发送到ChatGPT,我们可以针对这个视频的内容进行自然语言聊天!当然,需要消耗你自己的openAI API额度。

开发者工具

音频能力工具集:AudioGPT

https://huggingface.co/spaces/AIGC-Audio/AudioGPT

这个工具集里包含了大量音频相关的处理能力工具,大部分工具使用时需要填写你自己的GPT API key,消耗你的额度,我试了一下,文字转语音,一句5个词的句子,消耗了我4000个token!(暴风哭泣!)

演讲:

  • 文字转语音
  • 风格迁移
  • 语音识别
  • 语音增强
  • 语音分离
  • 语音翻译
  • 单声道到双声道
  • 文字转唱

唱歌:

  • 文字转唱歌

音频处理:

  • 文本到音频
  • 音频修复
  • 图像到音频
  • 声音检测
  • 目标声音检测
  • 声音提取

大模型安全围栏:NeMo-Guardrails

https://github.com/NVIDIA/NeMo-Guardrails

NeMo Guardrails 是一个开源工具包,可以轻松地将可编程护栏添加到基于 LLM 的对话系统中。Guardrails(或简称“rails”)是控制大型语言模型输出的特定方式,例如不谈论政治、以特定方式响应特定用户请求、遵循预定义的对话路径、使用特定语言风格、提取结构化数据等。

主要优势:

  • 构建值得信赖、安全可靠的 LLM 对话系统:使用 NeMo Guardrails 的核心价值是能够编写 rails 来指导对话。开发人员可以选择定义他们的 LLM 驱动的机器人在某些主题上的行为,并让他们的创造力不受其他人的影响!
  • 通过操作连接模型、链、服务等: LLM 不需要解决所有挑战。NeMo Guardrails 提供了将您的代码库或服务无缝安全地连接到聊天机器人的能力!

chatGLM结合本地知识库:langchain-chatGLM

https://github.com/imClumsyPanda/langchain-ChatGLM

一种利用 ChatGLM-6B + langchain 实现的基于本地知识的 ChatGLM 应用。支持将txt、markdown等格式的文本文件上传后,进行提问。会给出自然语言的回答,并且在最后会标注出引用本地文本的出处。

本项目实现原理如下图所示,过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到prompt中 -> 提交给LLM生成回答。

支持的LLM模型:

  • THUDM/chatglm-6b
  • THUDM/chatglm-6b-int8
  • THUDM/chatglm-6b-int4
  • THUDM/chatglm-6b-int4-qe
  • ClueAI/ChatYuan-large-v2

支持的Embedding 模型:

  • nghuyong/ernie-3.0-nano-zh
  • nghuyong/ernie-3.0-base-zh
  • shibing624/text2vec-base-chinese
  • GanymedeNil/text2vec-large-chinese

在任意消费级终端部署大模型:MLC LLM

https://mlc.ai/mlc-llm/

MLC LLM是一种通用解决方案,可以使任何语言模型在各种硬件后端和本地应用程序上本地化部署,同时为所有人提供一个高效的框架,以进一步优化模型性能,以适应其自身用例。

我们的使命是使每个人都能够在其设备上本地开发、优化和部署AI模型。

这个方向的探索如果出现突破,将大大减少模型部署和使用的门槛,让全世界的低算力设备也能加入AI算力阵营。

仿openAI风格API调用chatGLM:chatglm-openai-api

https://github.com/ninehills/chatglm-openai-api

让开发者能够用调用openAI API的方式调用其他开源模型,节省大量开发工作。

参考

Github Trending

https://github.com/trending

Meta360创新学院-AGI前夜

https://docs.meta360.vip

猜你喜欢

转载自blog.csdn.net/qqxx6661/article/details/131543114
今日推荐