大模型基础04:OpenAI 大模型开发基础

OpenAI 大模型开发基础

基础概念

GPTs: OpenAI的 GPT (generative pre-trained transformer) 系列大模型,被训练用于理解和生成自然语言和代码,根据文本输入响应文本输出。GPT 的输入也被称为 “Prompts”。设计提示词的过程,本质上是在对模型进行编程,通常通过提供一些完成任务的说明或示例来实现。GPT 可以用于各种各样的任务,包括内容或代码生成、摘要、对话、创意写作等等。

Embeddings: 嵌入是一段数据(例如一些文本)的矢量表示,旨在保留其内容和/或其含义的各个方面。在某些方面相似的数据块往往比不相关的数据具有更紧密的嵌入。OpenAI 提供文本嵌入模型,将文本字符串作为输入,并产生嵌入向量作为输出。嵌入在搜索、聚类、推荐、异常检测、分类等方面都很有用。

Tokens: GPT 系列模型按 Tokens 处理文本,Tokens 表示常见的字符序列。例如,字符串 “tokenization” 被分解为 “token” 和 “ization”,而像 “the” 这样的短而常见的单词则被表示为单个token。注意在句子中每个单词的第一个标记通常以空格字符开头。可以通过工具查看它们是如何被转换成 Tokens 的。作为一个粗略的经验法则,对于英语文本,1个 token 大约是4个字符或0.75个单词。需要记住的一个限制是,对于 GPT 模型,提示符和生成的输出的组合必须不超过模型的最大上下文长度。对于嵌入模型(不输出token),输入必须短于模型的最大上下文长度。

OpenAI 大模型概览

OpenAI API由一组不同的模型

猜你喜欢

转载自blog.csdn.net/LifeRiver/article/details/132514987
今日推荐