【大模型AIGC系列课程 2-1】文本向量化

物联网 2023-08-25 18:07:10 阅读次数: 0

1. 概述

词汇表征是指我们在自然语言处理（NLP）中如何描述和处理词语的方法。在进行NLP监督机器学习任务时，我们以一句话为例：“I want a glass of orange ____”，我们要通过这句话中的其他单词来预测空白处的单词。这是一个典型的NLP问题。如果将其看作监督机器学习，我们的输入是上下文单词，而输出是要预测的目标单词，或者说目标单词的概率。为了解决这个问题，我们需要建立一个语言模型来学习输入和输出之间的映射关系。在深度学习中，这个模型通常是循环神经网络。
在NLP中，最基本的单位是词语。词语可以组成句子，句子再构成段落、篇章和文档。但是计算机并不直接理解这些词语，因此我们需要将代表自然语言的词汇转换为计算机可识别的数值形式。简单来说，我们需要将词汇转化为计算机能够处理的数值表示。目前有两种主要的方法来进行这种转化和表征。第一种是传统机器学习中的one-hot编码方式，即将每个词语表示为一个向量，其中只有一个元素是1，其余都是0，代表词语的唯一位置。然而，这种方法存在词语之间无法捕捉语义关系的问题。第二种方法是基于神经网络的词嵌入技术，它能够将词语映射到连续的向量空间中，使得词语的语义和语法信息能够得到更好的表达和理解。词嵌入技术在NLP中广泛应用，并取得了很多成功。

2. 词向量-离散表示

文本向量化离散表示是一种把文本转换成数字向量的方法。它主要基于规则和统计的方式，常见的方法有两种：词集模型和词袋模型。

词集模型：这个模型会统计每个单词是否在句子中出现。比如，我们可以用One-Hot Representation来表示，只要单个文本中的单词在一个字典里出现，就用1表示，不管

猜你喜欢

转载自blog.csdn.net/u011239443/article/details/132452183

【大模型AIGC系列课程 2-1】文本向量化

【大模型AIGC系列课程 3-1】Meta开源大模型：羊驼系列

【大模型AIGC系列课程 3-2】国产开源大模型：ChatGLM

【大模型AIGC系列课程 1-2】创建并部署自己的ChatGPT机器人

【大模型AIGC系列课程 2-2】大语言模型的“第二大脑”

【大模型AIGC系列课程 1-1】ChatGPT与OpenAI API的应用

【大模型AIGC系列课程 3-6】ChatGLM2-6B的应用

【大模型AIGC系列课程 2-3】动手为ChatGPT打造第二大脑——文本向量的应用

《大模型AIGC系列课程》大纲

文本向量化及词袋模型 - NLP学习（3-1）

【大模型AIGC系列课程 3-3】低成本的领域&私域大模型训练方法

文本向量化 - 词袋模型， N-gram 特征

第2-1章 ARM编程模型

AIGC大模型ChatGLM2-6B：国产版chatgpt本地部署及体验

1-1 python数据采集-课程介绍 2-1 python开发环境搭建

自然语言处理中的词袋模型与文本向量化

【AIGC】阿里达摩院：文本生成视频大模型-通用领域 (Text-to-video-synthesis Model in Open Domain)

python基于预训练大模型权重实现文本向量化开发构建微博评论数据情感极向识别模型

Spring课程 Spring入门篇 2-1 IOC和bean容器

1. 文本相似度计算-文本向量化

GPT实战系列-Baichuan2等大模型的计算精度与量化

【AIGC】ChatGLM2-6B大模型据称推理性能超越Chat4.0

文本向量化

Mahout文本向量化

【前端老赵的CSS简明教程】2-1 CSS盒模型的概念和作用

吴恩达机器学习（三）逻辑回归 2/2 —— 模型向量化

国产AIGC大模型汇总

GPT实战系列-探究GPT等大模型的文本生成

文本向量化---从向量到向量（tfidf）

文本向量化------从文本到向量

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)