面向机器学习的特征工程三、文本数据: 展开、过滤和分块 - 代码天地

面向机器学习的特征工程三、文本数据: 展开、过滤和分块

其他 2018-06-29 12:22:14 阅读次数: 2

来源：ApacheCN《面向机器学习的特征工程》翻译项目

译者：@kkejili

校对：@HeYun

如果让你来设计一个算法来分析以下段落，你会怎么做？

Emma knocked on the door. No answer. She knocked again and waited. There was a large maple tree next to the house. Emma looked up the tree and saw a giant raven perched at the treetop. Under the afternoon sun, the raven gleamed magnificently. Its beak was hard and pointed, its claws sharp and strong. It looked regal and imposing. It reigned the tree it stood on. The raven was looking straight at Emma with its beady black eyes. Emma felt slightly intimidated. She took a step back from the door and tentatively said, “hello?”

该段包含很多信息。我们知道它谈到了到一个名叫Emma的人和一只乌鸦。这里有一座房子和一棵树，艾玛正想进屋，却看到了乌鸦。这只华丽的乌鸦注意到艾玛，她有点害怕，但正在尝试交流。

那么，这些信息的哪些部分是我们应该提取的显着特征？首先，提取主要角色艾玛和乌鸦的名字似乎是个好主意。接下来，注意房子，门和树的布置可能也很好。关于乌鸦的描述呢？Emma的行为呢，敲门，退后一步，打招呼呢？

本章介绍文本特征工程的基础知识。我们从词袋（bags of words）开始，这是基于字数统计的最简单的文本功能。一个非常相关的变换是 tf-idf，它本质上是一种特征缩放技术。它将被我在（下一篇）章节进行全面讨论。本章首先讨论文本特征提取，然后讨论如何过滤和清洗这些特征。

阅读全文

猜你喜欢

转载自blog.csdn.net/wizardforcel/article/details/80759144

面向机器学习的特征工程三、文本数据: 展开、过滤和分块

机器学习：数据准备和特征工程

机器学习总结——数据预处理和特征工程

机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

面向机器学习的特征工程七、非线性特征提取和模型堆叠

机器学习数据特征分析------特征工程

机器学习数据特征分析特征工程

机器学习小组第三周：简单的数据预处理和特征工程

机器学习——特征工程和文本特征工程提取

[KO机器学习] Day5 特征工程：文本表示模型和Word2Vec

面向机器学习的特征工程六、降维：用 PCA 压缩数据集

机器学习实战基础（八）：sklearn中的数据预处理和特征工程（一）简介

【李沐机器学习】三、特征工程

【机器学习】特征工程 - 文本特征提取CountVectorizer

【机器学习】特征工程 - 文本特征提取TfidfVectorizer

机器学习----数据准备&特征工程（2）

机器学习----数据准备&特征工程（1）

【机器学习】数据预处理与特征工程

机器学习数据表达与特征工程

机器学习-文本数据抽取(词袋法和IF-IDF)

机器学习入门（三）：特征工程——特征预处理

面向机器学习的特征工程

机器学习_特征工程文本处理、数据特征的预处理

机器学习（机器学习介绍、特征工程和文本特征提取）

机器学习中的特征工程和数据预处理技术是什么？如何处理缺失值和异常值？

机器学习——数据清洗和特征选择

机器学习实战基础（十）：sklearn中的数据预处理和特征工程（三）数据预处理 Preprocessing & Impute 之缺失值

机器学习- 特征工程概述与意义&基本数据处理原理

机器学习实践（三）—sklearn之特征工程

用深度学习做命名实体识别(三)：文本数据标注过程

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

ORACLE 跟踪文件详细解释

20190924-LeetCode解数独题目分享

分治法实例-找下标，下标与对应值相等

安全测试学习笔记

JavaScript笔记：原型和原型链

在Linux中检查可用内存的5种方法

BUAA_OO_JML

mongodb创建用户、备份、恢复等

生活20190602

使用MoveIt!配置软件包在RViz中进行机器人运动规划

每日归档

更多

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)