机器学习这四个东西，你知道吗？

其他 2020-04-02 11:12:47 阅读次数: 0

分类变量特征提取

分类数据的独热编码方法,分类变量特征提取(One-of-K or One-Hot Encoding):
通过二进制数来表示每个解释变量的特征

from sklearn.feature_extraction import DictVectorizer
onhot_encoder = DictVectorizer()
instances=[{'city':'New York'},{'city':'San Francisco'},{'city':'Chapel Hill'}]
print (onhot_encoder.fit_transform(instances).toarray())


[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]

文字特征提取-词库模型

文字模型化最常用方法，可以看成是独热编码的一种扩展，它为每个单词设值一个特征值。依据是用类似单词的文章意思也差不多。可以通过有限的编码信息实现有效的文档分类和检索。

CountVectorizer 类会将文档全部转换成小写，然后将文档词块化(tokenize).文档词块化是把句子分割成词块（token）或有意义的字母序列的过程。词块大多是单词，但是他们也可能是一些短语，如标点符号和词缀。

CountVectorizer类通过正则表达式用空格分割句子，然后抽取长度大于等于2的字母序列。

 from sklearn.feature_extraction.text import CountVectorizer
corpus = [
   'UNC played Duke in basketball',
  'Duke lost the basketball game',
  'I ate a sandwich'
 ]
 vectorizer = CountVectorizer()
 print (vectorizer.fit_transform(corpus).todense())
print (vectorizer.vocabulary_)

猜你喜欢

转载自blog.csdn.net/weixin_44510615/article/details/105200978

机器学习这四个东西，你知道吗？

机器学习这四个东西，你知道吗？

工业设计的四个主要阶段，你都知道吗？优漫动游

这四个问题场景你会排查原因吗？看看高手是如何使用 Arthas 快速定位原因的！

项目需要的这些东西你知道吗

学习笔记：Android这四个你不可不知的知识点，你都了解多少？

【Python学习】* 的用法你知道吗 ~

你知道吗

你知道吗？

扔掉这四个KPI吧

学习JavaScript必须知道的10个难点，你都知道吗？

Python的四大神器，你知道吗？

springboot(四)——@EnableConfigurationProperties是如何起作用的你知道吗

Filecoin的四种收益模式，你知道吗？

2018从这四个方面为你解读，人工智能行业发展

从历史、产品、应用和平台这四个角度带你初步了解GPU

十点读书：如果你不想工作了，就去这四个地方走走

大数据入门，你需要懂这四个常识

电脑开机黑屏怎么办?这四个方法能帮到你

品牌传播不理想？你需要参考这四个要素

程序员如何做到五年买房？这四个问题告诉你

为什么大数据项目总失败？你没问对这四个问题！

了解“预编译、编译、汇编、链接”这四个过程对你有很大帮助

你的密码为什么不安全？原因是这四个

照片无损放大的软件叫什么？这四个软件让你实现无损放大操作

Restful你知道吗？

CAS你知道吗？

Java的21个技术点,你知道吗？

iOS 13的5个小技巧，你知道吗？

5个酷毙的Python工具，你知道吗？？？

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)