机器学习之路:python 字典特征提取器 DictVectorizer

python3 学习使用api

将字典类型数据结构的样本,抽取特征,转化成向量形式

源码git: https://github.com/linyi0604/MachineLearning

代码:

 1 from sklearn.feature_extraction import DictVectorizer
 2 
 3 '''
 4 字典特征提取器:
 5     将字典数据结构抽和向量化
 6     类别类型特征借助原型特征名称采用0 1 二值方式进行向量化
 7     数值类型特征保持不变
 8 '''
 9 
10 # 定义一个字典列表 用来表示多个数据样本
11 measurements = [
12     {"city": "Dubai", "temperature": 33.0},
13     {"city": "London", "temperature": 12.0},
14     {"city": "San Fransisco", "temperature": 18.0},
15 ]
16 
17 # 初始化字典特征抽取器
18 vec = DictVectorizer()
19 data = vec.fit_transform(measurements).toarray()
20 # 查看提取后的特征值
21 print(data)
22 '''
23 [[ 1.  0.  0. 33.]
24  [ 0.  1.  0. 12.]
25  [ 0.  0.  1. 18.]]
26 '''
27 # 查看提取后特征的含义
28 print(vec.get_feature_names())
29 '''
30 ['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']
31 '''

猜你喜欢

转载自www.cnblogs.com/Lin-Yi/p/8973252.html