【机器学习课程-华盛顿大学】：1 案例研究 1.4 聚类（2）wikipedia文章聚类 - 代码天地

【机器学习课程-华盛顿大学】：1 案例研究 1.4 聚类（2）wikipedia文章聚类

其他 2018-06-30 04:34:58 阅读次数: 2

1、导入库和数据

import graphlab
graphlab.set_runtime_config('GRAPHLAB_DEFAULT_NUM_PYLAMBDA_WORKERS', 4)

people = graphlab.SFrame('people_wiki.gl/')
people.head()

2、word_count

obama文章

obama = people[people['name'] == 'Barack Obama']
clooney = people[people['name'] == 'George Clooney']

obama word_count

obama['word_count'] = graphlab.text_analytics.count_words(obama['text'])

obama_word_count_table = obama[['word_count']].stack('word_count', new_column_name = ['word','count'])
obama_word_count_table.head()
obama_word_count_table.sort('count',ascending=False)

3、TF-IDF

people['word_count'] = graphlab.text_analytics.count_words(people['text'])
people.head()
tfidf = graphlab.text_analytics.tf_idf(people['word_count'])

# Earlier versions of GraphLab Create returned an SFrame rather than a single SArray
# This notebook was created using Graphlab Create version 1.7.1
if graphlab.version <= '1.6.1':
    tfidf = tfidf['docs']

tfidf
people['tfidf'] = tfidf

4、word_count和tf_idf拆分

obama = people[people['name'] == 'Barack Obama']
obama[['tfidf']].stack('tfidf',new_column_name=['word','tfidf']).sort('tfidf',ascending=False)

5、cosine distance

clinton = people[people['name'] == 'Bill Clinton']
beckham = people[people['name'] == 'David Beckham']
graphlab.distances.cosine(obama['tfidf'][0],clinton['tfidf'][0])
graphlab.distances.cosine(obama['tfidf'][0],beckham['tfidf'][0])

6、建立模型

knn_model = graphlab.nearest_neighbors.create(people,features=['tfidf'],label='name')
knn_model.query(obama)

猜你喜欢

转载自blog.csdn.net/weixin_41770169/article/details/80812781

【机器学习课程-华盛顿大学】：1 案例研究 1.4 聚类（2）wikipedia文章聚类

【机器学习课程-华盛顿大学】：1 案例研究 1.4 聚类（1）概念描述

【机器学习课程-华盛顿大学】：1 案例研究 1.3 分类（2）亚马逊产品评价分类

【机器学习课程-华盛顿大学】：1 案例研究 1.2 回归（2）房价预测实战

【机器学习课程-华盛顿大学】：1 案例研究 1.5 推荐系统（2）音乐推荐系统

【机器学习课程-华盛顿大学】：1 案例研究 1.6 深度学习（2）深度学习特征作为输入训练逻辑回归分类

【机器学习课程-华盛顿大学】：1 案例研究 1.1 课程简介

【机器学习课程-华盛顿大学】：1 案例研究 1.6 深度学习（1）概念描述

【机器学习课程-华盛顿大学】：1 案例研究 1.3 分类（1）概念描述

【机器学习课程-华盛顿大学】：1 案例研究 1.2 回归（1）房价预测描述

【机器学习课程-华盛顿大学】：1 案例研究 1.5 推荐系统（1）概念描述

【机器学习课程-华盛顿大学】：4 聚类和检索 4.2 实战：wiki文章特征选择和相似文章搜索

对比学习与聚类的研究

【机器学习课程-华盛顿大学】：4 聚类和检索 4.6 总结与展望

【机器学习课程-华盛顿大学】：4 聚类和检索 4.5 LDA

【机器学习课程-华盛顿大学】：4 聚类和检索 4.3 k-means

【机器学习课程-华盛顿大学】：4 聚类和检索 4.2 编程测试：LSH代码实现

【机器学习课程-华盛顿大学】：4 聚类和检索 4.2 LSH局部敏感哈希

【机器学习课程-华盛顿大学】：4 聚类和检索 4.3 k-means代码实现

【机器学习课程-华盛顿大学】：4 聚类和检索 4.5 LDA测试

【机器学习课程-华盛顿大学】：4 聚类和检索 4.1 综述

【机器学习课程-华盛顿大学】：4 聚类和检索 4.4 MoG混合高斯模型编程测试（2）

【机器学习课程-华盛顿大学】：2 回归 2.3 性能评估（1）

【机器学习课程-华盛顿大学】：4 聚类和检索 4.4 MoG混合高斯模型编程测试

【机器学习课程-华盛顿大学】：4 聚类和检索 4.2 nn、knn、kd-tree和检索

【机器学习课程-华盛顿大学】：2 回归 2.6 总结

【机器学习课程-华盛顿大学】：2 回归 2.5 Lasso Regression

100天搞定机器学习|day54 聚类系列：层次聚类原理及案例

机器学习（聚类九）——密度聚类(DBSCAN)算法案例

机器学习入门研究（十八）—聚类的模型评估

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)