【大数据应用技术】作业三｜复合数据类型，英文词频统计

本次作业在要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696

1.列表，元组，字典，集合分别如何增删改查及遍历。

列表

增加 & 修改

list = ['Google', 'Bob', 'Tray', 2000];
list1 = [1,2,3,4,5];

#在列表末尾添加
list.append('Cady');
print ( list);

#在列表末尾一次性追加另一个序列中的多个值（用新列表扩展原来的列表）
list.extend(list1);
print ( list);

#将对象插入列表
list.insert(1,'molly');
print ( list);

#修改列表中的第一个元素的值
list[0]='python';
print ( list);

删除

list = ['Google', 'Bob', 'Tray', 2000];

#删除列表中的第二个元素
del list[1];
print ("列表现在为 : ", list)

#移除列表中的一个元素，默认最后一个元素
list.pop()
print ("列表现在为 : ", list)

list.pop(1)
print ("列表现在为 : ", list)

查找

list = ['Google', 'Bob', 'Tray', 2000];

#从列表中找出某个值第一个匹配项的索引位置
x = list.index('Bob');
print(x);

#使用下标索引来访问列表中的值
y = list[0];
print(y);

z = list[1:3];
print(z);

元组

增加 & 修改

注：元组中的元素是不允许修改的，但是我们可以对元组进行连接组合

tup1 = ('Google', 'Bob', 'Tray', 123,'Cady');
tup2 = (1,2,3,4,5,6,7);

#元组在连接
tup3 = tup1 + tup2;
print (tup3);

删除

注：元组中的元素值是不允许删除的，但我们可以使用del语句来删除整个元组

tup1 = (1,2,3,4,5,6,7);

print (tup1);

#删除整个元组tup1
del tup1;

查找

tup1 = ('Google', 'Bob', 'Tray', 123,'Cady');

#元组可以使用下标索引来查找元组中的值
print ("tup1[0]: ", tup1[0]);
print ("tup1[1:5]: ", tup1[1:5]);

字典

增加 & 修改

dict = {'Alice': 95, 'Beth': 81, 'Cecil': 76,'Cady':87,'Bob':79};

# 更新 Age
dict['Beth'] = 65;
print(dict);

# 添加信息
dict['Baby'] = 67;
print(dict);

删除

dict = {'Alice': 95, 'Beth': 81, 'Cecil': 76,'Cady':87,'Bob':79,'Molly':86};

# 删除键 'Alice'
del dict['Alice'];
print(dict);

# 清空字典
dict.clear();
print(dict);

# 删除字典,使用下面语句后整个字典被删除
del dict

查找

dict = {'Alice': 95, 'Beth': 81, 'Cecil': 76,'Cady':87,'Bob':79,'Molly':86};

#通过使用相应的键来查找
print ( dict['Molly']);

集合

增加 & 修改

set = {'Alice', 'Beth', 'Cecil','Cady','Bob','Molly'};

#添加某个元素到集合set中
set.add('Youth');
print(set);

#添加元素到集合set中，添加的参数可以是列表，元组，字典等
set.update({123,456});
print(set);

删除

set = {'Alice', 'Beth', 'Cecil','Cady','Bob','Molly'};
basket = {'orange', 'banana', 'pear', 'apple'};

#1.删除元素，如果元素不存在，则会发生错误
set.remove('Alice');
print(set);

#2.删除元素，如果元素不存在，不会发生错误
set.discard('Beth');
print(set);

#3.随机删除集合中的一个元素
x = basket.pop();
print("删除的元素是：",x);
print(basket);

集合的运算

basket1 = {'strawberry','apple','grape','chestnut','orange','mango'};
basket2 = {'orange', 'banana', 'pear', 'apple'};

x = basket1 - basket2;
print(x);

y = basket1 | basket2;
print(y);

z = basket1 & basket2;
print(z);

2.总结列表，元组，字典，集合的联系与区别。参考以下几个方面：

括号
有序无序
可变不可变
重复不可重复
存储与查找方式

3.词频统计

1.下载一长篇小说，存成utf-8编码的文本文件 file

2.通过文件读取字符串 str

3.对文本进行预处理

4.分解提取单词 list

5.单词计数字典 set , dict

6.按词频排序 list.sort(key=lambda),turple

7.排除语法型词汇，代词、冠词、连词等无语义词
- 自定义停用词表
- 或用stops.txt

8.输出TOP(20)

9.可视化：词云

排序好的单词列表word保存成csv文件

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

线上工具生成词云：
https://wordart.com/create

【大数据应用技术】作业三｜复合数据类型，英文词频统计

猜你喜欢