前言

首先附录一下一周任务青2系列中值得关注的一些小点。总体来说，我觉得课程总体设计通过青2 这个任务情景将各种任务串起来，有项目的初步框架。
Day2 《青春有你2》Python 爬虫和人像动漫体验
 Day4 《青春有你2》分类任务坑总
 Day5《青春有你2》评论数据爬取与词云分析

心得

第一天的任务是利用python的基本知识完成一些编程题。青2 系列任务从第二天开始。首先是数据获取部分（是通过python爬虫实现），其次是数据分析（很多人可能会忽略这一步，我觉得吧不管是用机器学习算法还是深度学习模型，首先还是需要观察数据分布情况，根据数据分布，可以有哪些选择。比如之前我在检测样品里的生长的微结构，数量很多，大部分的小样品矩形区域比较小。当时考虑目标检测的两种模型SSD,Faster RCNN。区别一个是一阶段直接检测，一个两阶段过程。预测效果和训练的loss来看，SSD表现并不是那么好，loss一直没法收敛到一个比较小的值，尽管检测速度肯定比两阶段检测算法来的快。）第四天就是自制图片数据集，对其进行分类。第五天，爬取爱奇艺青2 的一段视频评论，作数据清洗方面的工作后，可视化展示和词云绘制。

在爬虫这块，之前学习也是直接跳过没学的。真的一开始觉得有点懵吧，课上讲的beautiful Soup 来处理，我觉得课程讲的比较简单。课后还是花一些心思去查各种文档，然后在pycharm上不停的调试来学习（我觉得调试这个功能真的非常强大。AI Studio 上的notebook 和 jupyter 我不是很喜欢的主要一个原因在于出错是输出不断上调的日志信息，有些错误呢我觉得光看这个是很难发现的，而且也并不是所有的信息都能print 出来，而且还很麻烦。）。群里也有非常多的小伙伴懂这块，所以爬虫方面非常感谢他们的帮助。

在数据分析这块，作业是可视化体重分布。本身任务不是很难。就是我觉得想不同的方法去实现这是个有趣的过程。
从第二天我们获取的是一个json的文档格式保存了每位star 小姐姐的个人信息(文档里面保存的内容基本格式见下面)：

{'小姐姐名字'：{'信息1'：'',
				'信息2'：'',
				'信息3':'',
				...,
				'weight':'45kg',
				...},
...
'小姐姐名字'：{'信息1'：'',
				'信息2'：'',
				'信息3':'',
				...,
				'weight':'45kg',
				...}
}

基本的思路，建立四个变量来存储四个区间的体重的计数。用判断语句来比较。不过呢，我就想试一下其他方法：

"""
我的第一个解法，是将符合条件的数据转换为四个区间的映射标签：1，2，3，4 . 从【1，1，3，4，3，...】中建立一个标签和数量的键值对，通过字典索引来获取信息。
"""
#读取数据
with open(os.path.join(os.getcwd(),"data","data31557",'20200422.json'),'r',encoding='UTF-8') as file:
    json_array=json.loads(file.read())#读取json内容

#获取明星的体重并做统计分析
weights=[]
for star in json_array:
    weights.append(int(star["weight"][0:2]))
# >55 记为1 50-55 记为2 45-50记为3( (45,50] )  <=45记为4
labels=[]
for weight in weights:
    if weight>55:
        labels.append(1)
    elif weight>50:
        labels.append(2)
    elif weight>45:
        labels.append(3)
    else:
        labels.append(4)
#创建统计个数的字典
flag=[">55kg",'50-55kg','45-50kg','<=45kg']
counts={} #每个标签的占比
labels_set=[]
for label in labels:
    if label not in labels_set:
        counts[flag[label-1]]=labels.count(label)
        labels_set.append(label)

#画饼图
plt.figure(figsize=(9,8))
plt.rcParams['font.sans-serif']=['SimHei']#显示中文
#设置饼图标签
# color=['red','yellowgreen','yellow','lightskyblue']#或是十六进制表示
#将某部分分割数出来，使用括号，数值的小小是分割书来与其他两块的间隙
explode=(0,0,0.08,0.05)

patches,l_text,p_text=plt.pie([counts[flag[i]] for i in range(len(labels_set))],explode=explode,labels=flag,
                              labeldistance=1.1,autopct='%3.1f%%',
                              shadow=True,pctdistance=0.6,
                              startangle=60,
                              )
#设置x,y刻度一致，饼图才能使圆的
plt.axis('equal')
plt.title("《青春有你2》参赛选手体重分布",fontdict={'size':14})
plt.legend()
plt.show()

群里的小伙伴学习氛围也非常好，他们在讨论有没有能够代码量更小的方法。然后我就继续开动脑筋：

"""
另外一种解法，我是通过逻辑关系来做的，有四个区间就遍历了四次，每次将符合条件的置1，每次比较 是 a<= n < b 两个不等式，所以了这里用到相与 筛选出 两个不等式的交集。 这里列表的位置也是对应的区间的位置，所以呢就能根据索引取出相应的区间。   不过后来想想也没必要特意将列表转成了array数组
"""
#读取数据
with open(os.path.join(os.getcwd(),"data","data31557",'20200422.json'),'r',encoding='UTF-8') as file:
    json_array=json.loads(file.read())#读取json内容

#获取明星的体重并做统计分析
weights=[]
for star in json_array:
    weights.append(int(star["weight"][0:2]))

flag=['<=45kg','45-50kg','50-55kg',">55kg"]
condition=[0,45,50,55,100]

counts2=[]
weights=np.array(weights)
for epoch in range(len(flag)):#四个区间遍历
    n_weight=np.where(weights<=condition[epoch+1],1,0)
    n_weight2=np.where(weights>condition[epoch],1,0)
    n_weight=np.logical_and(n_weight,n_weight2)  #True 的部分是保留
    counts2.append(np.sum(n_weight))

#画饼
plt.figure(figsize=(9,8))
plt.rcParams['font.sans-serif']=['SimHei']#显示中文
explode=(0.05,0.08,0,0)
patches,l_text,p_text=plt.pie(counts2,explode=explode,labels=flag,labeldistance=1.1,autopct='%3.1f%%',shadow=True,pctdistance=0.6,startangle=60)

#设置x,y刻度一致，饼图才能使圆的
plt.axis('equal')
plt.title("《青春有你2》参赛选手体重分布",fontdict={'size':14})
plt.legend()
plt.show()

另外一些方法，使用panda库来读取，里面集成了一种方法，能够直接返回元素的个数。总之方法也是挺多的。
效果：
在这里插入图片描述

第四天的分类任务，评分指标5张图片预测的正确率。这样为了5张正确折腾了好久，大概有点理解了图片的光照、整体分布、姿势等等对于模型参数训练的影响。哎。（Resnet并不是大法，还是多点尝试下其他模型，想法不要总是被限制住了，【分类先考虑resnet 】）

第五天的综合大作业，我觉得有一定难度，因为爬虫这块我本来就不怎么熟悉。再加上有些事情忙，拖了一天才开始动工，基本群里小伙伴把要踩的出现的坑都全部讨论过了，所以我直接基本就是跳坑而过（有一点想要莫名的笑一下）。

不过也发现自己存在的一些问题就是学了就忘，忘了去查，捡了再丢，丢了再捡。以后还是要按个专题整理一下。各位小伙伴也一起加油吧(ง •_•)ง（没有好好喝的鸡汤）

爪哇 o_O

原创文章 4 获赞 8 访问量 346

关注私信

飞桨PaddlePaddle-AI结营心得

前言

心得

猜你喜欢