【读书笔记】只有浅出没有深入的数据分析(四)

一个在线服装零售商设计了三种主页。在一个月内，每一个点击网站的人会随机分配到三种主页中的一种，他们想选出能让销量最大化，让人们成为回头客的网站。

这里给出了网站1的csv，我们可以用其来生成散点图，代码如下：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


df = pd.read_csv('./hfda_data/hfda_ch04_home_page1.csv')


plt.figure(1)

plt.subplot(1, 3, 1)
plt.scatter(df.iloc[:, 3], df.iloc[:, 2])
plt.plot([np.mean(df.iloc[:, 3]), np.mean(df.iloc[:, 3])], [0, np.max(df.iloc[:, 2])], 'b-')
plt.plot([0, np.max(df.iloc[:, 3])], [np.mean(df.iloc[:, 2]), np.mean(df.iloc[:, 2])], 'b-')
plt.xlabel('TimeOnSite')
plt.ylabel('Revenue')
plt.subplot(1, 3, 2)
plt.scatter(df.iloc[:, 4], df.iloc[:, 2])
plt.plot([np.mean(df.iloc[:, 4]), np.mean(df.iloc[:, 4])], [0, np.max(df.iloc[:, 2])], 'b-')
plt.plot([0, np.max(df.iloc[:, 4])], [np.mean(df.iloc[:, 2]), np.mean(df.iloc[:, 2])], 'b-')
plt.xlabel('Pageviews')
plt.ylabel('Revenue')
plt.subplot(1, 3, 3)
plt.scatter(df.iloc[:, 5], df.iloc[:, 2])
plt.plot([np.mean(df.iloc[:, 5]), np.mean(df.iloc[:, 5])], [0, np.max(df.iloc[:, 2])], 'b-')
plt.plot([0, np.max(df.iloc[:, 5])], [np.mean(df.iloc[:, 2]), np.mean(df.iloc[:, 2])], 'b-')
plt.xlabel('ReturnVisits')
plt.ylabel('Revenue')
plt.show()

每张散点图中加的两个蓝线则代表了平均值。

书中对散点图的介绍：

“散点图是探索性数据分析的奇妙工具，统计学家用这个术语描述在一组数据中寻找一些假设条件进行测试的活动。分析师喜欢用散点图发现因果关系，即一个变量影响另一个变量的关系。通常用散点图的X轴代表自变量(我们假设为原因的变量)，用Y轴代表因变量(我们假设为结果的变量)”

书中没有给出主页2和主页3的数据，不过我们的图与主页1中的图一致，因此我们生成的图应该是正确的。

从书上的图中可以看到主页2在三个维度表现都很糟糕，营业额也是低的可怜。

主页3表现最好，回头率略低于主页1，浏览次数和浏览时间与主页1相近，但是主页3的营业额遥遥领先。

原书又向我们抛出了另一个问题，主页3为何表现最好？

这里没有足够的数据对结论给予支持，但是书中给了建议：

“继续使用主页3，对用户体验进行细化测试，细化内容包括各种导航方式、风格、内容等，对主页3与众不同的表现可以有各种各样的解释，应对此进行调查并形成图表，但很明显，主页3已然胜出。”

散点图是个很好的工具，在python中我们可以用matplotlib来制作各种图形，就像matlab那样，如果你对numpy pandas这些库感兴趣，或者对神经网络感兴趣的话，不妨试着了解一下matplotlib。

【读书笔记】只有浅出没有深入的数据分析(四)

猜你喜欢