【读书笔记】只有浅出没有深入的数据分析(七)

在第七章主要提及了“信念数字化”也就是把我们主观认为的某种观点转化为概率，毕竟 80% 相对于比较可能要好处理的多。

在这章主要首先提及了内部观点的不一致，主要分为以下几点：

1.高级分析师认为越南要降税，应该投资越南

2.另一个部门的分析师认为应该俄罗斯会继续石油补贴，应该投资俄罗斯，同时驳斥了其他观点

3.副总裁认为投资俄罗斯是不明智的

4. 初级研究员认为应该投资印尼，他在现场更能作出全面判断。

“主观概率体现专家信念”，“如果用一个数字的形式来表示自己对某事的确认程度，所用的就是主观概率。主观概率是根据规律进行分析的巧妙方法，尤其在预测孤立事件却缺乏从前相同条件下发生过事件的可靠数据的情况下。”

这里我们将观点分为6类：

1.俄罗斯下一季会补贴石油业

2.俄罗斯下一季将收购欧洲航空公司

3.越南今年将减税

4.越南政府今年将鼓励外国投资

5.印尼旅游业今年将翻身

6.印尼政府投资生态旅游

分析师们分别给出了对以下观点的主观概率，这样我们就可以用散点图来看一下分歧程度了。

书中是用散点图表示的，这里我们也用散点图，由于概率只有一个值，对于y轴我们就用random处理了，毕竟我们只是为了看在x轴的分布。这里给出代码:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


df = pd.read_excel('./hfda_data/hfda_ch07_data_transposed.xls')

plt.figure(1)
plt.subplot(2, 3, 1)
plt.scatter(df.iloc[0, 1:21], np.random.random(20))
plt.xlim(0, 1)
plt.subplot(2, 3, 2)
plt.scatter(df.iloc[1, 1:21], np.random.random(20))
plt.xlim(0, 1)
plt.subplot(2, 3, 3)
plt.scatter(df.iloc[2, 1:21], np.random.random(20))
plt.xlim(0, 1)
plt.subplot(2, 3, 4)
plt.scatter(df.iloc[3, 1:21], np.random.random(20))
plt.xlim(0, 1)
plt.subplot(2, 3, 5)
plt.scatter(df.iloc[4, 1:21], np.random.random(20))
plt.xlim(0, 1)
plt.subplot(2, 3, 6)
plt.scatter(df.iloc[5, 1:21], np.random.random(20))
plt.xlim(0, 1)

plt.show()

这里如若要删除y轴的刻度也是可以的，请参阅官方文档。

文中提高了用标准差的方法,通过标准差来看离散程度(分歧程度）,的确这样比我们直接看图形准确的多(也更容易的多)。

import pandas as pd

df = pd.read_excel('./hfda_data/hfda_ch07_data_transposed.xls')

df1 = df.iloc[0:6, 1:21]

print(df1.std(axis=1))

这时又突然给我们一个消息：

俄罗斯称出售油田，对商业失去了信心。

这里让我们重新选择分析工具给了以下几个选项：

1.实验设计

设计一个更准确的实验难度极高。因为数据师也是这种方法做的分析。

2.最优化

缺少可靠的数字数据。

3.美观的图形

这个没什么意义

4.假设检验

假设检验看似能派上用场，可以根据假设检验推导出俄罗斯动向的信念。但我们要搞清楚新数据会让人们主观概率发生什么变化，假设检验在这方面的作用尚不明确。

5贝叶斯公式

看起来也可行，我们可以将每一个分析师的主观概率作为基础概率，用贝叶斯公式处理这个新信息。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_excel('./hfda_data/hfda_ch07_new_probs.xls')


a = np.array(df.iloc[0::, 1])
b = np.array(df.iloc[0::, 2])
c = np.array(df.iloc[0::, 3])
d = np.array(df.iloc[0::, 4])

e = (a*c)/(a*c+b*d)

plt.figure(1)
plt.scatter(e, np.random.random(20))
plt.xlim(0, 1)
plt.show()

看到结果我们发现只有三位分析师失去了信心，大部分分析师依旧坚持以前的观点。

这一章名字叫做主观概率，我们做的也的确是把可能有可能不太可能等转化为实际的数字进行处理，这里也是本书第二次运用到贝叶斯公式，如果还不知道如何使用的建议多看看这方面的文章。

【读书笔记】只有浅出没有深入的数据分析(七)

猜你喜欢