Конкретная функция plt.hist():
как показано на рисунке, левый столбец — это цифровое значение. Правая колонка — частота. Теперь я делю интервал от 0 до 5 на 10 бинов (боксов), каждый размером 0,5. Он показан в крайней правой части рисунка ниже.
Видно, что частоты, соответствующие номерам на рисунке, будут добавляться в соответствии с номерами, идентифицированными бинами.
plt.hist() как раз и есть эта функция. Разделите большой интервал на равные маленькие интервалы и подсчитайте сумму частот выборок в каждом интервале.
пример 1
reviews = pd.read_csv('fandango_scores.csv')
cols = ['FILM', 'RT_user_norm', 'Metacritic_user_nom', 'IMDB_norm', 'Fandango_Ratingvalue']
norm_reviews = reviews[cols]
fig, ax = plt.subplots()
ax.hist(norm_reviews['Fandango_Ratingvalue'])
plt.show()
Отобразить результаты:
указать параметры: bins=20 (размер бинов 20), тип его 'шаг'
reviews = pd.read_csv('fandango_scores.csv')
cols = ['FILM', 'RT_user_norm', 'Metacritic_user_nom', 'IMDB_norm', 'Fandango_Ratingvalue']
norm_reviews = reviews[cols]
fig, ax = plt.subplots()
# hist()的作用是把数据按从小到大的值划分到不同的箱子里。
ax.hist(norm_reviews['Fandango_Ratingvalue'],bins=20,histtype='stepfilled')
plt.show()
Результат операции:
после указания диапазона оси x:
reviews = pd.read_csv('fandango_scores.csv')
cols = ['FILM', 'RT_user_norm', 'Metacritic_user_nom', 'IMDB_norm', 'Fandango_Ratingvalue']
norm_reviews = reviews[cols]
fig, ax = plt.subplots()
# hist()的作用是把数据按从小到大的值划分到不同的箱子里。
ax.hist(norm_reviews['Fandango_Ratingvalue'], range=(4, 5),bins=20)
plt.show()
результат операции: