まず、Bokehの出力をインポートして、ノートブックに表示させましょう。
from bokeh.io import show, output_notebook
from bokeh.palettes import PuBu4
from bokeh.plotting import figure
from bokeh.models import Label
output_notebook()
箇条書き
この例では、データにPythonリストを入力します。Pandasデータフレームに合うように変更することもできますが、この例では単純なPythonデータ型を使用します。
data= [("John Smith", 105, 120),
("Jane Jones", 99, 110),
("Fred Flintstone", 109, 125),
("Barney Rubble", 135, 123),
("Mr T", 45, 105)]
limits = [0, 20, 60, 100, 160]
labels = ["Poor", "OK", "Good", "Excellent"]
cats = [x[0] for x in data]
コードのトリッキーな部分は、y軸のcat変数にカテゴリのリストを作成することです。
次のステップは、ボケプロットを作成し、x軸とグリッド線の表示方法に関連するいくつかのオプションを設定することです。上記のように、cats変数を使用してy_rangeのすべてのカテゴリを定義します。
p=figure(title="Sales Rep Performance", plot_height=350, plot_width=800, y_range=cats)
p.x_range.range_padding = 0
p.grid.grid_line_color = None
p.xaxis[0].ticker.num_minor_ticks = 0
次のセクションでは、ボケのhbarを使用してカラーレンジバーを作成します。これを機能させるには、各バーの左右の範囲と色を定義する必要があります。Pythonのzip関数を使用して、必要なデータ構造を作成できます。
zip(limits[:-1], limits[1:], PuBu4[::-1])
# 结果如下:
[(0, 20, '#f1eef6'),
(20, 60, '#bdc9e1'),
(60, 100, '#74a9cf'),
(100, 160, '#0570b0')]
これらを組み合わせてさまざまな色を作成する方法は次のとおりです。
for left, right, color in zip(limits[:-1], limits[1:], PuBu4[::-1]):
p.hbar(y=cats, left=left, right=right, height=0.8, color=color)
結果は次のとおりです。
同様のプロセスを使用して、各パフォーマンスメトリックに黒いバーを追加します。
perf = [x[1] for x in data]
p.hbar(y=cats, left=0, right=perf, height=0.3, color="black")
追加する必要のある最後のマーカーは、ターゲット値を表示するセグメントです。
comp = [x[2]for x in data]
p.segment(x0=comp, y0=[(x, -0.5) for x in cats], x1=comp,
y1=[(x, 0.5) for x in cats], color="white", line_width=2)
結果は次
のとおりです。最後のステップは、各範囲にラベルを追加することです。zipを使用して必要なラベル構造を作成し、各ラベルをレイアウトに追加できます。
for start, label in zip(limits[:-1], labels):
p.add_layout(Label(x=start, y=0, text=label, text_font_size="10pt",
text_color='black', y_offset=5, x_offset=15))
結果は次のとおりです。
滝グラフ
デモデータフレームとして使用するためのデータフレームを構築します。
# Create the initial dataframe
index = ['sales','returns','credit fees','rebates','late charges','shipping']
data = {
'amount': [350000,-30000,-7500,-25000,95000,-7000]}
df = pd.DataFrame(data=data,index=index)
# Determine the total net value by adding the start and all additional transactions
net = df['amount'].sum()
結果は次
のとおりです。最終的なウォーターフォールコードでは、セグメントごとに次のようないくつかの追加プロパティを定義する必要があります。
- 出発点;
- バーの色;
- ラベルの位置;
- ラベルテキスト;
これを単一のデータフレームに追加することで、Bokehの組み込み機能を使用して最終的なコードを簡素化できます。
次のステップでは、現在の合計、セグメントの開始位置、およびラベルの位置を追加します。
df['running_total'] = df['amount'].cumsum()
df['y_start'] = df['running_total'] - df['amount']
# Where do we want to place the label?
df['label_pos'] = df['running_total']
次に、ネット値を含む行をデータフレームの下部に追加します。
df_net = pd.DataFrame.from_records([(net, net, 0, net)],
columns=['amount', 'running_total', 'y_start', 'label_pos'],
index=["net"])
df = df.append(df_net)
この特定のウォーターフォールでは、負の値を別の色に設定し、グラフの下のラベルをフォーマットしたいと思います。値を使用してデータフレームに列を追加しましょう。
df['color'] = 'grey'
df.loc[df.amount < 0, 'color'] = 'red'
df.loc[df.amount < 0, 'label_pos'] = df.label_pos - 10000
df["bar_label"] = df["amount"].map('{:,.0f}'.format)
これは、必要なすべてのデータを含む最終的なデータフレームです。この状態にするには、データをある程度操作する必要がありますが、これはかなり標準的なPandasコードであり、問題が発生した場合にデバッグするのは簡単です。
データフレームには必要なすべての値があるため、実際のプロットの作成はかなり標準的なボケコードです。
TOOLS = "box_zoom,reset,save"
source = ColumnDataSource(df)
p = figure(tools=TOOLS, x_range=list(df.index), y_range=(0, net+40000),
plot_width=800, title = "Sales Waterfall")
ColumnDataSourceをデータフレームとして定義することにより、Bokehはループなしですべてのセグメントとラベルを作成します。
p.segment(x0='index', y0='y_start', x1="index", y1='running_total',
source=source, color="color", line_width=55)
ラベルを追加し、y軸を適切にフォーマットするために、いくつかの小さなフォーマットを実行します。
p.grid.grid_line_alpha=0.3
p.yaxis[0].formatter = NumeralTickFormatter(format="($ 0 a)")
p.xaxis.axis_label = "Transactions"
最後のステップは、LabelSetを使用してすべてのラベルを棒グラフに追加することです。
labels = LabelSet(x='index', y='label_pos', text='bar_label',
text_font_size="8pt", level='glyph',
x_offset=-20, y_offset=0, source=source)
p.add_layout(labels)
結果は次のとおりです。