※この記事は旧ブログからの転載です。
Excelの新しいグラフ機能として「箱ひげ図」があります。
リリース直後から、これは大変うれしい機能だと思っていたのですが、今まで使う機会がなかなかなくて詳しく使っていませんでした。
ちょっと時間を見つけて箱ひげ図を作ってみたのですが、どうも思ったように作れないので、そのうまく作れない状況をレポートします。
箱ひげ図とは・・・
ヒストグラムはデータの分布を1グラフで1要素しか表現できません。
箱ひげ図は、複数の要素を1グラフで表すことができるので、要素間の分布の比較が視覚的にできる、分布の比較分析をする上では、超便利なツール。
ヒストグラム
箱ひげ図
複数の科目の点数分布が表現できる
今回、これを作りたい。あわせて、外れ値がプロットできればなおよい。
これはExcelの四分位関数QUARTILEの結果から差分計算して積み上げ縦棒グラフを描いて、グラフの誤差範囲を指定して作成したものです。
実際に箱ひげ図を作ってみた
箱ひげ図機能で作ってみました。
元データ
このデータで箱ひげ図機能を使って上みたいな箱ひげ図を描きたいと。
で、普通にグラフ機能で描いてみました。
範囲は、A1からL21の項目名がすべて入った範囲。
結果がこれです。
どうやら行列が違って認識されたようです。
そこで、行列を入れ替えようと思ったのですが、行列の入れ替えのボタンがどの方法でもグレーアウトで押せない状態です。
このことから、箱ひげ図では、Excelが自動で認識した行列は後で変更できない仮説が立ちます。
ただ、今回元データとして指定したものには、生徒IDが入っていますが、生徒IDは本質的に箱ひげ図には不要な情報なので、入れないでB1からL21の範囲で描いてみました。
ちょっとそれらしい。
しかも外れ値がプロットされているところがうれしい。
しかし、横軸の項目名が1となってしまいました。
データの選択で項目軸に無理やり項目名の範囲を設定してもぐちゃぐちゃになりました。
この項目名を変更した作業は元に戻すで戻りませんでした。
あと、グラフ左右の隙間も気になります。
項目軸を一度消すと復活させる方法がないこともわかっています。これは操作上でも要注意ですね。
全体的には、箱ひげ図を描いたとたんにExcelの動作が不安定で強制終了が頻繁に起きることです。
今のところ、こんな感じです。
箱ひげ図の解説
せっかくなのでExcelで描いたグラフを見ながら、箱ひげ図を解説します。
有効データの中での最小値、四分位25%、中央値、四分位75%、有効データの中での最大値を箱ひげ図として描いてくれます。
×で平均値を出しています。平均値は中央値とは違いますね。
外れ値を丸でプロットしています。
左側の要素は他の2つに比べて全体的に低い、右側の要素は、外れ値はないがその分ばらつきがある。
全体の50%のデータを有効範囲としたときのばらつきは真ん中の要素が一番大きいなどが読めます。
Excelの箱ひげ図の設定
Excelの箱ひげ図は、ちょっと面白いことができるメリットはあります。
各要素にデータ系列の書式設定を出して、系列のオプションを見ると、次のような設定ができることがわかります。
要素の間隔
要素ごとの左右の間隔を調整します。
ここで初期設定でできる左右の余白をなくすことができました。
内側のポイントを表示する
全ての元データのポイントをプロットします。
データ区間の密度がよくわかるかもしれないです。
特異ポイントを表示する
外れ値をプロットするかを設定します。
平均マーカーを表示する
×で表示される平均値を表示するか設定します。
==== 平均線を表示====
正直なにをするのかわかりませんでした。
チェックを入れても入れなくても同じでした。
上の設定は1要素ごとにしか設定できませんでした。
ということは、あくまで予想なのですが、箱ひげ図のコンセプトは私が期待した複数の分布を比較できるということは想定して作られていないような気がします。
総括
要素が1つだときれいに、私の知る限り、ここまでの情報を詰め込んだ箱ひげ図は他にはないと思います。
ただ、残念ながら、複数の要素については可視性、表現方法、操作性はよくないと思います。
今のところ、ベストは、横軸の項目は表示せず、凡例を表示し各要素が何かを判別するような表示がいいと思います。
こんな感じ。
ただ、白黒印刷の場合は判別しにくいですし、なにかしらの改善ができるのであればお願いしたいところです。
Web上にもあまり情報がなく、ヘルプも詳しくありません。
果たして需要があるのかどうかと考えたときに、それほどないのかなとも思いますが、統計ソフトやグラフツールでは、平気で描けているグラフですので、きちんとしたものが入っていただけますと素晴らしいかなと思います。
Excel2016ではヒストグラムやツリーマップ、サンバーストなど、統計的に使えるグラフが新規に搭載されて需実しています。
統計は統計ソフトが専門であり、Excelは表計算ソフトなので分析が得意という住み分けがあるのかなとも思いますが、Excelが統計の方向へ向かってくれたことは、本来の分析機能に力を入れ始めてくれたのかなとうれしくなっています。
箱ひげ図は、さまざまな問題分析の上で強力なツールになるので、いろいろな業種の方に幅広く使っていただけるものだと思っていますので、改善できるのであればしてほしい機能です。
コメント