地域間比較 箱ひげ図

Pythonの使い方を調べていたら、正規分布の統計をせずとも箱ひげ図を自動生成してやれば、平均やバラツキ、外れ値まで自動的に表示してくれるらしい。(箱ひげ図の意味はこちらに易しく書いてあります。箱ひげ図の意味 | 高校数学の美しい物語

 Pythonのmatplotlibライブラリにあるboxプロットを使うと、自動的に外れ値を○の記号として表示し、外れ値を除いた最大値・最小値の幅と四分位数を表示してれるらしい。ということで、やってみました。図は以下で、これまでブログで紹介した地域別以外に、リスト本数が少なくて分析が終わってたFortifiedなどのやや質が怪しい分類のものも含めました。(箱ひげ図の勉強から図作成まで4時間くらいかかった…年始に何してるんだ俺)。

f:id:QtCsf:20210103145258p:plain

箱ひげ図による地域間比較

なかなか壮観な図になって、箱の上下幅が狭いJapanの安定ぶりとか、Espanaの中央値の高さ(コスパのよさ)が読み取れます。Espanaは逆に外れが多いこともわかります。このようにこの図だけでも各地域の特徴がざっくりと現れてるので、興味ある方はじっくり読み取ってください。ただし分析本数はこの図からは読み取れないので、そこは注意が必要です。最終的には○○本以上の地域だけ抽出して比較するんでしょうねえ。

 ということで、マイニングが終わった地域の分析は、この地域間比較も含めてあらかた終わりました。年始の時間を使ったPython統計学シリーズも一休みにして、あとは時間を見てリストの残りをマイニングしないと…

結論:地域間の比較に箱ひげ図は便利そう!