CWFを正規分布で分析できるか?

(今回の記事は筆者が統計学を勉強した備忘録になってます。たぶんつまんないです。)

このブログで初っ端からCWFという指標を提案しておいて今更であるが、最初の記事に書いたようにCWFが地域ごとのコスパバラツキを評価できるかには検討の余地があった。当初は正規分布の分散を見ていたのだが、どうもブショネや劣化ワインの外れ値に分散が引っ張られ、地域ごとの値よりも保存状態によるバラツキを見ている感じになってしまっていた。これではイカン!

 ということで、外れ値を除外する必要が出てきたのだが、保存状態とワインの基の品質を分離することは難しい。となると保存状態が悪いものは確率的に存在すると仮定して、統計的に除外するべきだと考えられる。で、統計的に除外する手法は複数あるようだが、それらの手法を適用する場合、そもそも正規分布を使って良いのかというのが重要らしい。

 そこで、こんな記事を参考にして

https://sigma-eye.com/2018/09/23/qq-plot/

正規分布を改めて勉強して、CWFの正規性を見てみました。ほんとはRかPythonなどのプログラミング言語を使って自由自在に統計処理をしたいのだが、何分それらの環境をインストールしてないし、使ったこともないのでまずはエクセルでやってみた(素人感満載です)。今のところ師範のリストのうち1023本分のCWF得ているので、それを全部エクセルくんに入れて、平均と分散を出して、得られた平均と分散から”正規分布のCWF”を導き、”実際のCWF”に対してプロットする。これをQ-Qプロットというらしく、これが直線なら正規分布らしい。

f:id:QtCsf:20201229134801p:plain

とりあえず作ってみたQ-Qプロット。どう見ても直線じゃないですね。

 図を見ると、あらら、現状正規分布とは言えないみたいです。しかし、よく見るとCWFが低いグループと、CWFが高い2本が顕著に直線を崩しているように見える。ならば上下の外れ値をカットすれば正規分布に近づくのでは?ホントは上記のように外れ値を客観的に除外する手法があるのだが、エクセルを使ってだと面倒だし、勉強も面倒だ(それで良いのか?)。ということで、まずは適当に外れ値を CWF<16 および 30<CWF と定義してQ-Qプロットしてみた。

f:id:QtCsf:20201229135608p:plain

適当に外れ値を除外したQ-Qプロット。直線っぽくなってる!

 おお!直線に近づいてる。これならCWFを正規分布で分析できそう!どのくらい直線に近ければ正規分布使ってよいかどうか、という指標もあるようだが、それは(も)後日勉強します…

結論:CWFで適切に外れ値を除外すれば、正規分布の分散の値でワインのコスパバラツキを評価できそうかも。ただしまずは筆者がいろいろ勉強する必要あり。