地域別分析 Bordeaux
いや、フランスワイン分析しなくて何が分析やねん!という心の声がありました。でもリストの、本数が、多いんです!何度か心折れそうになりましたが、ついにボルドーだけですが、マイニング終わりました…
Bordeaux平均CWF=23.19(現在の世界平均23.26)
若干コスパ悪い感じですが、予想よりも普通に近い感じです。
価格と点数分布は下図ですが、相当安定している中で、5本程度のハズレがあることが見えます。ハズレは保存状態でしょうね。基本、すごく安定してます。価格相応の味が楽しめる!
ビンテージに対してのコスパは上昇傾向。まあ、Bordeauxとなるとビンテージに対する付加価値上がるからコスパ的には厳しくなりますよね…(ビンテージが古いほど価格が高い傾向)。
ということで結論
結論:ボルドーワインはちょっとコスパ悪いかもしれないけど、安定してます!伝統とそれに基づく信頼ですかね?
アルコール度数、糖度、pHで美味しさを見積もることができるか?
師範 @yasushihan の最近のリストにはアルコール度数のみならず、糖度とpHの測定結果が公開されている。それらを可能な範囲でマイニングしているのだが、おそらく皆さん気になるのは、それらの数値と美味しさの関係だと思う。その関係がわかれば、目に見える数値で美味しいワインを手に入れる道が見えるんじゃない!?(生産者の方々には、お前ワインなめてんじゃねえ!って怒られそう…)
ということでPythonを使ってプロットしてみた。対象は全世界で現状データのある307本のワインで、数値の離れたデータの間は線形補間してあります。まずはpHとアルコール度数に対する点数の等高線。色が薄くなるほど点数が高い。以前に書いたようにアルコール度数に対して点数は正の相関があるように見える(上に行けば点数が高そう)。まあ横方向にも分布もあるけど、そっちは傾向としてつかめるほどではないかな。
じゃあ、他のパラメータはどうかってことですが、糖度とアルコール度数で等高線を書くと、やっぱりアルコール度数に対する相関が強い。上の方が点数高そうです。あ、ちなみにデザートワインの糖度は高すぎるのでこの図の右外側になります。
そして糖度とpHでプロットすると群雄割拠。もうわかんねえや。pHが低すぎたり、糖度が低すぎるのがあかんのはわかるけど、図の真ん中はすごいことになってる。なお、図の上の方の糖度の8以上のところはデザートワインの点数に引きずられたものなので、参考にしづらいっす。
ということで結論
結論:糖度とpHの値だけで美味しさは決まらない。アルコール度数もぼんやり関係がありそうな程度。美味しさの起源は分析可能な数値だけじゃないからな!(分析屋としての戒め)。
(3次元以上のパラメータを分析したらまた違った結果になるかもしれないけど、図にできなくてわかりづらいので保留)
地域間比較 箱ひげ図
Pythonの使い方を調べていたら、正規分布の統計をせずとも箱ひげ図を自動生成してやれば、平均やバラツキ、外れ値まで自動的に表示してくれるらしい。(箱ひげ図の意味はこちらに易しく書いてあります。箱ひげ図の意味 | 高校数学の美しい物語)
Pythonのmatplotlibライブラリにあるboxプロットを使うと、自動的に外れ値を○の記号として表示し、外れ値を除いた最大値・最小値の幅と四分位数を表示してれるらしい。ということで、やってみました。図は以下で、これまでブログで紹介した地域別以外に、リスト本数が少なくて分析が終わってたFortifiedなどのやや質が怪しい分類のものも含めました。(箱ひげ図の勉強から図作成まで4時間くらいかかった…年始に何してるんだ俺)。
なかなか壮観な図になって、箱の上下幅が狭いJapanの安定ぶりとか、Espanaの中央値の高さ(コスパのよさ)が読み取れます。Espanaは逆に外れが多いこともわかります。このようにこの図だけでも各地域の特徴がざっくりと現れてるので、興味ある方はじっくり読み取ってください。ただし分析本数はこの図からは読み取れないので、そこは注意が必要です。最終的には○○本以上の地域だけ抽出して比較するんでしょうねえ。
ということで、マイニングが終わった地域の分析は、この地域間比較も含めてあらかた終わりました。年始の時間を使ったPython・統計学シリーズも一休みにして、あとは時間を見てリストの残りをマイニングしないと…
結論:地域間の比較に箱ひげ図は便利そう!
Google ColabのPythonを使ってCWFの外れ値を検出・除外してみる
統計処理を真面目にやるためには、触ったこともないRかPythonだなあと思っていたのだが、調べたところGoogle Colaboratoryを使えばPCでの環境構築が必要なくPythonga使えるらしいので、やってみた。触り始めてからまともに使えるまで数日間かかったのだが、引っかかっていたのはPythonのデータ形式の扱いであった。ファイルを読み込んだら数字が文字として認識されていたり、データ形式が配列だったりリストだったり、関数によっては配列・リストのどちらかしか適応できなかったり…おかげで勉強になりました。
Pythonで出力したCWFヒストグラムが以下。これは先日エクセルで作ったものと同じ。Pythonに自動生成させたので軸のラベル貼りはサボってます。
で、こっから外れ値を除外するわけであるが、使った手法はスミルノフ・グラブス検定という手法。参考にしたのは下記のサイト
実験データの外れ値を統計学的に判別する方法 | BioTech ラボ・ノート
で、Pythonのコードは
Smirnov-Grubbs検定を用いる外れ値除去のPython実装 | Graviness Blog
にあったので使わせてもらった。有意水準は5%とかがよく用いられているらしいので、5%にした。その結果、15本が外れ値として検定され、ヒストグラムは以下のように変化した。
で、先日と同じようにQ-Qプロットをして比較してみる(自動生成グラフなので、横軸の値は先日のものと違います)。
うーん、直線とは言えないかな…
他にもシャピロウィルク検定ってのもやってみたけど、正規分布とは言えない値が得られた。外れ値除外しても正規分布を仮定した分析は正確ではないみたい。
まあ、それでも目立った外れ値を除外するには十分かな?とりあえずはこれで良いことにして、今後バラツキを評価してみたい。
結論:Pythonと統計分析の勉強になりました(ワイン関係ないな…)
地域別分析 Australia
新年早々ですが、地域別分析の次のターゲットはオーストラリア。昨年末の時点でマイニング自体は終わっていたものの、やはり時間があると作文が捗る。ということで、CWF分布は以下の図。平均は今までのものの中でも最高で
Australia平均CWF=23.73(改めて現在の世界平均CWFを出すと23.22)
すげえ、オーストラリア!バラツキも少なそう!
価格と点数分布にしてみても、かなりものが直線に乗っている。これはハズレも少ないんじゃない!?
ビンテージに対してのコスパもプロットすると、以下のようにすげえ昔のものを除けば安定していて、年々増加傾向です。今までの中で最も優秀!
ということで結論
結論:オーストラリアワインは最近は安定していて、かつコスパ高いみたいです!
今更の留保(チリなどの強敵も控えているし、フランスの本数が多くて分析しきれていないので、現時点での分析結果の話です…)
地域別分析 Espana
先日のドイツのように、 いくつかの地域で分析が終わっているのだが、記事を書くことに集中できない状況や、分散の求め方に興味が行ってしまって、記事化は亀のようにす進んでいません。大晦日なのに…(関係ない)。ついでに分析本数も進んでいないので、しばらくはストック放出になりそうではある。それはともかく、今回はスペイン、Espanaの分析結果を述べていきたい。CWF分布は以下の図、で平均は高くって
Espana平均CWF=23.60
とドイツよりも優秀!でもバラツキはドイツよりもさらに激しそう。こういう分散を分析したくて2時間ほどPythonの勉強したけど、筆者の力量では結果が出るのはまだ先は長そうです…
価格ー点数分布は以下で、価格と点数に相関はもちろんあるんだけど、かなり上下にばらついているように見える。やっぱ分散出さないと…
そしてコスパのビンテージ依存は若干の微増傾向。最近のものはCWFも安定してきてます。良いことです。こいうの、もしかしたら世界的な傾向なのかも。今後他の地域とも比較していきたい。
ということで結論。
結論:スペインワインのコスパはドイツよりさらに高いですが、バラツキが若干大きいと推測され、当たり外れはありそうです。ただ最近のものは良さそうですよ!
CWFを正規分布で分析できるか?
(今回の記事は筆者が統計学を勉強した備忘録になってます。たぶんつまんないです。)
このブログで初っ端からCWFという指標を提案しておいて今更であるが、最初の記事に書いたようにCWFが地域ごとのコスパバラツキを評価できるかには検討の余地があった。当初は正規分布の分散を見ていたのだが、どうもブショネや劣化ワインの外れ値に分散が引っ張られ、地域ごとの値よりも保存状態によるバラツキを見ている感じになってしまっていた。これではイカン!
ということで、外れ値を除外する必要が出てきたのだが、保存状態とワインの基の品質を分離することは難しい。となると保存状態が悪いものは確率的に存在すると仮定して、統計的に除外するべきだと考えられる。で、統計的に除外する手法は複数あるようだが、それらの手法を適用する場合、そもそも正規分布を使って良いのかというのが重要らしい。
そこで、こんな記事を参考にして
https://sigma-eye.com/2018/09/23/qq-plot/
正規分布を改めて勉強して、CWFの正規性を見てみました。ほんとはRかPythonなどのプログラミング言語を使って自由自在に統計処理をしたいのだが、何分それらの環境をインストールしてないし、使ったこともないのでまずはエクセルでやってみた(素人感満載です)。今のところ師範のリストのうち1023本分のCWF得ているので、それを全部エクセルくんに入れて、平均と分散を出して、得られた平均と分散から”正規分布のCWF”を導き、”実際のCWF”に対してプロットする。これをQ-Qプロットというらしく、これが直線なら正規分布らしい。
図を見ると、あらら、現状正規分布とは言えないみたいです。しかし、よく見るとCWFが低いグループと、CWFが高い2本が顕著に直線を崩しているように見える。ならば上下の外れ値をカットすれば正規分布に近づくのでは?ホントは上記のように外れ値を客観的に除外する手法があるのだが、エクセルを使ってだと面倒だし、勉強も面倒だ(それで良いのか?)。ということで、まずは適当に外れ値を CWF<16 および 30<CWF と定義してQ-Qプロットしてみた。
おお!直線に近づいてる。これならCWFを正規分布で分析できそう!どのくらい直線に近ければ正規分布使ってよいかどうか、という指標もあるようだが、それは(も)後日勉強します…
結論:CWFで適切に外れ値を除外すれば、正規分布の分散の値でワインのコスパバラツキを評価できそうかも。ただしまずは筆者がいろいろ勉強する必要あり。