前回の記事では、MAGELLAN BLOCKSのDataEditorで線形回帰・ロジスティック回帰のモデルが作れるようになったことを紹介しました。
今回はその機能と併用すると便利な相関係数を計算する機能をご紹介いたします。
そもそも相関係数とは何かという話ですが、説明しだすとキリがないので他のサイトにお譲りします。求められる数値についてだけ説明すると、このようになります。
- 正の相関が強いと相関係数が1に近づく
- 負の相関が強いと相関係数が-1に近づく
- 相関係数が1又は-1のときは完全相関という
- 相関係数が0の付近は相関がないといえる
引用元:なるほど統計学園高等部 | 複数の変数の関係性を見る - 総務省統計局
詳しくはこちらのサイトなどを見てもらうと良いかと思います。
DataEditorでクエリモデルを作る際に、相関の強い項目を除外するなどで利用します。
使い方
実際に使っていきましょう。使うデータはいつもの電力需要データです。(そう言えば行番号が付くようになりました)
目立たないんですが、3つめの懐中電灯のアイコンをクリックします。 するとタブが切り替わって、 選択 というボタンが表示されます。
選択ボタンをクリックすると、そのテーブルに持っている項目リストが表示されます。項目リストが表示されたらその中から、相関係数を見たい項目にチェックを入れてOKをクリックします。
項目が列挙されて 実行 ボタンが有効になるのでクリックすると選んだ項目間の相関係数が算出されてマトリクス表示されます。holidayのように0,1で文字型として取り扱っているデータについては、値ごとに別の変数(ダミー変数)として相関係数が算出されます。
結果を見てみると相関の強いデータとして、holiday_0とholiday_1が負の相関が強いと出ますがこれはしょうがないので無視します。
max_tempとdaytimeをみると0.767116と0.7を超えて強い正の相関が出ていますので線形回帰的には片方なくても良さそうです。
さすがに相関係数を見て項目を選ぶとなってくると専門的な知識が必要な面が否めないですが、それでも手軽にこのマトリクスを出せるのはとても便利です。
この機能を使ってDataEditorのクエリモデル機能をうまく活用してもらえればと思います。
※本ブログの内容や紹介するサービス・機能は、掲載時点の情報です。