データの特性をわかっていますか?

今回は、データの特性についての小話を少し・・・

 

例えば、個人情報をデータの特性で区分けしてみると下記の通りになる。

 

・名義尺度(nominal scale)
カテゴリへの分類 ─ 性別,血液型
・順序尺度(ordinal scale)
属性の大小・高低 ─ テストの順位,統計検定(級)
・間隔尺度(interval scale)
順序に加えて値の間が等間隔 ─ 湿度,テスト得点,知能指数
・比例尺度(ratio scale)
原点がある間隔尺度 ─ 物理量(質量,時間,長さ)

 

~~独立変数(説明変数)~~

 

~~従属変数(目的変数)~~

 

では、なぜデータの特性を考慮すべきなのでしょうか?

 

結論:尺度水準によって可能な数値演算(統計量)が異なるからです。


よってデータ解析の手法も異なります。

例えば…。
‣ 名義尺度:計数値,頻度,連関
‣ 順序尺度:中央値,順位相関
‣ 間隔尺度:平均,分散(標準偏差
‣ 比例尺度:間隔尺度の統計量,変動計数(標準偏差/平均)

また、
尺度水準によってデータの可視化手法も異なります。

 

具体的な例は次の記事で記載します。