データ分析で考えること…。
---自己紹介---
こんにちは a1chemy(あるけみぃ)と申します。
現役でデータサイエンティストをしております。
主にコールセンター・通販業界の方々へ伴走支援を行っております。
---前置き---
前編[データの特性をわかっていますか?]の続きになります。
まだ見ていない方は下記リンクより前編をご覧ください。
データの特性をわかっていますか? - 現役データサイエンティストに聞く(効く)
---本編---
①データの特性に合った分析を行う(前編の回答)
②データには誤差が存在する(おまけ)
詳細な理由は例とともに下記に記載しています。
①データの特性に合った分析を行う(前編の回答)
例:IQによってテストの成績に違いがあるか検討したい
この時に年齢や性別などどのように考慮すればよいでしょうか?
>>重回帰分析を行います。
(縦軸:テストの点数/横軸:IQ)
②データには誤差が存在する
測定すべき特性をどの程度精度よく測定しているのか?
>>テストの信頼性は?
>古典的テスト理論:真の点数+誤差(勘・ケアレスミス・経験など)
実際問題、データの計測にはばらつきがあります。
(理想は真の値がわかることですが、無理です)
データの誤差には大きく分けて2パターンあります。
①系統誤差:測定手法に起因する誤差で,測定回数によらず一定
例:測定機器の故障で毎回同じ量がずれる
対策:基準点を合わせる校正を行う
②偶然誤差:同じ条件で繰り返し測定しても生じるランダムなばらつき
例:人間が勘で10cmの線を引く → どうやってもずれる
対策:試行回数を多くする(100回より10,000回のほうが信頼性があがる)
上記のテストの場合で言うと②偶然誤差に当てはまります。
以上
データ分析のナニカに役立てばと思います。