データ分析で考えること…。

---自己紹介---

こんにちは a1chemy(あるけみぃ)と申します。

現役でデータサイエンティストをしております。

主にコールセンター・通販業界の方々へ伴走支援を行っております。

 

 

---前置き---

前編[データの特性をわかっていますか?]の続きになります。

まだ見ていない方は下記リンクより前編をご覧ください。

データの特性をわかっていますか? - 現役データサイエンティストに聞く(効く)

 

 

---本編---

①データの特性に合った分析を行う(前編の回答)

②データには誤差が存在する(おまけ)

 

詳細な理由は例とともに下記に記載しています。

 

 

①データの特性に合った分析を行う(前編の回答)

例:IQによってテストの成績に違いがあるか検討したい

この時に年齢や性別などどのように考慮すればよいでしょうか?

 >>重回帰分析を行います。

 

(縦軸:テストの点数/横軸:IQ)

 

 

②データには誤差が存在する

測定すべき特性をどの程度精度よく測定しているのか?

 >>テストの信頼性は?

   >古典的テスト理論:真の点数+誤差(勘・ケアレスミス・経験など)

 

実際問題、データの計測にはばらつきがあります。

(理想は真の値がわかることですが、無理です)

 

データの誤差には大きく分けて2パターンあります。

 

①系統誤差:測定手法に起因する誤差で,測定回数によらず一定 
 例:測定機器の故障で毎回同じ量がずれる

 対策:基準点を合わせる校正を行う
②偶然誤差:同じ条件で繰り返し測定しても生じるランダムなばらつき 
 例:人間が勘で10cmの線を引く → どうやってもずれる

 対策:試行回数を多くする(100回より10,000回のほうが信頼性があがる)

 

上記のテストの場合で言うと②偶然誤差に当てはまります。

 

以上

 

データ分析のナニカに役立てばと思います。