データ分析で考えること…。

---自己紹介---

こんにちは a1chemy(あるけみぃ)と申します。

現役でデータサイエンティストをしております。

主にコールセンター・通販業界の方々へ伴走支援を行っております。

 

 

---前置き---

前編[データの特性をわかっていますか?]の続きになります。

まだ見ていない方は下記リンクより前編をご覧ください。

データの特性をわかっていますか? - 現役データサイエンティストに聞く(効く)

 

 

---本編---

①データの特性に合った分析を行う(前編の回答)

②データには誤差が存在する(おまけ)

 

詳細な理由は例とともに下記に記載しています。

 

 

①データの特性に合った分析を行う(前編の回答)

例:IQによってテストの成績に違いがあるか検討したい

この時に年齢や性別などどのように考慮すればよいでしょうか?

 >>重回帰分析を行います。

 

(縦軸:テストの点数/横軸:IQ)

 

 

②データには誤差が存在する

測定すべき特性をどの程度精度よく測定しているのか?

 >>テストの信頼性は?

   >古典的テスト理論:真の点数+誤差(勘・ケアレスミス・経験など)

 

実際問題、データの計測にはばらつきがあります。

(理想は真の値がわかることですが、無理です)

 

データの誤差には大きく分けて2パターンあります。

 

①系統誤差:測定手法に起因する誤差で,測定回数によらず一定 
 例:測定機器の故障で毎回同じ量がずれる

 対策:基準点を合わせる校正を行う
②偶然誤差:同じ条件で繰り返し測定しても生じるランダムなばらつき 
 例:人間が勘で10cmの線を引く → どうやってもずれる

 対策:試行回数を多くする(100回より10,000回のほうが信頼性があがる)

 

上記のテストの場合で言うと②偶然誤差に当てはまります。

 

以上

 

データ分析のナニカに役立てばと思います。

 

 

データの特性をわかっていますか?

今回は、データの特性についての小話を少し・・・

 

例えば、個人情報をデータの特性で区分けしてみると下記の通りになる。

 

・名義尺度(nominal scale)
カテゴリへの分類 ─ 性別,血液型
・順序尺度(ordinal scale)
属性の大小・高低 ─ テストの順位,統計検定(級)
・間隔尺度(interval scale)
順序に加えて値の間が等間隔 ─ 湿度,テスト得点,知能指数
・比例尺度(ratio scale)
原点がある間隔尺度 ─ 物理量(質量,時間,長さ)

 

~~独立変数(説明変数)~~

 

~~従属変数(目的変数)~~

 

では、なぜデータの特性を考慮すべきなのでしょうか?

 

結論:尺度水準によって可能な数値演算(統計量)が異なるからです。


よってデータ解析の手法も異なります。

例えば…。
‣ 名義尺度:計数値,頻度,連関
‣ 順序尺度:中央値,順位相関
‣ 間隔尺度:平均,分散(標準偏差
‣ 比例尺度:間隔尺度の統計量,変動計数(標準偏差/平均)

また、
尺度水準によってデータの可視化手法も異なります。

 

具体的な例は次の記事で記載します。

 

 

 

 

TableauTips:直近〇か月以内の結果を表示

 

 

私個人の備忘録的なもの・・・

 

Tableauで[直近○か月の結果のみ表示]をするときのフィルターに入れる関数です。

---結論---

エラーになる:DATEDIFF ( 'month' , DATE(20220802) , TODAY() ) <= 3

エラーにならない:DATEDIFF ( 'month' , '2022/08/02' , TODAY() ) <= 3


使っているデータベースによっては、日付を

2022年8月2日 → 20220802 として投入している。

 

そのような場合は数字型から日付型に直す必要あり。

(計算フィールドで変更する)

 

DATEDIFF ( 'month' , DATE('20220802') , TODAY() ) <= 3

のように強引に計算するとエラーになるので

 

20220802(数字型) →2022/08/02(日付型)にしてから
DATEDIFF ( 'month' , '2022/08/02' , TODAY() ) <= 3

 

だとOK

 

'month'の値は下記の"datepart"でいろいろ変更できる。

 

 

データ分析に疎い営業部・販促メンバーとの打ち合わせにおいて…。

こんにちは a1chemyと申します。

現役でデータサイエンティストをしております。

主にコールセンター・通販業界の方々へ伴走支援を行っております。

 

今回は[データ分析に疎い営業部・販促メンバーとの打ち合わせにおいて…。]というネタです。

[重役への報告会はこちら↓]

a1chemy.hatenablog.com

 

 

データ分析に疎い営業部・販促メンバーとの打ち合わせ前において、このようなことを思ったことはないでしょうか?

 

①データ分析に興味があるのだろうか?

②前提知識はどれくらいあるのだろうか?

③データドリブンな思考はあるのだろうか?

 

このほかにも色々とあると思います。

このようなデータに詳しくない方との打ち合わせをするときに役立つポイントを3つ紹介します。

 

①事前に目的から逸れていないかチェック
目的を宣言する・振り返る
③目的とは直接関係ないものは補助スライドへ

 

答えになっていないじゃないか?と思うかもしれませんがこれで大丈夫です。

 

データ分析に興味が無くても、前提知識が無くても、データドリブンの思考がなくても大丈夫です。

 

目的を明確にしておけば"どうにか"なります。

逆に目的が明確でないと他人事になりえます。

 

自分たちの課題などが目的だとなお話を聞いてくれます。

 >>実績向上のためになることを嫌がる人はいません。

 

もし、課題が明確ではなかった際、参加者の一人が全く関係ない話題を出したりすれば、話は脱線しぐだぐだのまま打ち合わせの時間が過ぎていきます。

(事実なんども経験してきました)

 

そのため、"しつこい"と思われるくらい目的を宣言することで、

参加者の認識一致ができます。

 

今後、報告する可能性がある人は参考にしていただければ幸いです。

 

 

 

重役・意思決定者へ分析結果の報告をする際

こんにちは a1chemyと申します。

現役でデータサイエンティストをしております。

主にコールセンター・通販業界の方々へ伴走支援を行っております。

 

今回は[重役・意思決定者へ分析結果を報告する際には]というネタです。

[現場メンバーとの打ち合わせはこちら↓]

a1chemy.hatenablog.com

 

現役データサイエンティストならわかると思いますが、

分析結果の報告には"特有"の難しさがあると思います。

 

例えば・・・

①聞き手はどれくらい前提知識があるのだろうか?

②"なに"を話せば理解してもらえるだろうか?

③どのような質問が来るだろうか・・・答えられるだろうか?

 

などあると思います。

 

結論:聞き手は結果しか気にならない

 

いやいや、「何をどうやって"その結果"を見出したか」が気になるんじゃないの?

と思われそうですが、そんなことはないです。

(全員が結果しか興味ないこともないですけど・・・)

 

分析者は"分析の大変さ"をアピールするためにかっこいい数式などを言いがちですが、

そんなもの誰も興味ありません。

 

繰り返しになりますが、

結論:聞き手は結果しか気にならない

少し表現を変えると、実績向上or金儲けになることしか興味ない。

 

なので、分析結果の報告の順番

①目的

②結果

③施策案

④質疑応答

⑤詳しい説明(使用データ・メカニズムなど補助スライドで準備)

 で大丈夫です。

 

使用データや分析フローなど詳細なことを質問されるのはあまりありません。

(質問が来ないとは言ってない)

 

上記では重役は結果しか気にならないといいましたが、

大前提として目的は必須です。

そもそも"何を目的とした分析?"といったことで話の腰を折られると、

時間が足りなくなったり、不完全燃焼な報告になる可能性もあるからです。

 

上記③で施策案と記載しておりますが、

「○○という結果だった」と言われただけでは「次何をすればいいかわからない」と言う聞き手もいるのでサジェストしてあげましょう!

 

続編として[担当者間での報告会の進め方]も投稿しようと思います。

 

以上

 

 

 

 

 

現役データサイエンティストブログ開始します!

初めまして。

 

a1chemy(あるけみぃ)と申します。

 

このブログでは[データサイエンティスト]のあるあるや活用できるメモなどつらつらと書きます。

 

今後データサイエンティストを目指す方には聞いていただき、

現役データサイエンティストには効く内容を投稿していきます。

 

不定期更新ですが、何卒よろしくお願いいたします!