ALLSPICE

スパイスファクトリー株式会社のメンバーが運営するWeb開発メディア

脱“エセ・データサイエンティスト”!?ウェブ解析で使える統計学のススメ

Posted by satoriho | |Webマーケティング
脱“エセ・データサイエンティスト”!?ウェブ解析で使える統計学のススメ

「ビックデータ」や「データサイエンス」
「膨大なデータからディープラーニングで最適なソリューションを」
新聞や雑誌にこんな言葉が踊っている光景も、今では当たり前のようになってきました。

企業も個人も、「データ」を使って新しいビジネスのチャンスを見つけ出そうと躍起になっているようです。
しかし、果たしてそんなに簡単に見つかるものなのでしょうか?

たとえば、このウェブビジネスの世界はどうでしょうか。
今やアクセスデータの解析は売り上げを上げるためには必須。
「Googleアナリティクス」などをはじめとする手軽な分析ツールは多くの企業が導入しており、データ分析が日常的に求められます。

こうしたツールを一度でも使ったことがある方なら分かると思いますが、アクセス解析ツールは、驚くほど簡単にあらゆる指標のデータをリアルタイムに取得することができて、ウェブサイトの問題点がよくわかる便利なものです。
この分析ツールの登場がウェブビジネスに与えた影響はとても大きいでしょう。

しかし一方でこうした便利な分析ツールの普及が、ツール上の数字にばかり目がいってしまう“エセ・データサイエンティスト”をたくさん生んでしまっている気がするのです。

ですが、今回はそんな“エセデータサイエンティスト”にこそ読んでほしい絶対に役に立つ統計学についてお話します。

統計学は最強の学問である、のか?

数年前に『統計学は最強の学問である』という本がベストセラーとなり、「統計学」が分野を問わずにもたらすエビデンスの偉大さに対して、一躍注目が集まりました。
今後期待されている「データサイエンティスト」と呼ばれる人材にも、統計学への理解は絶対求められる素質となっています。

ならこの機会に統計学の勉強でも本格的にはじめてみるか!
そう思った方も多いのではないでしょうか?

でも、多くの方は続けてこう思ったはずです。

「でも、統計学のテキストって難解な数式ばかり出てきて全然わからない。まっったく勉強する気が起きない!」

たしかに統計学のテキストを開いてみると、すぐに目をそらしたくなるような難解な数式のオンパレード。
まもなく外の景色に目が行きはじめ、気がつくと漫画とスマホを眺めていて、もう統計学やーめた!
……なんてことになっていませんか?

統計学

https://www.shutterstock.com/

でも、そんな皆さんに朗報です。
今はITが発達しているので、統計学の難解な数式を使わなくても、基本的な考え方さえ身につければ、十分その恩恵にあずかることができる世の中になりました。
便利な時代ですね!

統計学を知るとデータの見え方も変わってくる!

データサイエンティストにとって、統計学を知ることで得られるメリットはたくさんあります。
それは、統計学の知識があるのとないのとでは、データの見え方が変わってくるからです!

ここからは、ウェブビジネスのアクセス解析で一度は感じるだろう疑問を、統計学なら答えを出すことができる!そんな事例をご紹介します。

統計学でわかるアクセス解析1 数字の変化で課題が見える?

統計学では「どういった分析手法を用いるのか」ということと同じくらいに、「どのようなデータを用いるのか」が大きな問題になります。
それは、用いるデータによっては信頼できる結果が出ないことがあるためです。

これは統計学だけでなく、ウェブビジネスのアクセス解析でも同じことが言えます。

例えばGoogleが提供しているアクセス解析ツール「Googleアナリティクス」は、さまざまな解析機能を無償で提供しており、現在最も有名で広く普及しています。
Googleアナリティクスの「ユーザー」メニューを開くと、サイトの訪問数(セッション数)からページビュー数、デバイスのタイプまであらゆる種類の情報を手に入れることが出来ます。さらに期間を指定して「比較」機能を使えば、サイト全体の指標の変化を知ることだって簡単にできます。

アクセス解析ツール

https://www.shutterstock.com/

しかしGoogleアナリティクスで指標の数字の変化を見るときは注意が必要です。
ただ出てきた数字を鵜呑みにするのではなく、まずはそれがどういったデータから得られた数字なのかをしっかり確認しなければいけません。

当然のことながら、サイトを訪れるユーザーが
「男性なのか女性なのか」
「20代なのか50代なのか」
「東京に住んでいるのかそうでないのか」
などなど、その属性によっても結果は左右されます。

ゆえに「東京在住の20代男性」と「地方在住の50代女性」のユーザータイプが全く別のものであることは、容易に想像できるでしょう。

こうした違いは「ユーザー全体」のデータを分析するだけではなかなか見えてこないもの。
そのため、セグメント化したデータ分析が必要となってくるのです!

「平均点」の持つコワ〜い罠

Googleアナリティクスのようなアクセス解析ツールの多くは、誤解を恐れず言えば、「平均点」をたくさん導き出すツールです。
ところがこの「平均点」を、そのまま鵜呑みにして分析を進めてしまうのは、実はとても危険なことなんです。

例えば、

「A君とB君ふたりとも50点のテストX」
「A君は80点でB君は20点のテストY」

このふたつのテストの平均点は同じ50点になります。
平均点だけをみれば、この2つのテストは同じぐらいの難易度だと思われますが……。
はたして本当にそう判断して良いのでしょうか?

平均点というのは、必ずしもそのデータを表すのに適した指標ではないこともあります。
データサイエンティストとして、その数字がどのようなデータから計算されたものなのか確かめる姿勢を持っておいたほうが良いでしょう。

統計学でわかるアクセス解析2 この2つの指標は本当に関係があるのだろうか?

Googleアナリティクスを使うとあらゆる指標の数字を手に入れることができます。
そして、その中からあらゆる“ありそうな”関係性を見つけることができるはずです。

たとえば、
「全デバイスに占めるスマートフォン比率が高くなるとサイトの訪問数(セッション数)も増加しているから、セッション数を増やすためにスマートファン専用のサイトも作ってみよう」
「新規ユーザー率が高い月はコンバージョン率も高くなっているから、新規ユーザー獲得のための施策を考えよう」
などなど。
これこそGoogleアナリティクスのような分析ツールの強み。さまざまな指標を見比べることで、改善につながる関係性を発見することができます。

ウェブ解析

https://www.shutterstock.com/

しかし「この推測が正しい」ということは、どうすれば証明できるでしょうか?
先ほどの例で言えば、スマートフォン専用のサイトを作ったことでサイトの訪問数(セッション数)は増加するかもしれませんが、その増加量は期待していたほど大きくはないかもしれません。ひょっとすると、全く影響がないかもしれませんよね。

そもそも、推論のやり方として
「指標Aと指標Bが同じように増加や減少をしているから、Aが原因でBが結果」と結論づけてしまうのは、ちょっと短絡的すぎるかもしれません。
もしかすると、ここにはない指標CがA,B両方に影響を与えているだけで、A,Bそれぞれに直接的な関係はない……なんて可能性も考えられますよね。
これを統計学の言葉で、「見せかけの相関」と呼びます。

もちろん、分析ツールを使って推論すること自体に問題があるわけではありません。
けれど、その関係が本当に正しいかどうか、正しいとすればどの程度の効果を期待できるのか、はっきりと予測できる方が良いでしょう。

そこで、このような推論に統計学の視点を用いてみましょう!

統計学の分析手法の一つに「t検定」というものがあります。
「t検定」とは、「回帰分析」で得られたパラメーターが有意なものかを判別する統計的手法のことです。って、急に難しくなってきたぞ……。もう少しだけ頑張ってみましょうね。

回帰分析

https://www.shutterstock.com/

先ほどの指標Aと指標Bの関係で考えます。
この2つの指標は相関的な関係にあるらしいと仮定しましょう。
ここで、指標Aが仮に1だけ増加した場合に指標Bがどれだけ増加するかを調べます。この関係式を求めることを統計学では「回帰分析」と呼びます。

でもこれって、どこかで聞いたことありませんか?

そうです!中学校で習った一次関数の求め方と同じ考え方です。
「回帰分析」と聞くと難しそうに感じると思いますが、中学校の数学と考えればできそうな気がしてきませんか?

この回帰分析で求めた関係式
y=ax+b
aが指標Aと指標Bの関係を表すパラメーターで、それぞれの指標が及ぼす影響の大きさを表しています。
また、yとxに指標A,Bそれぞれの数字を代入すると関係式が成り立ちます。

そしてここからは中学校の授業にない考え方になりますが、ここで求めたaの値というのは、あくまでもっともらしい値に過ぎません。
aの答えが1つに決まっていた中学数学とは違い、回帰分析では用いるデータによってaの値は変わってきてしまいます。
(これは前節で説明したことからもわかると思います。)

その際に困るのが、用いるデータによってaの値がプラスにもマイナスなってしまうときです。
指標Aと指標Bが相関関係にあるとき、指標Aに手を加えることで指標Bを改善しようとしても、場合によって逆効果になってしまうのでは対策することができなくなってしまいます。

そこで登場するのが「t検定」と呼ばれる統計的手法です。
「t検定」とは、簡単に説明すると「aがゼロになる可能性がどれだけ少ないか」をみるテストになります。

ここでは「t検定」の詳しい説明は割愛しますが、エクセルにも「TTEST関数」という関数があり、それを使うことで簡単に「t検定」を実行することができます。
結果の見方ですが、計算される確率(p値)がおよそ0.05や0.1より小さければ、2つの指標A,Bは関係があると判断することができます。
またGoogleアナリティクスには、データを自動的にエクセル形式で「エクスポート」する機能もついています。こうしたデータの加工にとても便利です。

念のため書いておくと、これは猛烈に大雑把な説明なので、「t検定」で全ての関係性を正確に判別できるわけではありませんが、大きな参考になるはずです。

「この2つの数字はそれぞれ関係があるのだろうか?」
そんな疑問を持ったときは一度試してみてはいかがでしょうか。

参考サイト:できるネット T.TEST関数/TTEST関数でt検定を行う

統計学でデータの見方が変わる!より良いウェブ解析を!

アクセス解析

https://www.shutterstock.com/

いかがでしょうか?
今回説明したのは、統計学の初歩的な部分であって、厳密には違う部分もありますが、統計学の知識があればデータ分析の視点が少し変わってくることがわかっていただけたのではないでしょうか。

大事なのは、数字をそのまま鵜呑みにしないことです。
正しいデータの関係性を見抜くために、統計学は間違いなく力になると思います。取っつきにくいイメージの統計学ですが、少しでも興味がある方やデータ分析に関わる方は、ぜひ統計学の基本的な考え方を身につけて、ウェブ解析に役立ててみてください!

           


satoriho
About The Author

satoriho

インターン生