【前編】西内 啓
統計学はなぜ「最強」? 批判的思考が育てるリテラシー
エビデンスベースドが社会を変える
2024.12.12
「マックで女子高生がこう言ってた」——SNSでおなじみのこの構文。つい読んでしまうという人も多いのではないでしょうか。エピソードやナラティブ(物語)が興味を惹きつける力を持ち、フェイクニュースが拡散される現代。だからこそ、エビデンスベースドの重要性が増しています。
そんななか、統計リテラシーを高めたいという声が個人や企業からよく聞かれます。しかし一方で「データをうまく活用できない」「数字より一人ひとりの感覚が重要では?」といった意見も。
内閣府のEBPM(証拠に基づく政策立案)アドバイザリーボードの委員を務め、著書『統計学が最強の学問である』がシリーズ累計53万部を突破した統計家・西内啓さんに伺います。統計学はなぜ「最強」なのでしょうか。
( POINT! )
- 統計には最強力検定という概念がある
- データ活用で変わる生産性は約5%
- うまくいっているものといないものの違いを分析する
- データが少ない場合は先行研究を参考に
- 数学と統計リテラシーは別
- 統計リテラシーの育成にはジャーナルクラブが有効
- あらゆるものがエビデンスベースドで決まっていく
西内 啓
1981年生まれ。東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、2010年より企業と行政のデータ活用プロジェクト支援に多数従事した後、2024年11月に株式会社ソウジョウデータを創業。著書に累計53万部を突破した『統計学が最強の学問である』シリーズ(ダイヤモンド社)のほか、『1億人のための統計解析』(日経BP社)、『統計学が日本を救う』(中公新書ラクレ)などがある。『マンガ 統計学が最強の学問である』(漫画:うめ/ダイヤモンド社)は2025年4月発売予定。
統計学はなぜ「最強」?
『統計学が最強の学問である』シリーズは、最初の本が2013年に発売されて今も広く読まれています。当時、統計ブームは起きていたのでしょうか。
西内
いえ、ありがたいことにこの本の後起きた感じですね。司書の姉にも「発売後に書店の棚組みが変わった」と言われました。それまでは経済学と工学のなかに少しあるくらいだったのに、「統計学」という棚ができたと(笑)。
「エビデンスで殴る」といった表現が広まってきた頃でもあり、企業のデータ分析などをしない人たちにも届くようなインパクトがありました。「最強」という言葉はどうやって決まったんですか?
西内
Web連載をはじめる前のブレストで、編集の横田さんが「統計学って学生時代に一応習ったけど何に使うのかよくわからないと思っていて、話を聞いたらパワフルで驚いた」と言っていたんです。その後横田さんから「最強」というアイデアが出てきて、すんなり決まりました。
学問の本って様々ありますが、強弱という視点の本はあまりないかなと。そして、統計学にあって他の学問にない概念で、「最強力検定」という表現があるんですよ。英語だと「most powerful test」で、ざっくり言うと仮説が正しい時に、それを見落とさない確率が最大化されている状態のことを「最強力」というふうに言うんです。
「最強力」、面白いですね。企業であれば利益を上げる目的にもっとも強い施策を取りたいと思いますが、大企業でなくても統計は力を発揮するんでしょうか。
西内
データを使って意思決定をする会社かどうかでどれくらい生産性が変わるのかという研究があります。それによると平均値は5%ぐらいです。
5%?
西内
生産性が5%ぐらい上がるということです。同じようなIT投資をしていても、データを活用する会社とそうでない会社がありますよね。その生産性を比べると、データを活用したほうが約5%高くなるといわれていて、それは我々の肌感覚にも合っています。事業の売上高が100億円だったとして、人や物の追加投資をせずにデータの力だけで「売上高を200億円に」と言われたら流石に「無理です」と。でも、100億円の売上高を105億円に伸ばすとか100億円のコストを95億円まで削減するのは「いけるかな?」という感覚なんです。
統計リテラシーには批判的思考が必要
なるほど。売上があっても統計家が力を発揮できない場合もありますか?
西内
同じような商品の商談が数千件あるような場合、うまくいっている商談とそうでない商談の違いを分析することは可能です。でも、スタートアップのプロダクトで今までの勝ちパターンじゃないものを作ることが必要だったり、1個のビジネス規模が大きくて年間受注目標が1〜2プロジェクトだったりすると難しいですね。
たった1人と交渉できれば成功みたいなビジネスもありますよね。
西内
それはだいぶ定性的でナラティブな世界になると思います。
小規模な組織でもデータをいかすことはできますか?
西内
その場合は、自前でデータを分析するより先行研究を見るほうが大事ですね。経営上すべきことやすべきではないことといったテーマは多くの人が研究しています。Google Scholar(グーグルスカラー)では論文が検索できるし、ChatGPTなどのLLM(大規模言語モデル)で文献を要約してもらうこともできます。
今自分が困っている意思決定について一般的にはどういわれているのかなとか、研究されているなかで再現性がありそうなものを取り入れていくのがいいと思います。
そもそも、統計的リテラシーを身につけるにあたって数学の知識が必要なのかなという疑問があります。
西内
そこは基本的には別ものと考えていいと思います。自分で分析できなくても、分析結果を批判的に吟味することはできます。たとえばEBM(*1根拠に基づく医療)は臨床にかかわる様々な人に共有される言葉ですが、必ずしもその全員が高度な数学の知識を持っているわけではありません。
では、その方々がどうやって統計リテラシーを学んでいるのかというと、そこにはジャーナルクラブのような存在があります。たとえば内科の先生だったら内科の臨床研究の論文を分担して読んで発表するんです。その際語られるものは数学的な手法ではなく、背景であったりデータの取り方や解釈が正しいかどうかについての疑問提起であったり。アウトプットして議論するということをやっているんですね。数式とは関係のない活動ですが、背景や文脈を踏まえてデータ分析結果を批判的に読み取れる統計リテラシーの育成にはとても大事です。
むしろ、数学だけが得意で批判的思考が足りていない人はデータ分析者として結果を出しにくいことがありますね。従来こうだとされているものに対して疑問を持って調査なり実験なりを設計することが大切ですが、いわゆる人に言われてやるお勉強だけが得意な状態だと、データから新しい改善方法などが出てきにくいんです。
統計学が社会を変えていく
数字を出せるだけではなくて、そこから読み取る力が重要ということですね。西内さんが『統計学が最強の学問である』を書いた当時は「ビッグデータ」という言葉の流行が先行し、実際のデータやそのための投資があまり活用されていなかったそうですが、その状況は変わりましたか?
西内
変わってきていると思います。元々、Googleが検索エンジンとしてたくさんのWebページを集めてページランクというものを計算していました。仮に世界に100万件のWebページがあるとしたら、キーワードに対して表示するページを決めるために100万行×100万列の行列計算が必要です。普通のパソコンでは計算できないんですが、MapReduceという分散処理アルゴリズムが開発されたことで可能になりました。
それを使うと膨大なデータも扱えるので各社導入したものの、アウトプットは小学生でも描ける円グラフということもよくありました。その後ビッグデータ処理自体が当たり前になって分析や機械学習技術についての知見も普及し、データをビジネス的課題解決に結び付けることにみなの関心が移ってきたと思います。
大きなデータが扱えるようになったと同時に統計がいかされるようになった背景には、エビデンスを重視する考えが広まったこともありますよね。
西内
医療は元々そうですが、エビデンスベースドの考え方をあらゆるところで聞くようになりました。内閣府のEBPM(*2)アドバイザリーボードの委員を拝命していますが、その考え方はこれまでのように経験やカン、声の大きい人に引きずられるだけではない政策の立案や検証を行うというもの。それが効率の良いワイズスペンディング(*3)かどうかデータで説明できるようにするもので、まさにエビデンスベースドですね。
今、教育や防衛や少子化対策など、ありとあらゆるものがエビデンスベースドで決まっていきます。それは統計学が最強であることの裏付けなのかなと感じています。
- ※1:
- Evidence-Based Medicine
- ※2:
- Evidence-Based Policy Making
- ※3:
- 賢い支出
ベストセラー『統計学が最強の学問である』の著者、西内さんに統計学が最強な理由を伺った前編はここまで。後編では統計的思考と、西内さんが統計家を志した経緯についても伺っていきます。お楽しみに。
[取材・文]樋口 かおる [撮影]小原 聡太