統計やデータを使って分析をする時に注意するべきことがあります。
それはそのデータが正しく抽出されているか、つまり
分析するにあたって適切な情報が抽出されて以下を確認する必要があります。
生存者バイアスについて解説しつつ、どのように確認するべきかをまとめます。
生存者バイアスとは
Wikipediaには以下のように書かれています。
何らかの選択過程を通過できた人・物・事にのみを基準として判断を行い、
通過できなかった人・物・事は見えなくなるため、それを見逃してしまうこと
具体的に例を見てみましょう。
分析:(第2次世界大戦中)戦闘機の補強ポイントを検討する
手元にあるデータ:戦闘機が攻撃を受けた箇所の統計データ
この情報をみたら、
攻撃を受けた箇所を補強すればいいのではないか?と思ってしまいますが
これこそが生存者バイアスです。
手元にあるデータの対象は無事に帰還した戦闘機です。
補強ポイントを検討するなら、本当は帰還できなかった戦闘機を分析するべきですね。
帰還できなかった戦闘機を分析するのは難しいので、今回のケースは
無事に帰還した戦闘機が攻撃を受けた箇所は問題がないと考えて
攻撃を受けていない箇所を補強することになったそうです。
どうやって生存者バイアスを見抜くか?
ではどのようにしたら生存者バイアスを見抜けるのか、その方法を2種類ご紹介します。
①手元にある情報から考える
1.手元にある情報を言葉で対象を具体的に定義する
2.「1.」以外の情報は確認する必要がないか?チェックする
今回の例で解説すると、手元にある情報は戦闘機が攻撃を受けた箇所の統計データです。
それを具体化すると「帰還した戦闘機が攻撃を受けた箇所の統計データ」になります。
それ以外、つまり帰還していない戦闘機のデータは必要か?をチェックします。
②分析したいことから考える
1.分析したいことは何か?
2.分析に必要なデータは何か定義する
今回の例で解説すると分析したいことは、戦闘機の補強ポイントをどこにするべきか?です。
分析に必要なデータが何か?を考えると墜落した戦闘機の攻撃被弾のデータになります。
抽出した情報は生存バイアスがかかっている可能性があるので、
統計やデータの抽出条件を確認するようにしましょう。