交通事故による死亡する人が愛知県がトップです。
私が自動車学校を卒業するときも、交通事故を起こさないように作文を書かされました。
なんで、交通事故が多いのか、県別のデータがいろいろあったので調査してみました。
まず、データを集めます。
事故に関係がありそうなデータに狙いを決めて集めます。
重要なのは県別、最新データであるということです。
中々県別というのは見つかりませんが探しましょう。
人口、車の台数、道路の総延長、面積、高齢者の人数など集められました。
電車の運賃が高い※と、車乗る人が多いと思ったのですが、電車の運賃に関するデータはありませんでした。
※名古屋は地下鉄の初乗りが200円と高い
とりあえず集めたデータは、次元が異なる(人数と面積を比べられない)ので標準化が必要です。
標準化とは分散が1、平均を0にすることです。
サンプル(PDF)
次に、正規化したデータを使用して、死亡順のに降順ソートします。
降順ソート(PDF)
これをみることで、交通事故死亡者数が多い県は、どの項目が大きくなっているか分かります。
より正確に、関係性を調べるため正規化したデータから共分散行列を作成します。
相関係数を作ることで、より統計学的に調べられます。
相関行列(PDF)
これを見ると、相関係数が0.94と最も高いのが乗用車数の数ということが分かります。
つまりこのデータからは、乗用車数が多い県=交通事故の死亡者数が多いと言えます。
改めて、死亡者数の降順ソートを見ると、たしかに乗用車数が関係があることが分かると思います。
ただ、福岡県は乗用車数が少ないのに比べて事故が多いようです。
他の原因があると思います。恐らく人口が多いのが2番目の原因だからでしょう。
もっとたくさんの県別のデータがあればより色々とわかると思います。
重回帰分析を行う場合は、それぞれのデータ同士の相関が大きいため、正確な情報を引き出せないと思います。
一度、主成分分析で調査しKL変換で次元数を減らしたうえで調べる必要があります。
また、実際は相関係数などを調べた場合、その値が妥当かどうか調べる必要があります。
例えば、サンプルの数が少なければ、正当性が小さくなります。
調べた値にあった統計手法を利用して、検定をしましょう。
今回使用したデータを他の人でも調べられるように公開することも必要です。
調査にしたデータ(XLSX)
乗用車を持っている人が多いのは、土地が広いのと
市街は電車が発達してないのが原因だと思います。
愛知県が交通事故数のトップではなくなる方法は、愛知県内の車の所用率を下げることですが、
・土地が広いので小さくし、電車でどこにでもいけるようにする
・工業都市をやめて娯楽産業を増やし、電車でいける範囲に楽しめる町をふやす
……というのは、現実的ではないので
てっとりばやく考えるなら
「そもそも車の所用率を考慮するようなランキングを考える」
でしょう。
コメント