2015年05月19日
今回はInterstenoのデータを使った統計の話です。
Interstenoのランキングの統計データでいろいろなデータを出したんですがあまり中身について扱わなかったのは大半のデータがまともに使えなかったからです。
一つ間違った統計の使用例を見てみましょう。
オランダ人のオランダ語参加者の平均点は5300点を超えているのでオランダ人は優れたタイピング能力を持っている。
前回の記事やデータを見てる人はわかると思いますがなんとオランダ人の参加者は1人です。一人強い人がいるだけで圧倒的なデータになってしまいますね。例えばこの人が失格になってたりするとオランダ人の平均は0点です。他にも参加者が少ない国もあるので母国語のデータのランキングとか母国語と外国語の比較とかはやりませんでした。統計情報を扱うにはある程度のサンプル数が必要です。
サンプル数が多くても偏った母集団だったりするとこれもまたダメです。一番極端な例はインターネット上でインターネット使用率の調査でしょうか。
今回のデータは言語別データを元に統計データを作ったのでかなりの情報が失われているような気がします。個人のデータを元に言語別の違いを見ていくとまた違う有益なデータが取れるかもしれませんね。
統計については正しい情報があるように見えて簡単に騙せたりするのでそういうことについてダマされないように統計の本とか読んでおくといいと思います。
Interstenoのランキングの統計データでいろいろなデータを出したんですがあまり中身について扱わなかったのは大半のデータがまともに使えなかったからです。
一つ間違った統計の使用例を見てみましょう。
オランダ人のオランダ語参加者の平均点は5300点を超えているのでオランダ人は優れたタイピング能力を持っている。
前回の記事やデータを見てる人はわかると思いますがなんとオランダ人の参加者は1人です。一人強い人がいるだけで圧倒的なデータになってしまいますね。例えばこの人が失格になってたりするとオランダ人の平均は0点です。他にも参加者が少ない国もあるので母国語のデータのランキングとか母国語と外国語の比較とかはやりませんでした。統計情報を扱うにはある程度のサンプル数が必要です。
サンプル数が多くても偏った母集団だったりするとこれもまたダメです。一番極端な例はインターネット上でインターネット使用率の調査でしょうか。
今回のデータは言語別データを元に統計データを作ったのでかなりの情報が失われているような気がします。個人のデータを元に言語別の違いを見ていくとまた違う有益なデータが取れるかもしれませんね。
統計については正しい情報があるように見えて簡単に騙せたりするのでそういうことについてダマされないように統計の本とか読んでおくといいと思います。
(00:41)