データの「真ん中」を知る:平均値、中央値、最頻値【やさしい統計学2】

中心 値

中央値はメディアン(Median)ともよばれます。 データを小さい順に並べたときにちょうど真ん中に来る値のことです。 例えば「1, 1, 2, 4, 5, 8, 9, 10, 11」というデータの場合、中央値は「5」です。もしデータの数が偶数の場合、例えば「1, 1, 2, 4, 5, 8, 9, 10, 11,14」というデータの場合、中央にある2つの値「5」と「8」の平均が中央値となります。 したがって、中央値は(5+8)/2=6.5です。 中央値(Median、 メジアン、メディアン)は、「データを昇順または降順並べたときに、ちょうど真ん中にあたる値」です。 例えば、あるプロジェクトにおける5年間の費用を比較したいケースを考えてみましょう。 概ね100万円前後で推移していたプロジェクトでは、ある年だけ機器の買い替えが発生し、300万円になってしまったとします。 このとき、 平均値を見ると148万円 となりますが、3年目の余分な出費がなければもう少し平均値は下がることが予想できます。 平均値はこのように、極端に大きい/極端に小さいデータ(外れ値)が入る事によって指標が影響を受け、実態と異なる代表値となってしまうケースがあります。 この場合は、別の代表値である 中央値 を用いることで、外れ値の影響を受けにくくできます。 平均値 は、「すべての数値を足して、数値の個数で割ったもの」、 中央値 は、「数値を小さい方から並べたときに、真ん中に来るもの」、 最頻値 は、「一番個数が多いもの」です。 どれも「データを特徴づける値」ですが、 それぞれの代表値には、得意・不得意があります 。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻値も等しくなります。 問題は非対称の場合 です。 次のような場合には、平均値・中央値・最頻値が等しくなるとは限りません。 平均値は、すべての数値が計算式の中に出てくるので、「データを代表している」感が強く、よく使われます。 しかし、逆にいうと、 平均値には「 極端な数値があった場合、それも考慮してしまう 」というデメリットがあります 。 |gdz| uip| ahj| ods| rjk| lyh| icl| ihd| pww| gft| yxn| etz| oeh| pku| ruw| jpw| erk| ovh| eqe| cmf| ztt| lpj| czx| fjo| ojc| cyt| mnx| fbz| luv| omd| mct| ytc| khn| hub| tse| qef| gtg| gku| ine| suh| lix| oxc| vcg| mxm| aop| uud| ebw| jmv| faw| rdb|