[https://yeomko.tistory.com/37]

우리는 지금까지 데이터를 특정한 확률 분포를 가진 확률 변수로 모형화 하였습니다. 그리고 모집단의 표본에서 얻은 통계량을 통해 모집단의 통계적 특성을 추측해보았습니다. 이러한 과정을 논리적으로 전개하기 위해서 필요한 것이 가설과 검정입니다.

 

가설(hypothesis)란 확률 분포에 대한 어떠한 주장이며 이를 증명하는 행위를 검정(testing)이라 합니다. 특히 확률 분포의 모수 값에 대한 가설을 검정하는 것을 모수 검정(parameter testing)이라 부릅니다.

귀무 가설과 대립가설

귀무가설, 영가설이라고도 불리며 영어로는 null hypothesis. 이슈가 제시하는 가설을 그대로 따른다는 의미다. 예를 들어, 어떤 기사에서 성인 남성 평균 수명시간이 8시간이라고 했다. 그러나 연구자는 성인남성은 8시간보다 적게 것이라는 가설을 갖고 있다. 이때 영가설은 "성인 남성 수면시간은 8시간이다"이고, 귀무가설은 8시간미만 혹은 8시간 초과가 있다.. 기본적으로 참으로 추정되며 이를 거부하기 위해서는 증거가 반드시 필요합니다. 예를들어 형사가 용의자를 잡았을 경우에도 무죄 추정의 원칙에 따라서 '이 용의자는 무죄일 것이다' 라는 가설을 먼저 세우게 됩니다.[1] 귀무 가설을 세울 때에는 특별한 증거가 없다면 참으로 여겨지는 가설을 귀무 가설로 세우게 됩니다.

 

대립 가설(alternative hypothesis)는 귀무 가설과 대립되는 가설을 말합니다. 위 예시를 대입해보면 '이 용의자가 범인일 것이다!'가 됩니다. 일반적으로 연구자는 연구를 통해 귀무 가설을 검증하게 되고, 이를 통해서 대립 가설이 입증되기를 기대합니다. 즉, 용의자가 무죄일 것이다를 전제로 하고 이를 깨기 위해 열심히 증거를 찾게 되는 것입니다.

 

귀무 가설과 대립 가설을 기호로 표현하면 아래와 같습니다.

가설 설정의 규칙

통계적 가설을 세울 때에는 다음의 규칙을 따라야 합니다.[3]

1. 귀무 가설은 모수를 특정한 값으로 표현한다. H0:θ=θ0

2. 대립 가설은 귀무 가설에서 지적한 모수의 값이 아닌 어떤 영역으로 나타내는데, 양쪽을 다 고려하는 양측 검정과 한쪽만 고려하는 단측 검정이 있다.

검정과 검정 오류

가설은 맞다, 틀리다로 이분법적으로 답을 내릴 수 있는 문제가 아닌 정도의 문제입니다. 귀무 가설이 틀릴 확률이 얼마이므로 이를 기각한다 / 기각하지 못한다와 같은 형태로 표현할 수 있습니다. 이렇듯 우리는 가설이 틀릴 가능성에 초점을 맞추고 검정을 진행하게 되는데 이 때, 가설이 틀릴 가능성에 대해서 제 1종 오류와 제 2종 오류로 구분합니다.

 

제 1종 오류(type 1 error)란 귀무 가설이 맞는데도 이를 잘못 기각하여 발생하는 오류입니다.  용의자가 무죄가 맞지만 잘못하여 유죄 판결을 내리는 것과 같습니다. 제 2종 오류(type 2 error)란 대립 가설이 사실임에도 불구하고 귀무가설을 기각하지 못하는 오류를 말합니다. 용의자가 범인이 맞지만 무죄가 아니라는 것을 입증해내지 못하는 것을 말합니다.

 

제 1종 오류가 발생할 확률을 α라고 표기하고 검정의 유의수준(significance level)이라 합니다. 반대로 제 2종 오류가 발생할 확률을 β라고 표기합니다.  대립 가설이 사실일 때 귀무 가설을 기각할 확률 (1- β)를 검정력이라고 표현합니다. 표로 나타내면 아래와 같습니다.

가설의 검정에서는 이 두 가지 오류인 α, β를 최소로 하는 임계값 c를 결정하고 기각역을 설정하는 것이 중요합니다. 하지만 임계값을 높게 설정하면 β가 커지고, 그렇다고 낮게 설정하면 α가 커지는 모순 관계에 놓여 있습니다. 그렇기 때문에 α를 고정시키고, 이를 만족 시키는 기각역 중에 β를 최소화하는 기각역을 선택하게 되고, 그렇기 때문에 1- β를 검정력이라고 부르는 것입니다. 고정시키는 α 값은 학문 분야에 따라서 다른데 사회과학 분야는 보통 0.05, 자연 과학 분야는 0.01이라는 가이드라인을 제시한다고 합니다.

출처: 정보통신용어해설 

이제  귀무 가설을 기각하여 일만 남았으며, 우리는 두 가지 방법을 사용할 수 있습니다.

· p-value 사용하기

· 기각역(rejection area) 사용하기

 

개념만 말로 설명하기엔 다소 까다로울 수 있으므로 예제를 하나 풀어보면서 진행하도록 하겠습니다. 

https://www.youtube.com/watch?v=Xt3rX_WVbH0

이때 h자동차가 주장하는 "하이브리드 차량 평균 연비는 16.5km다"가 귀무가설이 됩니다. "오케이 니네가 주장하는대로 일단 믿어볼게" 라는게 귀무가설입니다. 근데 연구자들은 아무리봐도 16.5km보다 적을 것 같습니다. 따라서 대립가설은 16.5km/L보다 적다라는 대립가설을 세웁니다.

 

이 하이브리드 자동차의 연비는 정규분포를 따른다고 가정하면, Z분포를 통한 검정을 수행할 수 있습니다. 표본 10개를 샘플링해서 조사해봤더니 연비가 15km/L밖에 안나옵니다. 이 15km/L를 z분포로 변경하면 아래와 같습니다. 

 

15km/L는 Z분포로 환산하면 -3.16이 나오고 이 확률은 0.0008입니다.

 

https://www.youtube.com/watch?v=Xt3rX_WVbH0

이때 유의수준 0.05를 Z분포의 단측검증으로 바꿔보면 -1.645가 나오고 이를 기존 정규분포로 환산하면 15.72km/L가 나옵니다. 유의수준이란 "너네가 평균 연비 16.5km/L라고 주장했는데, 그거 맞다고 가정하고 샘플링 조사를 좀 해볼게. 그런데 샘플링을 전부하는건 아니니까 샘플링 오류를 생각해서 임계치를  Z분포의 하위 5%라고 가정하면, 아무리 못해도 15.72km는 나와야 그나마 좀 믿을만하다? 그 이하는 나가리야?!" 라고 주장하는 것입니다. 유의수준이란 용서해줄 수 있는 임계치라는 뜻입니다. 

 

그런데 위의 샘플링에선 15km/L밖에 나오지 않았으니, 용서해줄 수 있는 수준 = 임계치 = 유의수준 15.72km/L보다 훨씬더 적은 숫자가 나왔습니다. 즉, P-Value가 유의수준 α보다 적으면 귀무가설을 기각하게 됩니다.

32-4. 自己相関


次のグラフは、新宿御苑における2015年8/1~8/3まで3日間の毎時気温データを表したものです。

このグラフを見ると、同じような形が3回繰り返されていることが分かります。1日のうち昼は気温が高くなり夜は気温が下がるので、気温の変化の傾向は似通っており、ある程度の周期性が見て取れます。

ここで、「元のデータ」と「元のデータから時間をずらしたデータ(例:12時間右にずらすと右に12ほど並行移動)」との相関係数を計算します。そして、元データからずらした量(ラグ)を横軸にとり、計算した相関係数を縦軸に取ると、次のようなグラフができます。

元データと時間をずらしたデータとの相関のことを「自己相関」と言います。また、ラグと自己相関を表したグラフを「コレログラム」と言います。コレログラムを見ると、データが周期性をもつかどうかを調べることができます。

このグラフの自己相関係は、コサインカーブが減衰していくような規則正しい形を描いています。データが「24」、「48」ずれたところで自己相関が極端に高くなっており、「12」、「36」で自己相関が極端に低くなっています。したがって、このデータは「24」の周期をもっており、似たような形を繰り返していることが推測できます。


フィッシャーの3原則


実験を行う際には実験計画を立てる必要があります。実験計画とは、よい結果を得るために最も効果的な実験を計画し、その実験で得られたデータに対して最適な解析手法を採択する手順のことです。実験計画を立てずに闇雲に実験を行ってしまうと、お金や時間や労力がかかってしまうだけではなく、信頼できる結果が得られない可能性があります。

そのため、R.A. Fisherがこの実験計画法に関して3つの原則を確立しました。この原則は次の3つから成ります。

  • 反復(replication)
  • 無作為化(randomization)
  • 局所管理(local control)

■反復

複数の処理を比較する際に、それぞれの処理に対して同じ条件で2回以上の繰り返し実験(評価)を行うことです。1回の測定では、測定値に違いがあっても「系統誤差(処理の違いによる差)」なのか、それとも「偶然誤差(たまたま生じる誤差)」なのかは判断できません。反復実験を行って偶然誤差のばらつきが分かれば真の平均のとりうる範囲を推測でき、この範囲よりも系統誤差が大きければ処理によって違いがあるという判断ができます。つまり反復によって、偶然誤差の大きさを評価することができるわけです。

例えば比較したい処理がA、B、Cの3つあり、1日に6回の実験ができる場合、「反復」は次に示すように3日間で各処理を6回ずつ行うことを指します。

1日目2日目3日目
処理AAAAAABBBBBBCCCCCC

■無作為化

実験の順序や場所などが複数ある場合に、比較したい処理群を無作為に(ランダムに)割り付けることです。目的とする要因以外に結果に影響を与える要因がある場合に、無作為化によってその影響の偏りをできるだけ小さくすることができます。つまり、系統誤差を偶然誤差に取り込むことができるわけです。

上で挙げた反復実験に「無作為化」を加えた実験デザインは次のようになります。「無作為化」はA、B、Cの処理を行う順番をランダムに割り付けることを指します。

1日目2日目3日目
処理ACCBAACBABBCBABCCA

■局所管理

実験を行う時間や場所を区切ってブロックを作り、そのブロック内でのバックグラウンドができるだけ均一になるように管理することです。局所管理により系統誤差を小さくすることができます。

上で挙げた反復実験+無作為化割り付けに「局所管理」を加えた実験デザインは次のようになります。「局所管理」は実験を行う時間を午前と午後の2つのブロックに分けることを指します。

1日目2日目3日目
処理(午前)ACCCBABAB
処理(午後)BAABBCCCA

■乱塊法

フィッシャーの3原則である「反復」と「無作為化」に加えて「局所管理」も盛り込んだ実験デザインを「乱塊法」といいます。乱塊法とは、実験計画において実験全体を無作為化するのではなく、局所管理の考えに基づくブロック内に1セットの実験を集めて無作為化を行う方法のことです。

これまで挙げたA、B、Cの3つの実験を乱塊法によって割り付けすると次のようになります。

1日目2日目3日目
処理(午前)ACBCBACAB
処理(午後)BACBACCBA


標本の抽出方法


単純無作為抽出法標本調査の最も基本的な方法ですが、母集団から完全に無作為に調査対象を取り出すのは、非常に手間と時間がかかる場合があります。そこで、母集団の特徴を反映させつつより手間を軽減させた様々な無作為抽出法があります。

層化抽出法(層別抽出法)

母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法

【例】男女比が7:3の高校で、10人の学生を対象に意識調査を行う場合、男子の中から7名を、女子の中から3名をそれぞれに無作為に抽出する(このように、層の大きさに比例させて調査対象を抽出する方法を層化抽出法の中でも特に「比例配分法」といいます)

図1

【メリット】母集団内情報(年齢別、性別など)の比較を行える、母集団の推測の精度が増す、各層において分布が大きく異なる場合に使うことができる

【デメリット】母集団の構成情報を事前に知っておく必要がある

クラスター抽出法(集落抽出法)

次の1~3によって調査対象を抽出する方法

  1. 母集団を、小集団である「クラスター(集落)」に分ける
  2. 分けられたクラスターの中から、いくつかのクラスターを無作為抽出する
  3. それぞれのクラスターにおいて全数調査を行う

【例】高校生の平均身長を調査する際に、高校を1つのクラスターと考え、全国の高校の中からランダムに10校を選び、その10校に通う高校生全員の身長を測定する

図2

【メリット】クラスターの情報(例えば高校名など)さえあれば抽出することができるので、時間や手間を節約できる

【デメリット】同じクラスターに属する調査対象は似た性質を持ちやすいため、標本に偏りが生じる可能性がある(例えば、高校を10校選ぶときに女子校が選ばれた場合、標本から推測される平均身長が低くなってしまう可能性がある)

多段抽出法

母集団をいくつかのグループに分け、そこから無作為抽出でいくつかグループを選び、さらにその中から無作為抽出でいくつかのグループを選び・・・という操作を繰り返して、最終的に選ばれたグループの中から調査対象を無作為抽出する方法

【例】

  • 第1段:全国から30市区町村を無作為抽出
  • 第2段:抽出された30市区町村の中からそれぞれ5地区を無作為抽出
  • 第3段:抽出された5地区の中からそれぞれ20人を無作為抽出

図3

【メリット】コストを低く抑えられる、抽出効率が高い

【デメリット】サンプルサイズが小さい場合、標本に偏りが生じる可能性がある

系統抽出法

通し番号をつけた名簿を作成し、1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法

【例】1,000人から50人を選ぶときに、はじめに1,000人に通し番号を付け、ランダムに選ばれた番号から3人おきに(3番おきに)人を抽出していく

図4

【メリット】単純無作為抽出より手間や時間やコストが掛からない

【デメリット】名簿の並び順に何らかの周期があると標本に偏りが生じる可能性がある

■おすすめ書籍

標本調査についてもっと深く勉強したい方向けです。


2-4. ローレンツ曲線


各都道府県内にある映画館のスクリーン数のデータから下のような度数分布表を作成したところ、スクリーン数の合計が0以上100未満の都道府県は全体の約80%を占めていることが分かりました。つまり、残りの20%の都道府県には100以上のスクリーンがあり、どうやら都道府県ごとのスクリーン数の分布は「偏っている」ように思えます。

階級階級値度数相対度数累積相対度数
0以上50未満25240.51060.5106
50以上100未満75140.29790.8085
合計471.0000

この「偏り=不均等さ」を表すための曲線を「ローレンツ曲線」といいます。ローレンツ曲線を作るためには2つの累積相対度数が必要です。1つ目は各階級の度数の累積相対度数です。これは2-1章で求めた、次の度数分布表の網掛け内の値になります。

階級階級値度数相対度数累積相対度数
0以上50未満25240.51060.5106
50以上100未満75140.29790.8085
100以上150未満12520.04260.8511
150以上200未満17520.04260.8936
200以上250未満22530.06380.9574
250以上300未満27510.02130.9787
300以上350未満32500.00000.9787
350以上400未満37510.02131.0000
合計471.0000

2つ目は、各階級に属する値の合計の累積相対度数です。例えば、階級「50以上100未満」のスクリーン数の累積相対度数は、以下の手順で求められます。

  1. 47都道府県すべてがもつスクリーン数の合計:3437
  2. 「0以上50未満」の階級に属する24の都道府県内にあるスクリーン数の合計:646
  3. 「0以上50未満」の階級に属する24の都道府県内にあるスクリーン数の相対度数:646\div 3437=0.1880
  4. 「50以上100未満」の階級に属する14の都道府県内にあるスクリーン数の合計:918
  5. 「50以上100未満」の階級に属する14の都道府県内にあるスクリーン数の相対度数:918\div 3437=0.2670

したがって、スクリーン数の合計が「50以上100未満」の階級のスクリーン数の累積相対度数は0.1880+0.2670=0.4550となります。このようにして作成した度数分布表が次の表です。

階級度数各階級の度数の
累積相対度数
各階級の
スクリーン数合計
スクリーン数の
相対度数
スクリーン数の
累積相対度数
0以上50未満240.5106(2) 646(3) 0.18800.1880
50以上100未満140.8085(4) 918(5) 0.26700.4550
100以上150未満20.85112390.06950.5246
150以上200未満20.89363770.10970.6343
200以上250未満30.95746410.18650.8208
250以上300未満10.97872580.07510.8958
300以上350未満00.978700.00000.8958
350以上400未満11.00003580.10421.0000
合計47(1) 34371.0000

この度数分布表の「各階級の度数の累積相対度数」を横軸に、「スクリーン数の累積相対度数」を縦軸にとった折れ線グラフが都道府県ごとのスクリーン数のローレンツ曲線です。グラフ中の「完全平等線」については次の2-5章で説明します。

ローレンツ曲線1

■おすすめ書籍

コア・テキスト統計学は経済学をベースに書かれている統計入門書なので、ローレンツ曲線やジニ係数、経済指標についての説明が比較的充実しています。




ジニ係数


2つの累積相対度数を用いて描かれたローレンツ曲線を使うと、「偏り=不均等さ」を確認できます。

例えば、次の各都道府県内にある映画館のスクリーン数のデータから作成したローレンツ曲線の赤い矢印をたどると、約80%の都道府県内で全国のすべてのスクリーン数の40%強があるということが分かります。逆に、残りの約20%の都道府県内には60%弱ものスクリーン数があるということなので、スクリーンの分布は不均等であることが分かります。

ジニ係数1

この「偏り」や「不均等さ」を数値で表したものが「ジニ係数」です。ジニ係数は完全平等線((0,0)と(1,1)を結ぶ線:図中の黒破線)とローレンツ曲線との間の面積(次の図の橙色部分)を2倍した値になります。ジニ係数は0から1までの値をとり、1に近いほど偏りが大きく、0に近いほど偏りが小さいことを表します。

ジニ係数2

■ジニ係数が0の場合

不均等さが全くない場合、ローレンツ曲線は次の図のように完全平等線と一致するためジニ係数は「0」となります。ジニ係数が0というのは、ここでは各都道府県内にあるスクリーン数が全て同じ場合、すなわち「20%の都道府県内に全国の総スクリーン数の20%があり、40%の都道府県内に全国の総スクリーン数の40%があり…」という状態を指します。

ジニ係数3

■ジニ係数が1の場合

一方、例えば東京都に日本の全ての映画館(スクリーン)があり、他の道府県に映画館(スクリーン)が全くない場合、ローレンツ曲線は次のようになります。このときジニ係数は最大値の「1」となります。

ジニ係数3

【コラム】ローレンツ曲線は下側凸か上側凸か

ローレンツ曲線を描くとき、一般的に階級を小さい順(昇順)に並べた場合の2つの累積相対度数を用います。そのため、よく目にするローレンツ曲線は完全平等線に対して下側に凸となっています。

一方、スクリーン数の集中度を見たい場合には、下の表のように階級を大きい順に並べたものを用いることがあります。

階級度数各階級の度数の
累積相対度数
各階級の
スクリーン数合計
スクリーン数の
相対度数
スクリーン数の
累積相対度数
350以上400未満10.02133580.10420.1042
300以上350未満00.021300.00000.1042
250以上300未満10.04262580.07510.1793
200以上250未満30.10646410.18650.3658
150以上200未満20.14903770.10970.4755
100以上150未満20.19162390.06950.5450
50以上100未満140.48959180.26700.8120
0以上50未満241.00006460.18801.0000
合計4734371.0000

この場合のローレンツ曲線は、次に示すように完全平等線に対して上側に凸となります。このローレンツ曲線を見ると、約20%の都道府県内に60%弱ものスクリーン数があることが読み取れます。

ジニ係数5

■おすすめ書籍

コア・テキスト統計学は経済学をベースに書かれている統計入門書なので、ローレンツ曲線やジニ係数、経済指標についての説明が比較的充実しています。


26-4. 偏相関係数


次のデータは2015年12月末時点の各都道府県内にある映画館のスクリーンの合計数と可住地面積100km^{2}当たりの薬局数を表したものです。このデータを用いて相関係数を算出すると、「0.82」でした。つまり、映画館のスクリーン数と薬局の数には強い相関があるという結果でした。

図1

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

しかし、一般的に考えて都道府県ごとの映画館のスクリーン数と可住地面積100km^{2}当たりの薬局の数は直接的に関係がないような気がします。映画館のスクリーン数が多いから薬局の出店数が増えるわけでも、薬局の数が多いから映画館のスクリーン数が増えるわけでもないためです。このような場合には、「第3の因子」の存在を考慮する必要があります。

図2

上のデータに各都道府県の人口密度のデータを加えてみます。

図3

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

人口密度と映画館のスクリーン数、及び人口密度と薬局の数の相関係数はそれぞれ「0.85」と「0.98」でした。つまり、人口密度がスクリーン数と薬局の数それぞれと強い相関を持っているため、これらの影響を除いた上で映画館のスクリーン数と薬局の数との相関関係を調べる必要があります。

図4

映画館のスクリーン数と薬局の数のような相関関係のことを「見かけ上の相関」や「疑似相関」といいます。見かけ上の相関がある場合は、相関係数ではなく第3の因子の影響を除いた相関係数である「偏相関係数」を用いて相関関係を評価します。1つ目の因子をx、2つ目の因子をy、3つ目の因子をzとおき、xとyの相関係数をr_{xy}、yとzの相関係数をr_{yz}、zとxの相関係数をr_{zx}とします。これらを用いると、zの影響を除いたxとyの偏相関係数r_{xy \cdot z}を次の式から求められます。

 \displaystyle r_{xy \cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^{2}}\sqrt{1-r_{yz}^{2}}}

上のデータの映画館のスクリーン数、薬局の数、人口密度をそれぞれx、y、zとおくと、相関係数はそれぞれr_{xy}=0.82r_{yz}=0.98r_{zx}=0.85となるので、偏相関係数r_{xy \cdot z}は「-0.13」となります。

 \displaystyle r_{xy \cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^{2}}\sqrt{1-r_{yz}^{2}}}=\frac{0.82-0.98 \times 0.85}{\sqrt{1-0.98^{2}}\sqrt{1-0.85^{2}}}=-0.13

この結果から、映画館のスクリーン数と薬局の数との相関は、実はあまり強くないことが分かります。


32-5. さまざまな指数


指数とは、数値の変化や大小を比率として表したものです。指数の中には物価の変動を表す「物価指数/価格指数」があり、基準年の物価を100として比較年の物価を相対的に比較した値として算出されます。この章では3つの価格指数について説明します。

■ラスパイレス指数

基準年の購入量や取引量等を重みとして算出した価格指数のことを「ラスパイレス指数」といいます。価格と数量を次のように表すとき、ラスパイレス指数は次の式から算出できます。

  • p_{0i}:基準年の価格  q_{0i}:基準年の数量
  • p_{ti}:比較年の価格  q_{ti}:比較年の数量
 P_L= \frac{\displaystyle \sum^{n}_{i=1}p_{ti}q_{0i}}{\displaystyle \sum^{n}_{i=1}p_{0i}q_{0i}} \times 100

■パーシェ指数

比較年の購入量や取引量等を重みとして算出した価格指数のことを「パーシェ指数」といいます。パーシェ指数は次の式から算出できます。

 P_P= \frac{\displaystyle \sum^{n}_{i=1}p_{ti}q_{ti}}{\displaystyle \sum^{n}_{i=1}p_{0i}q_{ti}} \times 100

■フィッシャー指数

ラスパイレス指数とパーシェ指数の幾何平均によって算出されます。

 \displaystyle \sqrt{P_L \times P_P}

例題:

ある食べ物A, B, Cに関して次のようなデータがある場合に、ラスパイレス指数、パーシェ指数、フィッシャー指数を算出してみます

ABC
購入価格購入数量購入価格購入数量購入価格購入数量
基準年1005020020400100
比較年1206019010500150

  • ラスパイレス指数
  •  \displaystyle  \frac{120 \times 50+190 \times 20+500 \times 100}{100\times 50+200 \times 20+400 \times 100} \times 100 = 122.04
  • パーシェ指数
  •  \displaystyle  \frac{120 \times 60+190 \times 10+500 \times 150}{100 \times 60+200 \times 10+400 \times 150} \times 100 = 123.68
  • フィッシャー指数
  •  \displaystyle \sqrt{122.04 \times 123.68} = 122.86

いずれの指数においても100を超えていることから、食べ物A, B, Cの価格は基準年と比較して比較年と比較して上昇したといえます。


'지식 > 경제수학' 카테고리의 다른 글

로렌츠곡선과 지니계수  (0) 2018.09.19
편상관계수  (0) 2018.09.19
箱ひげ図を描いてみよう  (0) 2018.09.17
변동계수  (0) 2018.09.17
사분위수  (0) 2018.09.17

4-3. 箱ひげ図を描いてみよう


今年のお祭りもそろそろ終わり。締めくくりは夜空に広がる大輪の花。猫稲荷神社の花火は、ここ福猫県内で行われる10のお祭りのうち最大の規模を誇ります。

お祭り名称総打ち上げ数
猫稲荷神社夏祭り2800
猫ヶ浜夏祭り1500
猫山祭り500
鰹節奉納祭200
桜祭り300
七夕祭450
紅葉祭150
猫杜の祇園祭1200
灯篭流し800
猫の髭港みなとまつり1000

このデータから4-2章で学んだ四分位数を求めると次のようになります。

第一四分位数300
第二四分位数650
第三四分位数1200
四分位範囲900

このデータから「箱ひげ図」を描いてみます。箱ひげ図とは、データの分布を「箱」と「ひげ」で表したグラフのことで、データの分布の様子をおおざっぱに把握することができます。

■箱を描く

まず、箱ひげ図の「箱」の部分を描きます。箱を描くためには「第一四分位数」、「第二四分位数(中央値)」、「第三四分位数」の情報を使います。

箱の下端が「第一四分位数」を、箱の上端が「第三四分位数」を、箱の中央を横切る線が「第二四分位数(中央値)」を表します。

■ひげを描く

次に、箱の上と下に「ひげ」を描きます。ひげの長さは、箱の高さ(四分位範囲)の1.5倍以下の範囲にあるデータの中で、

  • 上端は最も大きいデータまで
  • 下端は最も小さいデータまで

となります。

■外れ値を描く

最後に、ひげの範囲から外れたデータを「〇」もしくは「×」で示します。このようなデータは「外れ値」とよばれます。このデータでは、「猫稲荷神社夏祭り」の総打ち上げ数「2800」が外れ値となります。


箱ひげ図は、別のデータセットと同じグラフ上に描くことができます。このようなグラフを作成すると、それぞれのデータの分布を視覚的に比較することができます。


+ Recent posts