지식

피셔3원칙 2018.09.20
추출의 방법(층화추출법,클러스터추출법,다단추출법,계통추출법) 2018.09.20
로렌츠곡선과 지니계수 2018.09.19
편상관계수 2018.09.19
라스파이레스지수(기준년 수량고정), 파셔지수(비교년 수량고정) 2018.09.17
箱ひげ図を描いてみよう 2018.09.17
변동계수 2018.09.17
사분위수 2018.09.17

피셔3원칙

2018. 9. 20. 00:19

フィッシャーの3原則

実験を行う際には実験計画を立てる必要があります。実験計画とは、よい結果を得るために最も効果的な実験を計画し、その実験で得られたデータに対して最適な解析手法を採択する手順のことです。実験計画を立てずに闇雲に実験を行ってしまうと、お金や時間や労力がかかってしまうだけではなく、信頼できる結果が得られない可能性があります。

そのため、R.A. Fisherがこの実験計画法に関して3つの原則を確立しました。この原則は次の3つから成ります。

反復（replication）
無作為化（randomization）
局所管理（local control）

■反復

複数の処理を比較する際に、それぞれの処理に対して同じ条件で2回以上の繰り返し実験（評価）を行うことです。1回の測定では、測定値に違いがあっても「系統誤差（処理の違いによる差）」なのか、それとも「偶然誤差（たまたま生じる誤差）」なのかは判断できません。反復実験を行って偶然誤差のばらつきが分かれば真の平均のとりうる範囲を推測でき、この範囲よりも系統誤差が大きければ処理によって違いがあるという判断ができます。つまり反復によって、偶然誤差の大きさを評価することができるわけです。

例えば比較したい処理がA、B、Cの3つあり、1日に6回の実験ができる場合、「反復」は次に示すように3日間で各処理を6回ずつ行うことを指します。

	1日目	2日目	3日目
処理	AAAAAA	BBBBBB	CCCCCC

■無作為化

実験の順序や場所などが複数ある場合に、比較したい処理群を無作為に（ランダムに）割り付けることです。目的とする要因以外に結果に影響を与える要因がある場合に、無作為化によってその影響の偏りをできるだけ小さくすることができます。つまり、系統誤差を偶然誤差に取り込むことができるわけです。

上で挙げた反復実験に「無作為化」を加えた実験デザインは次のようになります。「無作為化」はA、B、Cの処理を行う順番をランダムに割り付けることを指します。

	1日目	2日目	3日目
処理	ACCBAA	CBABBC	BABCCA

■局所管理

実験を行う時間や場所を区切ってブロックを作り、そのブロック内でのバックグラウンドができるだけ均一になるように管理することです。局所管理により系統誤差を小さくすることができます。

上で挙げた反復実験＋無作為化割り付けに「局所管理」を加えた実験デザインは次のようになります。「局所管理」は実験を行う時間を午前と午後の2つのブロックに分けることを指します。

	1日目	2日目	3日目
処理（午前）	ACC	CBA	BAB
処理（午後）	BAA	BBC	CCA

■乱塊法

フィッシャーの3原則である「反復」と「無作為化」に加えて「局所管理」も盛り込んだ実験デザインを「乱塊法」といいます。乱塊法とは、実験計画において実験全体を無作為化するのではなく、局所管理の考えに基づくブロック内に1セットの実験を集めて無作為化を行う方法のことです。

これまで挙げたA、B、Cの3つの実験を乱塊法によって割り付けすると次のようになります。

	1日目	2日目	3日目
処理（午前）	ACB	CBA	CAB
処理（午後）	BAC	BAC	CBA

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

[경제통계] 귀무가설과 대립가설, Z검정, P-value과 유의수준 비교에 따른 귀무가설 기각 (0)	2023.09.21
코램그래프와 자기상관 (0)	2018.10.06
추출의 방법(층화추출법,클러스터추출법,다단추출법,계통추출법) (0)	2018.09.20
로렌츠곡선과 지니계수 (0)	2018.09.19
편상관계수 (0)	2018.09.19

추출의 방법(층화추출법,클러스터추출법,다단추출법,계통추출법)

2018. 9. 20. 00:17

標本の抽出方法

単純無作為抽出法は標本調査の最も基本的な方法ですが、母集団から完全に無作為に調査対象を取り出すのは、非常に手間と時間がかかる場合があります。そこで、母集団の特徴を反映させつつより手間を軽減させた様々な無作為抽出法があります。

■層化抽出法（層別抽出法）

母集団をあらかじめいくつかの層（グループ）に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法

【例】男女比が7：3の高校で、10人の学生を対象に意識調査を行う場合、男子の中から7名を、女子の中から3名をそれぞれに無作為に抽出する（このように、層の大きさに比例させて調査対象を抽出する方法を層化抽出法の中でも特に「比例配分法」といいます）

【メリット】母集団内情報（年齢別、性別など）の比較を行える、母集団の推測の精度が増す、各層において分布が大きく異なる場合に使うことができる

【デメリット】母集団の構成情報を事前に知っておく必要がある

■クラスター抽出法（集落抽出法）

次の1～3によって調査対象を抽出する方法

母集団を、小集団である「クラスター（集落）」に分ける
分けられたクラスターの中から、いくつかのクラスターを無作為抽出する
それぞれのクラスターにおいて全数調査を行う

【例】高校生の平均身長を調査する際に、高校を1つのクラスターと考え、全国の高校の中からランダムに10校を選び、その10校に通う高校生全員の身長を測定する

【メリット】クラスターの情報（例えば高校名など）さえあれば抽出することができるので、時間や手間を節約できる

【デメリット】同じクラスターに属する調査対象は似た性質を持ちやすいため、標本に偏りが生じる可能性がある（例えば、高校を10校選ぶときに女子校が選ばれた場合、標本から推測される平均身長が低くなってしまう可能性がある）

■多段抽出法

母集団をいくつかのグループに分け、そこから無作為抽出でいくつかグループを選び、さらにその中から無作為抽出でいくつかのグループを選び・・・という操作を繰り返して、最終的に選ばれたグループの中から調査対象を無作為抽出する方法

【例】

第1段：全国から30市区町村を無作為抽出
第2段：抽出された30市区町村の中からそれぞれ5地区を無作為抽出
第3段：抽出された5地区の中からそれぞれ20人を無作為抽出

【メリット】コストを低く抑えられる、抽出効率が高い

【デメリット】サンプルサイズが小さい場合、標本に偏りが生じる可能性がある

■系統抽出法

通し番号をつけた名簿を作成し、1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法

【例】1,000人から50人を選ぶときに、はじめに1,000人に通し番号を付け、ランダムに選ばれた番号から3人おきに（3番おきに）人を抽出していく

【メリット】単純無作為抽出より手間や時間やコストが掛からない

【デメリット】名簿の並び順に何らかの周期があると標本に偏りが生じる可能性がある

■おすすめ書籍

標本調査についてもっと深く勉強したい方向けです。

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

코램그래프와 자기상관 (0)	2018.10.06
피셔3원칙 (0)	2018.09.20
로렌츠곡선과 지니계수 (0)	2018.09.19
편상관계수 (0)	2018.09.19
라스파이레스지수(기준년 수량고정), 파셔지수(비교년 수량고정) (0)	2018.09.17

로렌츠곡선과 지니계수

2018. 9. 19. 23:56

2-4. ローレンツ曲線

各都道府県内にある映画館のスクリーン数のデータから下のような度数分布表を作成したところ、スクリーン数の合計が0以上100未満の都道府県は全体の約80％を占めていることが分かりました。つまり、残りの20％の都道府県には100以上のスクリーンがあり、どうやら都道府県ごとのスクリーン数の分布は「偏っている」ように思えます。
階級階級値度数相対度数累積相対度数
0以上50未満 25 24 0.5106 0.5106
50以上100未満 75 14 0.2979 0.8085
︙ ︙ ︙ ︙ ︙
合計－ 47 1.0000 －
この「偏り＝不均等さ」を表すための曲線を「ローレンツ曲線」といいます。ローレンツ曲線を作るためには2つの累積相対度数が必要です。1つ目は各階級の度数の累積相対度数です。これは2-1章で求めた、次の度数分布表の網掛け内の値になります。
階級階級値度数相対度数累積相対度数
0以上50未満 25 24 0.5106 0.5106
50以上100未満 75 14 0.2979 0.8085
100以上150未満 125 2 0.0426 0.8511
150以上200未満 175 2 0.0426 0.8936
200以上250未満 225 3 0.0638 0.9574
250以上300未満 275 1 0.0213 0.9787
300以上350未満 325 0 0.0000 0.9787
350以上400未満 375 1 0.0213 1.0000
合計－ 47 1.0000 －
2つ目は、各階級に属する値の合計の累積相対度数です。例えば、階級「50以上100未満」のスクリーン数の累積相対度数は、以下の手順で求められます。
47都道府県すべてがもつスクリーン数の合計： $3437$
「0以上50未満」の階級に属する24の都道府県内にあるスクリーン数の合計： $646$
「0以上50未満」の階級に属する24の都道府県内にあるスクリーン数の相対度数： $646\div 3437=0.1880$
「50以上100未満」の階級に属する14の都道府県内にあるスクリーン数の合計： $918$
「50以上100未満」の階級に属する14の都道府県内にあるスクリーン数の相対度数： $918\div 3437=0.2670$
したがって、スクリーン数の合計が「50以上100未満」の階級のスクリーン数の累積相対度数は $0.1880+0.2670=0.4550$ となります。このようにして作成した度数分布表が次の表です。
階級度数各階級の度数の
累積相対度数各階級の
スクリーン数合計スクリーン数の
相対度数スクリーン数の
累積相対度数
0以上50未満 24 0.5106 (2) 646 (3) 0.1880 0.1880
50以上100未満 14 0.8085 (4) 918 (5) 0.2670 0.4550
100以上150未満 2 0.8511 239 0.0695 0.5246
150以上200未満 2 0.8936 377 0.1097 0.6343
200以上250未満 3 0.9574 641 0.1865 0.8208
250以上300未満 1 0.9787 258 0.0751 0.8958
300以上350未満 0 0.9787 0 0.0000 0.8958
350以上400未満 1 1.0000 358 0.1042 1.0000
合計 47 － (1) 3437 1.0000 －
この度数分布表の「各階級の度数の累積相対度数」を横軸に、「スクリーン数の累積相対度数」を縦軸にとった折れ線グラフが都道府県ごとのスクリーン数のローレンツ曲線です。グラフ中の「完全平等線」については次の2-5章で説明します。

階級	階級値	度数	相対度数	累積相対度数
0以上50未満	25	24	0.5106	0.5106
50以上100未満	75	14	0.2979	0.8085
︙	︙	︙	︙	︙
合計	－	47	1.0000	－

階級	階級値	度数	相対度数	累積相対度数
0以上50未満	25	24	0.5106	0.5106
50以上100未満	75	14	0.2979	0.8085
100以上150未満	125	2	0.0426	0.8511
150以上200未満	175	2	0.0426	0.8936
200以上250未満	225	3	0.0638	0.9574
250以上300未満	275	1	0.0213	0.9787
300以上350未満	325	0	0.0000	0.9787
350以上400未満	375	1	0.0213	1.0000
合計	－	47	1.0000	－

階級	度数	各階級の度数の累積相対度数	各階級のスクリーン数合計	スクリーン数の相対度数	スクリーン数の累積相対度数
0以上50未満	24	0.5106	(2) 646	(3) 0.1880	0.1880
50以上100未満	14	0.8085	(4) 918	(5) 0.2670	0.4550
100以上150未満	2	0.8511	239	0.0695	0.5246
150以上200未満	2	0.8936	377	0.1097	0.6343
200以上250未満	3	0.9574	641	0.1865	0.8208
250以上300未満	1	0.9787	258	0.0751	0.8958
300以上350未満	0	0.9787	0	0.0000	0.8958
350以上400未満	1	1.0000	358	0.1042	1.0000
合計	47	－	(1) 3437	1.0000	－

■おすすめ書籍

コア・テキスト統計学は経済学をベースに書かれている統計入門書なので、ローレンツ曲線やジニ係数、経済指標についての説明が比較的充実しています。

ジニ係数

2つの累積相対度数を用いて描かれたローレンツ曲線を使うと、「偏り＝不均等さ」を確認できます。

例えば、次の各都道府県内にある映画館のスクリーン数のデータから作成したローレンツ曲線の赤い矢印をたどると、約80％の都道府県内で全国のすべてのスクリーン数の40％強があるということが分かります。逆に、残りの約20％の都道府県内には60％弱ものスクリーン数があるということなので、スクリーンの分布は不均等であることが分かります。

この「偏り」や「不均等さ」を数値で表したものが「ジニ係数」です。ジニ係数は完全平等線（(0,0)と(1,1)を結ぶ線：図中の黒破線）とローレンツ曲線との間の面積（次の図の橙色部分）を2倍した値になります。ジニ係数は0から1までの値をとり、1に近いほど偏りが大きく、0に近いほど偏りが小さいことを表します。

■ジニ係数が0の場合

不均等さが全くない場合、ローレンツ曲線は次の図のように完全平等線と一致するためジニ係数は「0」となります。ジニ係数が0というのは、ここでは各都道府県内にあるスクリーン数が全て同じ場合、すなわち「20％の都道府県内に全国の総スクリーン数の20%があり、40％の都道府県内に全国の総スクリーン数の40%があり…」という状態を指します。

■ジニ係数が1の場合

一方、例えば東京都に日本の全ての映画館（スクリーン）があり、他の道府県に映画館（スクリーン）が全くない場合、ローレンツ曲線は次のようになります。このときジニ係数は最大値の「1」となります。

【コラム】ローレンツ曲線は下側凸か上側凸か

ローレンツ曲線を描くとき、一般的に階級を小さい順（昇順）に並べた場合の2つの累積相対度数を用います。そのため、よく目にするローレンツ曲線は完全平等線に対して下側に凸となっています。

一方、スクリーン数の集中度を見たい場合には、下の表のように階級を大きい順に並べたものを用いることがあります。

階級	度数	各階級の度数の累積相対度数	各階級のスクリーン数合計	スクリーン数の相対度数	スクリーン数の累積相対度数
350以上400未満	1	0.0213	358	0.1042	0.1042
300以上350未満	0	0.0213	0	0.0000	0.1042
250以上300未満	1	0.0426	258	0.0751	0.1793
200以上250未満	3	0.1064	641	0.1865	0.3658
150以上200未満	2	0.1490	377	0.1097	0.4755
100以上150未満	2	0.1916	239	0.0695	0.5450
50以上100未満	14	0.4895	918	0.2670	0.8120
0以上50未満	24	1.0000	646	0.1880	1.0000
合計	47	－	3437	1.0000	－

この場合のローレンツ曲線は、次に示すように完全平等線に対して上側に凸となります。このローレンツ曲線を見ると、約20％の都道府県内に60％弱ものスクリーン数があることが読み取れます。

■おすすめ書籍

コア・テキスト統計学は経済学をベースに書かれている統計入門書なので、ローレンツ曲線やジニ係数、経済指標についての説明が比較的充実しています。

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

피셔3원칙 (0)	2018.09.20
추출의 방법(층화추출법,클러스터추출법,다단추출법,계통추출법) (0)	2018.09.20
편상관계수 (0)	2018.09.19
라스파이레스지수(기준년 수량고정), 파셔지수(비교년 수량고정) (0)	2018.09.17
箱ひげ図を描いてみよう (0)	2018.09.17

편상관계수

2018. 9. 19. 23:48

26-4. 偏相関係数

次のデータは2015年12月末時点の各都道府県内にある映画館のスクリーンの合計数と可住地面積100 $km^{2}$ 当たりの薬局数を表したものです。このデータを用いて相関係数を算出すると、「0.82」でした。つまり、映画館のスクリーン数と薬局の数には強い相関があるという結果でした。

出典：総務省統計局社会生活統計指標－都道府県の指標－2015

しかし、一般的に考えて都道府県ごとの映画館のスクリーン数と可住地面積100 $km^{2}$ 当たりの薬局の数は直接的に関係がないような気がします。映画館のスクリーン数が多いから薬局の出店数が増えるわけでも、薬局の数が多いから映画館のスクリーン数が増えるわけでもないためです。このような場合には、「第3の因子」の存在を考慮する必要があります。

上のデータに各都道府県の人口密度のデータを加えてみます。

出典：総務省統計局社会生活統計指標－都道府県の指標－2015

人口密度と映画館のスクリーン数、及び人口密度と薬局の数の相関係数はそれぞれ「0.85」と「0.98」でした。つまり、人口密度がスクリーン数と薬局の数それぞれと強い相関を持っているため、これらの影響を除いた上で映画館のスクリーン数と薬局の数との相関関係を調べる必要があります。

映画館のスクリーン数と薬局の数のような相関関係のことを「見かけ上の相関」や「疑似相関」といいます。見かけ上の相関がある場合は、相関係数ではなく第3の因子の影響を除いた相関係数である「偏相関係数」を用いて相関関係を評価します。1つ目の因子をx、2つ目の因子をy、3つ目の因子をzとおき、xとyの相関係数を $r_{xy}$ 、yとzの相関係数を $r_{yz}$ 、zとxの相関係数を $r_{zx}$ とします。これらを用いると、zの影響を除いたxとyの偏相関係数 $r_{xy \cdot z}$ を次の式から求められます。

$\displaystyle r_{xy \cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^{2}}\sqrt{1-r_{yz}^{2}}}$

上のデータの映画館のスクリーン数、薬局の数、人口密度をそれぞれx、y、zとおくと、相関係数はそれぞれ $r_{xy}=0.82$ 、 $r_{yz}=0.98$ 、 $r_{zx}=0.85$ となるので、偏相関係数 $r_{xy \cdot z}$ は「-0.13」となります。

$\displaystyle r_{xy \cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^{2}}\sqrt{1-r_{yz}^{2}}}=\frac{0.82-0.98 \times 0.85}{\sqrt{1-0.98^{2}}\sqrt{1-0.85^{2}}}=-0.13$

この結果から、映画館のスクリーン数と薬局の数との相関は、実はあまり強くないことが分かります。

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

추출의 방법(층화추출법,클러스터추출법,다단추출법,계통추출법) (0)	2018.09.20
로렌츠곡선과 지니계수 (0)	2018.09.19
라스파이레스지수(기준년 수량고정), 파셔지수(비교년 수량고정) (0)	2018.09.17
箱ひげ図を描いてみよう (0)	2018.09.17
변동계수 (0)	2018.09.17

라스파이레스지수(기준년 수량고정), 파셔지수(비교년 수량고정)

2018. 9. 17. 14:39

32-5. さまざまな指数

指数とは、数値の変化や大小を比率として表したものです。指数の中には物価の変動を表す「物価指数/価格指数」があり、基準年の物価を100として比較年の物価を相対的に比較した値として算出されます。この章では3つの価格指数について説明します。

■ラスパイレス指数

基準年の購入量や取引量等を重みとして算出した価格指数のことを「ラスパイレス指数」といいます。価格と数量を次のように表すとき、ラスパイレス指数は次の式から算出できます。

$p_{0i}$ ：基準年の価格　　 $q_{0i}$ ：基準年の数量
$p_{ti}$ ：比較年の価格　　 $q_{ti}$ ：比較年の数量

$P_L= \frac{\displaystyle \sum^{n}_{i=1}p_{ti}q_{0i}}{\displaystyle \sum^{n}_{i=1}p_{0i}q_{0i}} \times 100$

■パーシェ指数

比較年の購入量や取引量等を重みとして算出した価格指数のことを「パーシェ指数」といいます。パーシェ指数は次の式から算出できます。

$P_P= \frac{\displaystyle \sum^{n}_{i=1}p_{ti}q_{ti}}{\displaystyle \sum^{n}_{i=1}p_{0i}q_{ti}} \times 100$

■フィッシャー指数

ラスパイレス指数とパーシェ指数の幾何平均によって算出されます。

$\displaystyle \sqrt{P_L \times P_P}$

例題：

ある食べ物A, B, Cに関して次のようなデータがある場合に、ラスパイレス指数、パーシェ指数、フィッシャー指数を算出してみます

	A		B		C
	購入価格	購入数量	購入価格	購入数量	購入価格	購入数量
基準年	100	50	200	20	400	100
比較年	120	60	190	10	500	150

ラスパイレス指数

$\displaystyle \frac{120 \times 50+190 \times 20+500 \times 100}{100\times 50+200 \times 20+400 \times 100} \times 100 = 122.04$

パーシェ指数

$\displaystyle \frac{120 \times 60+190 \times 10+500 \times 150}{100 \times 60+200 \times 10+400 \times 150} \times 100 = 123.68$

フィッシャー指数

$\displaystyle \sqrt{122.04 \times 123.68} = 122.86$

いずれの指数においても100を超えていることから、食べ物A, B, Cの価格は基準年と比較して比較年と比較して上昇したといえます。

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

로렌츠곡선과 지니계수 (0)	2018.09.19
편상관계수 (0)	2018.09.19
箱ひげ図を描いてみよう (0)	2018.09.17
변동계수 (0)	2018.09.17
사분위수 (0)	2018.09.17

箱ひげ図を描いてみよう

2018. 9. 17. 14:20

4-3. 箱ひげ図を描いてみよう

今年のお祭りもそろそろ終わり。締めくくりは夜空に広がる大輪の花。猫稲荷神社の花火は、ここ福猫県内で行われる10のお祭りのうち最大の規模を誇ります。

お祭り名称	総打ち上げ数
猫稲荷神社夏祭り	2800
猫ヶ浜夏祭り	1500
猫山祭り	500
鰹節奉納祭	200
桜祭り	300
七夕祭	450
紅葉祭	150
猫杜の祇園祭	1200
灯篭流し	800
猫の髭港みなとまつり	1000

このデータから4-2章で学んだ四分位数を求めると次のようになります。

第一四分位数	300
第二四分位数	650
第三四分位数	1200
四分位範囲	900

このデータから「箱ひげ図」を描いてみます。箱ひげ図とは、データの分布を「箱」と「ひげ」で表したグラフのことで、データの分布の様子をおおざっぱに把握することができます。

■箱を描く

まず、箱ひげ図の「箱」の部分を描きます。箱を描くためには「第一四分位数」、「第二四分位数（中央値）」、「第三四分位数」の情報を使います。

箱の下端が「第一四分位数」を、箱の上端が「第三四分位数」を、箱の中央を横切る線が「第二四分位数（中央値）」を表します。

■ひげを描く

次に、箱の上と下に「ひげ」を描きます。ひげの長さは、箱の高さ（四分位範囲）の1.5倍以下の範囲にあるデータの中で、

上端は最も大きいデータまで
下端は最も小さいデータまで

となります。

■外れ値を描く

最後に、ひげの範囲から外れたデータを「〇」もしくは「×」で示します。このようなデータは「外れ値」とよばれます。このデータでは、「猫稲荷神社夏祭り」の総打ち上げ数「2800」が外れ値となります。

箱ひげ図は、別のデータセットと同じグラフ上に描くことができます。このようなグラフを作成すると、それぞれのデータの分布を視覚的に比較することができます。

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

편상관계수 (0)	2018.09.19
라스파이레스지수(기준년 수량고정), 파셔지수(비교년 수량고정) (0)	2018.09.17
변동계수 (0)	2018.09.17
사분위수 (0)	2018.09.17
[경제통계]z분포, 카이제곱분포, t분포, 카이제곱분포표 보는법, t분포표 보는법 (0)	2017.12.19

변동계수

2018. 9. 17. 14:04

5-3. 変動係数を求めてみよう

【夕方は走って登ってジャンプ】夕方、日が落ちて涼しくなってくると猫たちにとってのゴールデンタイムが始まります。空き地で追いかけっこ、木登り、虫取り。

次の表は、空き地にある猫たちが大好きな木の高さをまとめたものです。

枝が立派な木(m)	赤い実がなる木(m)	大きな葉っぱの木(m)
12	4	0.8
15	5	1.2
15	3	1.0
12	5	1.6
13	―	0.7
14	―	―

まず、平均値と標準偏差を求めます。

	枝が立派な木(m)	赤い実がなる木(m)	大きな葉っぱの木(m)
平均	13.5	4.3	1.1
標準偏差	1.4	1.0	0.4

この表を見ると、高さのばらつきが一番大きいのは「枝が立派な木」であることが分かります。ただし、3種類の木の高さの平均値が大きく異なることから、平均値に対する標準偏差の大きさを比較するほうが良い場合があります。

この、平均値に対するデータとばらつきの関係を相対的に評価するための値のことを「変動係数」といいます。変動係数は次の式から求められます。

変動係数＝標準偏差÷平均値

この式を使って、それぞれの木の変動係数を求めてみます。

枝が立派な木の変動係数=1.4÷13.5=0.1

赤い実がなる木=1.0÷4.3=0.2

大きな葉っぱの木=0.4÷1.1=0.3

この結果をまとめると次のようになります。

	枝が立派な木(m)	赤い実がなる木(m)	大きな葉っぱの木(m)
平均	13.5	4.3	1.1
標準偏差	1.4	1.0	0.4
変動係数	0.1	0.2	0.3

変動係数を計算すると、平均値に対しては大きな葉っぱの木の高さが最も相対的にばらつきが大きいという結果になりました。

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

라스파이레스지수(기준년 수량고정), 파셔지수(비교년 수량고정) (0)	2018.09.17
箱ひげ図を描いてみよう (0)	2018.09.17
사분위수 (0)	2018.09.17
[경제통계]z분포, 카이제곱분포, t분포, 카이제곱분포표 보는법, t분포표 보는법 (0)	2017.12.19
[경제통계]정규분포(normal distribution), 정규분포의 평균도출, 표준정규분포, 표준화 (1)	2017.12.19

사분위수

2018. 9. 17. 14:04

4-2. 四分位数を見てみよう

日が落ちて境内のメインステージではカラオケ大会が始まりました。赤い提灯がステージ上の猫たちを一層盛り上げているようです。

■四分位数

次の表はカラオケ大会のプログラムです。今年のカラオケ大会には全部で11匹のエントリーがありました。このプログラムの楽曲の時間から四分位数を求めてみます。

順番	曲目	楽曲の時間（分）
1	cats celebrate you	3.0
2	猫ダンス	4.0
3	TSUNAKAN	5.5
4	畳の上ではディセンバー	3.5
5	ルビーの首輪	4.2
6	恋するフォーチュンカリカリ	3.4
7	WAになって眠ろう	2.8
8	海も泳げるはず	4.2
9	かつおぶしだよ人生は	4.7
10	破れかけのfusuma	2.2
11	愛をこめてねこじゃらしを	3.8

「四分位数（しぶんいすう）」とはデータを小さい順に並び替えたときに、データの数で4等分した時の区切り値のことです。4等分すると3つの区切りの値が得られ、小さいほうから「25パーセンタイル（第一四分位数）」、「50パーセンタイル（中央値）」、「75パーセンタイル（第三四分位数）」とよびます。

また、75パーセンタイル（第三四分位数）から25パーセンタイル（第一四分位数）を引いた値を「四分位範囲」とよびます。

■四分位数の求め方（データの数が奇数個の場合）

中央値を求める

データの数は全部で11個なので、小さい順に並べ替えたときの6番目の値が中央値になります。したがって「3.8」です。

2.2

2.8

3.0

3.4

3.5

3.8

4.0

4.2

4.7

5.5

中央値でデータを2つに分ける

小さい値のグループと大きい値のグループに分けます。ただし、データの数が奇数であり、中央値である6番目の値「3.8」はどちらかのグループに分けることができないため、「3.8」を除いて2つのグループに分けます。それぞれのグループには5個ずつのデータが含まれています。

【小さい値のグループ】

2.2

2.8

3.0

3.4

3.5

【大きい値のグループ】

4.0

4.2

4.7

5.5

2つに分けたデータのうち小さい値のグループを使って中央値を求める

データの数は全部で5個なので、小さい順に並べ替えたときの3番目の値が中央値になります。したがって「3.0」です。

【小さい値のグループ】

2.2

2.8

3.0

3.4

3.5

2つに分けたデータのうち大きい値のグループを使って中央値を求める

データの数は全部で5個なので、小さい順に並べ替えたときの3番目の値が中央値になります。したがって「4.2」です。

【大きい値のグループ】

4.0

4.2

4.7

5.5

これらをまとめると、四分位数は次のようになります。

第一四分位数	3.0
第二四分位数	3.8
第三四分位数	4.2
四分位範囲	4.2-3.0=1.2

ところが、11番目の楽曲が終わるころ、なんと12番目に飛び入り参加がありました。12個のデータを使ってもう一度四分位数を求めなおしてみます。

順番	曲目	楽曲の時間（分）
12	レット・キャット・ゴー	4.6

■四分位数の求め方（データの数が偶数個の場合）

中央値を求める

データの数は全部で12個なので、小さい順に並べ替えたときの6番目と7番目の値の平均値が中央値になります。したがって「{3.8+4.0}÷2=3.9」です。

2.2

2.8

3.0

3.4

3.5

3.8

4.0

4.2

4.6

4.7

5.5

半分に分ける

小さい値のグループと大きい値のグループに分けます。データの数は偶数の12個なので、6番目の値「3.8」は小さい値のグループに、7番目の値「4.0」は大きい値のグループに分けられます。それぞれのグループには6個ずつのデータが含まれています。

【小さい値のグループ】

2.2

2.8

3.0

3.4

3.5

3.8

【大きい値のグループ】

4.0

4.2

4.6

4.7

5.5

2つに分けたデータのうち小さい値のグループを使って中央値を求める

データの数は全部で6個なので、小さい順に並べ替えたときの3番目の値と4番目の値の平均値が中央値になります。したがって「{3.0+3.4}÷2=3.2」です。

【小さい値のグループ】

2.2

2.8

3.0

3.4

3.5

3.8

2つに分けたデータのうち大きい値のグループを使って中央値を求める

データの数は全部で6個なので、小さい順に並べ替えたときの3番目の値と4番目の値の平均値が中央値になります。したがって「「{4.2+4.6}÷2=4.4」」です。

【大きい値のグループ】

4.0

4.2

4.6

4.7

5.5

これらをまとめると、四分位数は次のようになります。

第一四分位数	3.2
第二四分位数	3.9
第三四分位数	4.4
四分位範囲	4.4-3.2=1.2

저작자표시 비영리 변경금지

'지식 > 경제수학' 카테고리의 다른 글

箱ひげ図を描いてみよう (0)	2018.09.17
변동계수 (0)	2018.09.17
[경제통계]z분포, 카이제곱분포, t분포, 카이제곱분포표 보는법, t분포표 보는법 (0)	2017.12.19
[경제통계]정규분포(normal distribution), 정규분포의 평균도출, 표준정규분포, 표준화 (1)	2017.12.19
[경제통계]지수분포 (0)	2017.12.19

PREV 1 ···23 24 25 26 27 28 29 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식

フィッシャーの3原則

■反復

■無作為化

■局所管理

■乱塊法

'지식 > 경제수학' 카테고리의 다른 글

標本の抽出方法

■層化抽出法（層別抽出法）

■クラスター抽出法（集落抽出法）

■多段抽出法

■系統抽出法

■おすすめ書籍

'지식 > 경제수학' 카테고리의 다른 글

2-4. ローレンツ曲線

■おすすめ書籍

コア・テキスト統計学は経済学をベースに書かれている統計入門書なので、ローレンツ曲線やジニ係数、経済指標についての説明が比較的充実しています。ジニ係数

■ジニ係数が0の場合

■ジニ係数が1の場合

【コラム】ローレンツ曲線は下側凸か上側凸か

■おすすめ書籍

'지식 > 경제수학' 카테고리의 다른 글

26-4. 偏相関係数

'지식 > 경제수학' 카테고리의 다른 글

32-5. さまざまな指数

■ラスパイレス指数

■パーシェ指数

■フィッシャー指数

例題：

'지식 > 경제수학' 카테고리의 다른 글

4-3. 箱ひげ図を描いてみよう

■箱を描く

■ひげを描く

■外れ値を描く

'지식 > 경제수학' 카테고리의 다른 글

5-3. 変動係数を求めてみよう

'지식 > 경제수학' 카테고리의 다른 글

4-2. 四分位数を見てみよう

■四分位数

■四分位数の求め方（データの数が奇数個の場合）

■四分位数の求め方（データの数が偶数個の場合）

'지식 > 경제수학' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

コア・テキスト統計学は経済学をベースに書かれている統計入門書なので、ローレンツ曲線やジニ係数、経済指標についての説明が比較的充実しています。

ジニ係数