국내총생산(GDP)국내총생산(Gross Domestic Product)=GDP : 일정기간동안 한 나라 안에서 생산되어 최종적인 용도로 사용되는 재화와 서비스의 가치를 모두 더한 것.한국에서 2017년 한 해 동안 생산된 재화와 서비스는 모두 모바일은 1000대, 쌀 5000가마니, 옷 500벌 이다. 모바일폰 1대의 가격은 100만원, 쌀 한 가마니의 가격은 10만원, 옷1벌의 가격은 8만원이다. 국내총생산은?국내총생산=모바일폰 가치+쌀 가치 + 옷 가치 (->각 물건들이 가치가 동등하지 않으니까 화폐가치로 바꿈) =1000*100+5000*10+500*8=154,000만원(15억4천만원)유량(flow) vs 저량(stock)유량: 한달, 한 해 처럼 기간을 기준으로 그 양을 측정 (GDP- 1년동안 얼만큼 생산?)저량: 주어진 한 시점에서 측정 (재고) ->지금시점에서 몇 개 있어? 얼마야?ex) 자동차 재고량: 저량 저축량: 유량 (1달동안의 저축량은 얼마니?)국내총생산(GDP) 의 이해1. 일정기간동안 (대부분 1년) ->유량 재고는 포함x(2016년에 만들어진 재고는 2017년도의 GDP에 안들어감)국내총생산에는 그 해에 새로 생산된 가치만이 포함. 그 이전에 만들어져 존재하는 상품의 가치는 포함되지 않는다.2. 한 나라 안에서 -> 생산의 주체가 누구인지 관계없음, 어느나라에서 했니?우리나라에 들어와 있는 미국 기업에 의해 생산된 상품의 가치 ->우리나라의 국내 총 생산에 포함미국에 나가있는 한국 기업에 의해 생산된 상품의 가치 -> 우리나라의 국내 총생산에 포함 안됨(미국의 국내총생산에 포함)3. 최종적인 용도로 사용되는 -> 최종재만 포함그 나라 안에서 생산된 것이라도 다른 상품을 생산하는데 사용되는 중간재는 국내총생산에 포함 안됨.
1.표본비율의 표준오차는{sigma (모표준편차)} over {sqrt {n}}으로 구해진다. 이때 모표준편차의 값을 알지 못하기 때문에 보수적인 방법으로 모표준편차를 최대값인 1/2로 대체한 공식을 사용한다. 그러므로sigma =1/2 으로 두면{1} over {2 sqrt {n}} LEQ 0.01`=>`2 sqrt {n} GEQ 100`=>`n GEQ 2500 을 만족해야 한다. 그러므로 이 조사기관은 표준오차를 1% 이내로 유지하기위해서 적어도 2500명을 조사해야 한다.2.(1)붉은 공 6천개와 푸른 공 4천개가 들어있는 상자로부터 500개의 공을 무작위로 복원 추출 하는데, 218개가 푸른 공 이었다.표본에 푸른 공의 개수에 대한 기댓값은{4000} over {6000+4000} *500=200 이다. 관측 값은 218 이고, 확률오차는 218-200=18 이다. 그렇다면 표준오차는sqrt {n} * sqrt {p(1-p)} = sqrt {500} * sqrt {{4000} over {4000+6000} * {6000} over {4000+6000}} = sqrt {500} * sqrt {0.4*0.6}=10.95 이다.(2)붉은 공 6천개와 푸른 공 4천개가 들어있는 상자로부터 500개의 공을 무작위로 복원 추출 하는데, 191개가 푸른 공 이었다.표본에 있을 푸른 공의 개수에 대한 기댓값은{4000} over {6000+4000} *500=200 이고, 관측 값은 191 이다. 확률오차는 191-200= -9 이고, 표준오차는sqrt {n} * sqrt {p(1-p)} = sqrt {500} * sqrt {{4000} over {4000+6000} * {6000} over {4000+6000}} = sqrt {500} * sqrt {0.4*0.6}=10.95 이다.3.이 전구 회사에서 생산한 전구 중에서 95%가 품질기준을 통과한다고 한다. 그러므로 배달된 1000개의 전구에 대해서 960개 이상이 품질기준을 통과할 확률을 구해보자.품질기준을 통과할 전구의 수를 X라 하자. P(XGEQ 960)을 구해야 한다. 이 확률을 구하기 위해서는 X를 표준화를 해야 하므로 X에 대한 기댓값과 표준오차를 알아야한다.1000개의 전구에 대해서 95%가 품질기준을 통과한다고 한다면 1000*95%=950개가 품질기준을통과한다고 기대된다. 이에 대한 표준오차는sqrt {n*p*(1-p)} = sqrt {1000*0.95*0.05} APPROX 6.89이다.=> P(XGEQ 960)=>P( {X-950} over {6.89} GEQ {960-950} over {6.89} )=P(Z GEQ 1.45)=0.0735 이다. 그러므로 이 회사에서 960개 이상이 품질기준을 통과할 확률을 7.35% 이다.4.본문의 통계학자는 표본비율의 표준오차를 모표준편차를 표본크기의 제곱근으로 나누어 계산하였다. 하지만 모든 거래일에 대한 가격의 변동이 어떤 분포를 가지며, 어떤 관계를 갖는지에 대한 설명이 부족하다. 그러므로 모든 거래일이 상호 독립이고, 분포가 모두 동일하다는 가정이 필요하다. (즉, 모든 거래일에 대한 iid성립을 가정 해야 한다.)5.(1)100번의 매 반복시행마다 400회의 무작위 추출로 표본으로 구한 표본평균은 다른 값을 가진다. 그러므로 본문의 그림에서의 각 구간들이 서로 다른 중심을 갖게 되는 것이다.(2)100번의 매 반복시행마다 400회의 무작위 추출로 표본으로 구한 표본평균과 표본표준편차는 다른 값을 가지게 된다. 그래서 각 구간을 구할 때의 표본평균과 표본표준편차가 다른 값을 가지게 되고, 구간의 값은 매번 다르게 나온다. 그러므로 본문의 그림에서의 각 구간들의 길이가 서로 상이하게 된다.(3)95%신뢰구간의 의미는 매 시행마다 구한 신뢰구간 중 95%는 모평균을 포함한다는 의미이다. 본문의 그림은 모평균에 대한 100개의 95%신뢰구간을 구한 것으로, 수직선은 모평균을 나타낸다. 그러므로 전체 100개의 구간 중 수직선을 포함하는(모평균을 포함하는) 구간의 개수는 100*95%=95개 정도가 될 것 이라고 예상할 수 있다.6.n=100,bar{X}=12, SD=4(1)표본표준편차가 4 이므로, 100명을 무작위로 뽑아 조사한 표본평균의 표준오차는 SD/sqrt {n}=0.4이다.그러므로 평균 교육 기간에 대한 95% 신뢰 구간은[bar{X}±2*SE]=>[12-2*0.4,12+2*0.4]=>[11.2,12.8] 이다.(2)(i)보현이 100명에 대한 평균교육기간이 12, 혁린이는 평균교육기간이 11.4 이었다. 그러므로 보현과 혁린 두 명의 자료를 결합한다면 평균교육기간은{12+11.4} over {2}=11.7, n=200, 표본평균의 표준오차는SD/ sqrt {n} = {4} over {sqrt {200}} APPROX 0.3 이다. 그러므로 보현과 혁린 두 명의 자료를 결합하여 평균교육기간에 대한 95%신뢰구간을 구하면 [11.7-2*0.3,11.7+2*0.3]=>[11.1,12.3]이다.(ii)4명 모두의 자료를 결합한다면 평균교육기간은{12+11.4+12.2+12.4} over {4}=12, n=400, 표본평균의 표준오차는SD/ sqrt {n} = {4} over {sqrt {400}}=0.2 이다. 그러므로 4명 모두의 자료를 결합한 평균교육기간에 대한 95%신뢰구간은 [12-2*0.2,12+2*0.2]=>[11.6,12.4] 이다.(iii)혁린, 하연, 지영의 자료를 결합해서 평균교육기간을 구하면{11.4+12.2+12.4} over {3}=12 이다. 하지만 이 세 명의 자료를 이용해서 교육기간의 표준편차가 4라고 할 수 없다. 그러므로 표준편차를 계산해 보자. 혁린이의 평균교육기간을
1.(i)의 경우 상자의 평균은{1+1+5+7+8+8} over {6}=5 이고, 상자의 표준편차는sqrt {{(1-5) ^{2} +(1-5) ^{2} +(5-5) ^{2} +(7-5) ^{2} +(8-5) ^{2} +(8-5) ^{2}} over {6}}=sqrt {9}=3 이다. 이 상자에 대해서 100번 무작위 복원추출을 할 경우의 기댓값은 100X5=500 이고, 표준오차는sqrt {100}X3=30 이 된다.(ii)의 경우에는 상자의 평균이{14+17+21+23+25} over {5}=20 이고, 상자의 표준편차는sqrt {{(14-20) ^{2} +(17-20) ^{2} +(21-20) ^{2} +(23-20) ^{2} +(25-20) ^{2}} over {5}} =sqrt {16}=4 가 된다. 이 상자에 대해서 25회 무작위 복원추출을 할 경우 기댓값은 20X25=500 이고, 표준오차는sqrt {25}X4=20 이 된다.(1)(i)와 (ii)가 복원추출 후의 기댓값은 서로 같고, (i)의 표준오차가 비교적 크기 때문에 (ii)에 비해서 기댓값과는 거리가 있는 값들이 발생할 확률이 높게 된다. 그러므로 ‘합이 550 이상이면 천원을 번다.’ 의 조건 하에서 (i)의 선택이 더 유리하다고 추측할 수 있다.(2)(1)에서 설명한 바와 같이 기댓값과 거리가 있는 값들이 발생할 확률은 기댓값이 동일한 (i)와 (ii)를 비교해 봤을 때, 표준오차가 상대적으로 큰 (i)가 높다는 것을 알 수 있다. 그러므로 ‘합이 450 이하이면 천원을 번다.’ 의 조건 하에서 (i)의 선택이 더 유리하다고 추측할 수 있다.((1)에서의 550은 기댓값 500으로부터 양의방향(오른쪽 or 위)으로 50단위의 거리가 있는 것인 반면, (2)에서의 450은 기댓값 500으로부터 음의 방향 (왼쪽 or 아래) 으로 50단위의 거리가 있는 것이므로 500으로부터의 떨어진 정도는 같다. 그러므로 (1)과 (2)는 방향이 다를 뿐 기댓값으로부터 떨어진 정도는 동일한 상황이다.)(3)(ii)의 표준오차가 작다는 것은 기댓값 주변의 값이 실현될 확률이 높아진다는 것을 의미한다. (표준오차가 크기 때문에 비교적 멀리까지 많은 관측치가 분포해있는 (i)에 비해서) 그러므로 ‘합이 450에서 550 사이이면 천원을 번다’는 조건 하에서 표준오차가 상대적으로 작은 (ii)을 선택하는 것이 유리하다.2.가구당 16세 이상인 가구원의 수는 평균이 2.38명 , 표준편차가 1.87명이고, 표본으로 400가구를 단순 무작위 추출하여 16세 이상인 모든 가구원과 면담하려 한다. 이를 평균이 2.38이고, 표준편차가 1.87인 5만장의 카드가 들어있는 상자로부터 카드를 400회 무작위 복원 추출 하는 경우의 합에 대해 고려 할 때와 관련해서 생각해보자.도시에서 한 가구당 16세 이상인 가구원의 수는 평균 2.38명이라 하였으니, 면담하게 되는 사람들의 총 수는 400X2.38=952명이다. 즉, 약 950명이다. 또한, 한 가구당 16세 이상인 가구원의 수의 표준편차가 1.87이라 하였으므로, 400명을 단순무작위 추출 했을 때 표준오차는sqrt {400} TIMES 1.87=37.4로, 기대되는 오차는 약±37명 정도의 오차가 있을 것으로 예상된다.3.주사위를 한번 던졌을 때 1이 나올 확률은{1} over {6}이다. 이는 각 시행에서 ‘1이 나올 경우’,‘1의 값이 나오지 않을 경우’ 두 가지의 결과만 도출되고, 각각의 시행은 서로 독립이기 때문에 이를 베르누이 분포라 할 수 있다. 이를 180회 시행 했을 때 1이 나온 횟수에 대한 기댓값은180X {1} over {6}=30 이 되고, 표준오차는 (베르누이 분포의 표준편차는sqrt {p(1-p)}이므로)sqrt {{1} over {6} TIMES {5} over {6}}Xsqrt {180}=5 이다. 이때, 1이 나온 횟수를 X라 하자. X는 이산 확률 변수인데, 1이 나온 횟수가 15에서 45사이인 사람들의 비중을 구하기 위해서는 정규분포를 사용해야 하므로 정규근사를 시행하여야 한다. P(15LEQ XLEQ 45)=P(14.5LEQ XLEQ 45.5)=P({14.5-30} over {5}LEQ ZLEQ {45.5-30} over {5})(↑표준화)=P(-3.1LEQ ZLEQ 3.1)=0.998 이다. 그러므로 1이 나온 횟수가 15에서 45 사이인 사람들은 전체의 99.8% 가 된다.4.(1)동전의 앞면이 나올 횟수에 대해서 고려해야 하는데, 이는 1,2,3...과 같은 정수의 값을 취하기 때문에 이산 확률 변수로 여겨진다. 때문에 확률히스토그램에서 직사각형 밑변의 끝점을 고려해야한다. 만일 동전을 100회 던진다면 앞면이 나올 기댓값은 50(=100TIMES {1} over {2})으로 고려되며, 표준오차는 (sqrt {100 TIMES {1} over {2} TIMES {1} over {2}}=) 5 로 여겨진다. 동전의 앞면을 나타내는 이산 확률 변수를 X라 하자.만일 확률히스토그램에서 직사각형 밑변의 끝점을 고려하지 않을 경우 에는 P(XLEQ 50)= P({X-50} over {5} LEQ {50-50} over {5})=P(ZLEQ 0)=0.5 이다.반면, 밑변의 끝점을 고려할 경우에는 P(XLEQ 50)→P(XLEQ 50.5)=P({X-50} over {5} LEQ {50.5-50} over {5})=P(ZLEQ 0.1)=0.5398 이다.이 과정을 이항공식에 의해 계산하게 된다면 ( P(XLEQ 50)=sum _{i=1} ^{50} P(X=i) ) 그 값은 확률히스토그램에서 직사각형 밑변의 끝점을 고려하지 않았을 때보다 고려하였을 때의 값과 더 유사한 값이 나오게 된다. 그러므로 밑변의 끝 점을 고려 하는 것이 효율적이고, 더욱 정확한 값을 가질 수 있다는 것을 알 수 있게 된다.(2)시행횟수가 커질수록 직사각형 밑변의 끝점을 고려하는지와 안하는지에 대한 여부의 차이는 점점 줄어들게 된다. 그러므로 900회라는 비교적 큰 시행횟수를 시행 할 때는 끝점을 고려해야 하는 필요성이 비교적 줄게 된다.5.너무 낮을 것 이다.앞면이 나올 확률이 오로지{1} over {10} 으로 상자의 내용물이 비대칭적이고, 히스토그램의 분포가 왼쪽에 몰려있어서 꼬리가 오른쪽으로 늘어진 형태라고 말할 수 있다. 하지만 25회는 정규분포로 근사하기에 충분히 큰 시행횟수가 아니고, 이러한 비대칭적인 히스토그램에 대해서 정규분포로 근사하기에는 더더욱 부족한 시행횟수이다. 그러므로 앞면이 나올 확률이{1} over {10} 이면서 시행횟수가 25회인 이 상황에서는 정규 근사를 이용하기에 어려움이 따른다.만일 정규근사를 이용한다면, 이 상황에서의 확률히스토그램은 꼬리가 오른쪽으로 늘어진 비대칭적인 형태이다. 그림13-5에서 25회 추출하는 경우를 보면 합이 1인 경우 직사각형의 면적이 정규분포 곡선 아래의 면적보다 크게 보여 진다. 그러므로 정규근사를 하게 된다면 직사각형의 면적을 과소평가 하게 되는 경향이 있게 된다. 그러므로 정규근사를 이용하여 얻어진 값은 [너무 낮다.]고 할 수 있다.6.(1)참100장의 카드를 무작위 복원 추출 하여 얻은 표본의 합에 대해 고려해 보자.표본의 합의 기댓값은 100TIMES (0 TIMES {99} over {100} +1 TIMES {1} over {100} ) = 1 이고, 표준오차는sqrt {{99(0-1) ^{2} +(1-1) ^{2}} over {100}} TIMES sqrt {100} =1 이다. 이를 보아 합은 1주위에 있고(표본합의 기댓값 = 1),1 정도의 오차가 있다(표본합의 표준오차가 1).(2)거짓표본의 합을 나타내는 확률변수를 X라 하자. X는 이산적인 값을 가지게 되므로 이산 확률 변수 임을 알 수 있다. 우리는 합이 0과 2 사이가 될 확률을 알기 위해서는 정규근사를 해야 한다. 그러나 이 상자에 내용물은 (0이 99개, 1이 1개로) 매우 극단적으로 비대칭적이기 때문에 100번의 시행만으로는 정규분포로 근사시키기에 어려움이 따른다. 그러므로 합이 0과 2사이 일 때 의 전체적인 비중을 찾을 수 없게 된다.
1. x:빵의 일일 판매량 이라 하자. 그렇다면 x~N(30,100)의 분포를 따르게 된다. 매일 빵을 40KG씩 만들기로 작정하였을 때 이 빵집에서 빵이 모자라게 될 확률을 구해보자.P(XGEQ 40)=P( {x-30} over {10} GEQ {40-30} over {10} )=P(ZGEQ 1)=0.1587 이다. 그러므로 일일판매량이 40KG 이상이어서 빵이 모자라게 될 확률은 16%이다.2.(1)아니다.단순히 뉴욕주의 평균점수가 와이오밍 주에 비해 낮다는 점만을 보고 와이오밍 주의 학교가 뉴욕주의 학교보다 수학을 더 잘 가르친다고 보기는 어렵다. 이 문제에서는 시험에 응시한 학생의 비율, 시험 봤을때의 환경 등의 다른 요인에 대해 언급한 바가 없기 때문에 단순히 시험점수의 평균만을 가지고 와이오밍주의 학교가 수학을 더 잘 가르친다고 섣불리 판단할 수는 없다.(예를 들어 운이 나쁘게도 시험 보는 날 뉴욕 주에 위치한 학교 운동장에서 소음이 발생하여서 학생들의 시험점수에 영향을 주었다면 대체로 뉴욕 주에 위치한 학교 학생들의 점수가 낮게 나올 가능성이 있다. 이러한 점들에 의해 시험점수는 쉽게 영향을 받기 때문에 오직 시험점수만을 이용해서 판단하기는 어렵다.)(2)개별 응시생에 대한 수학점수와 언어점수간의 상관계수는 0.97보다 작을것이라고 예상할 수 있다. 그 이유는 개별 응시생에 대한 자료가 아닌 비율 혹은 평균에 기초하여 상관계수를 구했다면 이는 실제 두변수의 상관관계를 과장하는 경향이 있기 때문이다.3.(1)독립이다.뽑은 카드 중에 앞에 있는 숫자를 A, 뒤에 있는 숫자를 B라고 하자. 예를 들어 앞에 있는 숫자가 4, 뒤에있는 숫자가 3 이라면 A=4,B=3이다. 독립인지 종속인지 알기 위해서는 P(A,B)=P(A)XP(B)를 만족해야 한다. 이때 P(A,B)=P(A)XP(B) 이 한 경우라도 불만족 한다면 독립이라 말할 수 없다.P(A=1,B=2)=P(A=1,B=3)=P(A=4,B=2)=P(A=4,B=3)=1/4P(A=1)=2/4=1/2=P(A=4)=P(B=2)=P(B=3) 이다.그러므로 1/4=P(A=1,B=2)=P(A=1)*P(B=2)=(1/2)*(1/2)1/4=P(A=1,B=3)=P(A=1)*P(B=3)=(1/2)*(1/2)1/4=P(A=4,B=2)=P(A=4)*P(B=2)=(1/2)*(1/2)1/4=P(A=4,B=3)=P(A=4)*P(B=3)=(1/2)*(1/2) 이 성립한다. 그러므로 모든 A,B 에 대해서 P(A,B)=P(A)XP(B) 를 만족하고, 독립임을 알 수 있다.(2)독립이다.P(A=1,B=2)=P(A=4,B=2)=1/6P(A=1,B=3)=P(A=4,B=3)=2/6=1/3P(A=1)=P(A=4)=3/6 , P(B=2)=2/6=1/3, P(B=3)=4/6=2/3 이다.위의 방법처럼 계산해보면 모든 A,B에 대해서 P(A,B)=P(A)XP(B) 이 성립하고 독립이 됨을 알 수 있다.(3)종속이다.P(A=1,B=2)=P(A=4,B=3)=1/6, P(A=1,B=3)=P(A=4,B=2)=2/6P(A=1)=P(A=4)=P(B=2)=P(B=3)=3/6=1/2 이다.이때, 1/3=P(A=1,B=3)!= P(A=1)X(B=3)=(1/2)*(1/2) 이다. 단 한 경우라도 P(A,B)!= P(A)XP(B)가 성립한다면 독립이 아니기 때문에 이 경우는 종속이다.4. 우리나라 전체인구의 50.2%가 여성, 전체 인구의 11.3%가 65세 이상의 고령층이다. 우리나라에서 여성인 경우를 A , 65세 이상인 경우를 B라 했을 때 P(A)=0.502, P(B)=0.113 이다. 이때 전체인구에서 65세 이상 여성이 차지하는 비율 즉, P(A,B)를 P(A)*P(B) 로 구한다는 것은 잘못된 계산이다. 이 계산방법은 ‘성별’과 ‘65세 이상, 즉, 고령층인지 아닌지에 대한 여부’가 독립일 경우에 적용 가능한 계산 방법 이다. 그렇기 때문에 일반적으로 P(A,B)=P(A)*P(BIA)=P(B)*P(AIB) 의 방법인 조건부확률을 이용한 곱셈법칙을 사용해야 한다.5.(1)주사위를 던질 때 3이상의 눈이 나올 경우는 3,4,5,6 이므로 3 이상의 눈이 나올 확률은 4/6=2/3 이다. 주사위를 4회 던지는 경우, 매번 3이상의 눈이 나올 확률을 구하는 것은 3이상의 눈이 나올 경우와 3이상의 눈이 나오지 않을 경우로 나누어 생각하면 이항분포를 따른다는 것을 알수 있다.(n=4,k=4,p=2/3인 경우) 그러므로 이항공식을 이용해서{} _{4} C _{4} ( {2} over {3} ) ^{4} ( {1} over {3} ) ^{0}=0.1975 임을 알 수 있다. 즉, 주사위를 4회 던지는 경우, 매번 3이상의 눈이 나올 확률은 19.75%이다.(2)이 경우는 3이상의 눈이 전혀 나오지 않을 확률이므로 n=4,k=0,p=1/3 인 이항분포를 따르게 되고,{} _{4} C _{0} ( {1} over {3} ) ^{4} ( {2} over {3} ) ^{0}=0.0123 임을 알 수 있다. 그러므로 주사위를 4회 던지는 경우, 3이상의 눈이 전혀 나오지 않을 확률은 1.23% 이다.
p.45 #8출산 횟수가 혈압에 영향을 미치는지 알아보기 위해 자녀가 2명인 여성들과 자녀가 4명인 여성들의 혈압분포를 조사하여 아래 결과를 얻었다. 어느집단의 혈압이 더 높은가? 이로부터 출산횟수가 두 집단간 혈압의 차이를 초래한 요인이라고 주장하면 이는 타당한가?=>자녀가 4명인 여성 집단의 혈압이 평균적으로 더 높다. 그러나 무작위 통제에 의한 실험결과가 아니므로 출산횟수가 두 집단간 혈압차이를 가져왔다고 결론 지을 수는 없다. 자녀가 4명인 여성집단은 자녀가 2명인 여성집단보다 평균적으로 나이가 많다. 나이가 많을수록 혈압은 높아지는 경향이 있다.#9.17-24세 여성의 경우 경구피임약 복용은 고혈압자의 비율을 높이는 경향이 있다.17-24세 여성의 경우 경구피임약 복용은 혈압을 전반적으로 높이는 경향이 있다. 경구피임약의 복용자가 비복용자에 비해 혈압이 높다.비복용자로 한정해 볼때 17-24세 여성과 25세-34세 여성은 혈압분포에 있어서 큰 차이를 보이지 않는다. 이로부터 20세에서 30세 사이 여성의 경우 혈압은 그다지 나이의 영향을 받지 않는 것으로 보인다.p.87 #1.화씨->섭씨어떤 사람의 체온이 화씨단위로 평균체온보다 1.5SD만큼 높다. 이 값을 섭씨 단위에서의 표준단위 값으로 바꾸면화씨 단위로 1.5SD(F) 만큼 평균보다 높다면 섭씨단위로도 1.5SD(C)만큼 높다. 즉 섭씨단위를 써도 표준단위로 환산하면 여전히 1,5단위만큼 높은것이다.#3100개의 시험 성적에 대한 자료가 표준 단위 형태로 나타나 있다. 이 자료들 중 처음 10개의 값은 다음과 같다. 이 값들은 이상이 없어 보이는가?-5.4 4.5 1.0 -6.1 7.2....제시된 10개의 값중에 평균으로부터 플마3SD 이상 떨어진 값에 해당하는 값, 즉 표준점수 값이 절대값으로 3이상인 값들이 지나치게 많다. 표준점수의 계산과정에 무언가 문제가 있는 것으로 판단된다.#42009년도에 미국의 한 법학대학원에 입학서류를 낸 지원자들의 LAST점수는 평균이 169,표준편차가 9이었다. 최고득점자는 178점을 득점했다. LAST점수의 분포가 정규분포를 따른다고 볼 수 있는가?LAST점수의 분포가 정규분포를 따른다면 평균보다 1SD 높은 178점 이상 득점한 사람의 비율은 전체의 16%정도가 되어야 한다. 그런데 최고득점자가 178점을 얻었으므로 문제의 점수분포는 정규분포를 따른다고 보기 어렵다.#9한 나라에서 25세부터 54세 사이의 남성의 연간소득은 2009년도 기준으로 평균이 $35,000 이고 표준편차가 $23,000 이다. 단지 0.1%의 남성만이 $150,000이상의 소득을 올린다. 그렇다면 연간 소득이 $35,000 와 $150,000 사이인 남성의 비율은 40%?50%?60%?소득의 분포는 오른쪽으로 꼬리가 길게 늘어지는 분포일 것이므로 전체 소득의 비율을 50%로 양분하는 중앙값이 평균보다 작다. 따라서 제시된 세 숫자 중에서 40%가 적절.#10센서스 조사의 정의에 따르면 ‘가족’은 함께 거주하는 둘 이상의 사람으로 구성되지만 ‘가구’는 동일한 거주 단위에 함께 사는 한명 이상의 사람으로 구성된다. 즉 한 가구는 한 사람, 또는 한 가족, 더 나아가 관계는 없으나 같이 거주하는 사람들로 구성될 수 있다. 한 센서스 자료를 보면 가족의 평균소득은 가구의 평균소득보다 약 10%가 높았다. 이러한 결과가 어떻게 나타날 수 있는지 간단히 설명센서스 조사의 정의에 따르면 모든 ‘가족’은 ‘가구’에 해당하지만, ‘가구’에는 ‘가족’외에 혼자사는 사람도 포함된다는 데에 유의할 필요가 있다. 2000년 센서스 자료는 가구의 평균소득이 가족의 평균소득보다 10%낮았다는 것인데, 이는 ‘가족’이 아니지만 ‘가구’에 해당하는 경우들, 즉 독거노인, 가족과 떨어져 살지만 아직 소득이 없는 학생 등이 평균적인 가족에 비해 대체로 소득이 낮기 때문인 것으로 보인다.모든 자료의 분포각 언제나 정규분포를 따르는 것은 아니다.p.114 #2상관계수가 0.9 일때 산포도상에서 90%의 점들이 하나의 직선상에 위치?(X)하나의 선 주위에 빽빽하게 밀집?(X)=>상관계수는 하나의 직선 주위에 점들이 전체적으로 밀집해 있는 정도를 측정해 준다.#410문제로 이루어진 어느 시험에서 부분점수는 없다. 강의조교가 모든 학생에 대해 맞은개수와 틀린개수를 측정하였다. 두 계수간 상관계수는 얼마인지 답=>10문제로 이루어진 시험에서 부분점수가 없으므로 산포도 상에 맞은개수,틀린개수를 자료에 표시하면 모든점은 직섬 y=10-x위에 정확히 위치한다. 모든 점이 하나의 우하향하는 선 위에 위치하는 것은 완벽한 음의 상관관계를 의미 =>r=-1r=COV(X,10-X)/sqrt(VAR(X))*sqrt(VAR(10-X))일반적으로 개별자료가 아닌 비율이나 평균에 기초하여 구한 상관계수는 실제이상으로 두 변수관계를 과장시키는 경향.독립인지아닌지 확인스페이드J가 위치할 수 있는 곳은 52개 이며, 각각의 위치에 있을 확률은 모두 같다. 맨 위에 스페이드 J위치하고 나면 다이아몬드 J가 놓일 수 있는 곳은 51개=>두사건은 독립이 아니므로 좁은의미의 곱셈법칙이 아닌 넓은의미의 곱셈법칙에 따라 1/52X1/51P.220 #18주사위를 세 번 던질때, 각각의 시행에서 1이 나오는 사건은 독립이지 상호배반이 아니므로 좁은 의미의 덧셈법칙을 이용한 것은 잘못이다. ‘1이 적어도 한번 나오는 사건’은 ‘1이 한번도 나오지 않는 사건’의 여사건 이고, 각각의 시행은 독립이므로 올바르게 구한 확률은 다음과 같다.1-(5/6)^3동전을 두 번 던질때, 앞면이 적어도 한번 나올 사건은 앞면이 한번도 나오지 않는 사건의 여사건이고, 각가의 시행은 독립이므로1-(1/2)^2#19-2사건 A와B가 상호배반이면, 두 사건은 독립일 수 없다.배반인 두 사건은 서로 동시에 일어날 수 없다. 절대로 동시에 일어날 수 없는 두 사건 중 한 사건이 일어나면 다른 사건이 일어날 확률은 0으로 업데이트된다. 그러므로 절대로 독립일 수 없다.#21주사위 60번 던져 1또는 6이 나올때마다 천원씩 받는다OR (1,1,0,0,0,0)의 여섯숫자가 적힌 카드가 들어있는 상자로부터 무작위로 60번 복원추출한다. 한번 뽑을때마다 종이에 적힌 숫자의 천배만큼 돈을 받는다.=>어느 선택이나 기대할 수 있는 금액은 동일하다. 즉 어느 선택이나 한번의 추출에서 1000원을 받을 확률은 1/3이고 0원을 받을 확률은 2/3으로 동일하다. 그리고 복원추출이기 때문에 60번의 시행은 서로 독립이다. 이항분포 B(60,1/3)을 따르는 하나의 확률변수를 X로 표현할 때 최종적으로 받게 되는 금액은 1000X라는 확률변수로 표현된다. 따라서 기대금액은 1000X60X1/3=20000#23주사위 3회를 던졌다. 첫 번째 숫자와 동일한 숫자가 계속해서 나올확률은?(1) 첫 번째 숫자가 1일 경우=> P(2번째 숫자가 1이고 3번째 숫자가 1I1번째 숫자가 1)(2)첫번째 숫자를 모를 경우첫 번째 숫자가 1이면서 문제의 조건을 만족시킬 확률,...,첫번째 숫자가 6이면서 문제의 조건을 만족시킬 확률 등 총 6개의 확률을 구해 이들을 모두 더한다.(1/6)*(1/6)^2+...=1/36If독립, 전체에서의 남학생의 비율= 25세이상 집단에서의 남학생의 비율p.235 #3비타민을 먹은 캥거루는 보다 빨리 미로를 빠져나간다는 주장이있다. 이 주장이 사실인지 알아보기 위해 20마리의 캥거루를 10쌍으로 나누고 각 쌍에서 한 마리를 임의로 뽑아 비타민을 먹이고 다른 한 마리에게는 보통의 먹이를 주었다. 쌍별로 미로를 빠져나가는데 걸리는 시간을 쟀더니 10쌍 중 7쌍에서 비타민을 먹은 캥거루가 먹지않은 캥거루보다 더 빨리 미로를 빠져나갔다. 잠정적으로 비타민이 아무런 효과가 없다고 가정해보자. 단지 운 때문에 7쌍 또는 그 이상에서 비타민을 먹은 캥거루가 먹지 않은 캥거루보다 미로를 더 빨리 빠져나갔을 확률은?