학사학위논문다중선형회귀분석을 이용한 중고차 가격 결정 요인에 관한 연구- 브랜드 위상에 따른 가격 구조의 차이를 중심으로 -지도교수 OOOOO대학교 통계학과OOO20OO목 차목 차ⅰ표 목 차ⅱ그 림 목 차ⅲI. 서 론1Ⅱ. 본 론31. 이론적 배경 및 선행 연구 3가. 다중선형회귀분석3(1) 모형의 구조 및 추정 방법3(2) 변수 선택 방법 및 모형 성능 평가4나. 선행 연구 고찰5(1) 국내의 중고차 가격 예측 연구5(2) 본 연구의 차별점62. 연구설계7가. 데이터 소개7(1) 데이터 수집 및 전처리7(2) 변수 소개8나. 분석 방법133. 실증 분석 결과15가. 다중 회귀 분석 결과15(1) 전체 데이터에 대한 회귀분석15(2) 시장 세분화 분석17나. 모형의 예측성 진단18Ⅲ. 결론20Ⅳ. 부록22참고문헌27표 목 차 브랜드 유형별 분류 기준 및 분포13 전체 데이터에 대한 다중회귀분석 결과15 시장 세분화 회귀분석 결과 비교17 모형별 예측 성능 평가지표 비교18그 림 목 차【그림 1】 중고차 가격 히스토그램8【그림 2】 차령 히스토그램9【그림 3】 주행거리 히스토그램9【그림 4】 배기량 히스토그램10【그림 5】 최대출력 히스토그램10【그림 6】 연비 히스토그램11【그림 7】 소유주 변경 횟수 막대그래프11【그림 8】 연료타입 막대그래프12【그림 9】 변속기 막대그래프12Ⅰ. 서 론현대 자동차 시장에서 중고차 거래는 단순한 자산의 재분배를 넘어 합리적인 소비문화의 확산과 자원 순환 경제의 핵심축으로 자리 잡고 있다. 최근 차량용 반도체 수급난과 신차 가격 상승, 경기 불황 등이 맞물리며 신차의 대체재로서 중고차의 경제적 가치는 그 어느 때보다 높게 평가받고 있다. 시장의 성장세는 수치적으로도 뚜렷하다. 국내 중고차 시장의 경우 연간 소비자 거래 약 250~260만 대, 금액 기준 약 30조 원 규모를 형성하고 있으며, 이는 신차 거래 규모의 약 1.4배에 달하는 수치이다. 선진국 시장의 중고차 거래 규모가 신차 대비 약 2배 내외인 점을 고려할 때, 형태로 표현된다.Y_i = beta_0 + beta_1 X_{i1} + beta_2 X_{i2} + cdots + beta_k X_{ik} + epsilon_i여기서Y_i는i번째 관측치의 종속변수 값(중고차 가격),X_ik는i번째 관측치의k번째 독립변수 값,beta_o는 절편(Intercept),beta_k는k번째 독립변수의 회귀계수(Regression Coefficient),epsilon_i는 오차항(Error Term)을 의미한다. 이를 행렬 형태로 표현하면 다음과 같다.bold{Y} = bold{X} bold{beta} + bold{epsilon}이때 회귀계수 벡터를 추정하기 위해 가장 널리 사용되는 방법은 최소제곱법(Ordinary Least Squares)이다. 최소제곱법은 관측값(Y_i)과 모형에 의해 예측된 값(hat{Y}_i)의 차이, 즉 잔차의 제곱합(Sum of Squared Errors)을 최소화하는bold{beta}를 찾는 방법이다. 잔차의 제곱합S(bold{beta})는 다음과 같이 정의된다.S(bold{beta}) = sum_{i=1}^{n} (Y_i - hat{Y_i})^2 = (bold{Y} - bold{X} bold{beta})^T (bold{Y} - bold{X} bold{beta})이 식을bold{beta}에 대해 편미분하고 그 값을 0으로 놓으면, 정규방정식을 통해 다음과 같은 추정량hat{bold{beta}}을 도출할 수 있다.hat{bold{beta}} = (bold{X}^T bold{X})^{-1} bold{X}^T bold{Y}이러한 OLS 추정량이 최량선형불편추정량(Best Linear Unbiased Estimator)이 되기 위해서는 오차항에 대한 기본 가정인 정규성(Normality), 등분산성(Homoscedasticity), 독립성(Independence), 선형성(Linearity)이 충족되어야 한다.(2) 변수 선택 방법 및 모형 성능 평가다중회귀분석에서는 모형의 설명력을 높이는 것뿐만 아니라, 불필요한음과 같은 차별점을 갖는다.첫째, 예측보다는 해석에 주안점을 두었다. 머신러닝 기반의 선행 연구들이 '가격을 얼마나 정확히 맞히는가'에 집중했다면, 본 연구는 통계적 해석이 명확한 다중선형회귀분석을 통해 연식, 주행거리, 연료 등 각 요인이 가격에 미치는 영향력을 정량적으로 확인하는 데 집중하였다.둘째, 브랜드 위상에 따른 시장 비교 분석을 시도하였다. 기존 연구들이 데이터 전체를 통합하여 분석하거나 특정 제조사의 사례에 집중했던 것과 달리, 본 연구는 전체 표본을 ‘프리미엄 브랜드’와 ‘대중 브랜드’로 구분하여 분석을 수행하였다. 이를 통해 동일한 스펙을 가진 차량이라도 브랜드의 위상에 따라 감가상각의 패턴이 구조적으로 다를 수 있음을 실증적으로 확인하고자 한다.2. 연구설계가. 데이터 소개(1) 데이터 수집 및 전처리본 연구는 중고차 가격 결정 요인을 분석하기 위해 글로벌 데이터 플랫폼 Kaggle(www.kaggle.com)의 ‘Used Car Prices’ 데이터를 활용하였다. 해당 데이터는 해외 중고차 거래 플랫폼인 Cars24에서 수집된 총 6,019개의 관측치로 구성되어 있으며, 연식, 주행거리, 엔진 성능 등 상세한 정보를 담고 있다. 그러나 초기 상태에는 문자와 숫자가 섞여 있거나 일부 정보가 비어 있는 경우가 많았다. 따라서 분석 결과의 정확도를 높이기 위해 다음과 같은 과정을 거쳐 총 5,807개의 관측치를 분석에 사용하였다.첫째, 문자와 숫자가 혼재된 데이터를 분석 가능한 숫자로 변환하였다. 원본 데이터의 배기량, 최대출력, 연비 항목에는 ‘1582CC’, ‘126.2 bhp’와 같이 단위가 함께 적혀 있었다. 이를 통계 분석에 바로 사용할 수 있도록 단위(CC, bhp, km/l)를 지우고 숫자만 추출하였다. 또한, 출력이 ‘null bhp’로 표기되어 있거나 필수 정보가 누락된 데이터는 제거하여 분석의 신뢰성을 확보하였다.둘째, 가격 단위를 알기 쉽게 표준화하였다. 원본 데이터의 가격은 인도 화폐 단위로 되어 있어 직관적으로 이해하기 분포는 오른쪽 꼬리가 긴 형태를 보이는데, 이는 일반 승용차 모델이 시장의 주류를 이루는 가운데 300마력을 상회하는 고성능 스포츠카 및 프리미엄 세단이 소수 존재하여 분포의 오른쪽 꼬리를 형성하고 있기 때문이다.【그림 5】최대출력 히스토그램- 연비: 리터당 주행 가능한 거리(km/l)로 측정된 에너지 효율성 지표이다. 경제성을 중시하는 중고차 시장 특성상 연비가 높은 차량은 유지비 절감 효과로 인해 선호도가 높을 수 있으나, 고성능·고가 차량일수록 연비가 낮은 경향이 있어 가격과의 관계는 복합적일 수 있다. 분포를 살펴보면, 평균 18.1 km/l를 중심으로 좌우 대칭에 가까운 정규분포(Normal Distribution) 형태를 띠고 있으며, 매물 대다수가 15 km/l에서 25 km/l 구간에 밀집해 있다.【그림 6】연비 히스토그램- 소유주 변경 횟수: 신차 출고 이후 소유자가 변경된 횟수를 나타내는 변수이다. 소유주 변경이 잦은 차량은 관리 이력이 불분명하거나 잠재적 결함이 있을 가능성이 높게 인식되므로, 가격 감소 요인으로 작용할 가능성이 있다. 막대그래프를 보면 대다수의 관측치가 1인 신조(First Owner) 차량으로 구성되어 있다.【그림 7】소유주 변경 횟수 막대그래프- 연료 타입: 차량의 구동 에너지원을 의미한다. 본 연구에서는 전체 표본 중 가솔린(Petrol, n=2,655)과 디젤(Diesel, n=3,152) 두 가지 그룹으로 범주화하여 분석을 수행하였다.【그림 8】연료타입 막대그래프- 변속기: 기어 조작 방식을 수동(Manual)과 자동(Automatic)으로 구분한다. 운전 편의성이 높은 자동 변속기는 수동 변속기 대비 신차 가격이 높으며, 이러한 가격 격차는 중고차 시장에서도 유의미하게 유지될 것으로 가정한다. 변속기 막대그래프를 보면 수동 변속기(Manual, n=4,105)가 자동 변속기(Automatic, n=1,702)보다 압도적으로 높은 비중을 차지하고 있다.【그림 9】변속기 막대그래프- 브랜드 분류: 시장 내 브랜드 .또한, 연비(km/l)의 계수가 ?112.010으로 나타났는데 이는 연비 효율성이 좋을수록 가격이 상승할 것이라는 일반적인 기대와 달리, 고연비 차량이 주로 소형/저가 모델이며 연비가 좋을수록 가격이 낮게 형성되는 소형차의 특징이 드러난 것으로 해석할 수 있다.가격 상승 요인으로는 ‘배기량’, ‘최대 출력’, ‘연료 타입’, ‘브랜드 위상’ 변수가 있다. 최대 출력(bhp)의 계수는 +85.667로, 출력이 1 bhp 증가할 때마다 가격은 약 86달러 상승하는 경향을 보였다. 배기량(cc)의 계수는 +2.935로 가격 상승 요인임을 보여주었으며, 연료타입(디젤)은 계수가 +1,238.583로, 가솔린 차량 대비 디젤 차량이 평균적으로 약 1,239달러의 가격 우위를 갖는 요인으로 분석되었다. 마지막으로 브랜드 위상(프리미엄)의 계수는 +11,380.669로 나타났다. 이는 연식, 주행거리 등 다른 조건이 동일하다고 가정할 때, 프리미엄 브랜드 차량이 대중 브랜드 차량 대비 평균적으로 약 11,381달러 더 높은 가격을 형성함을 의미하며, 브랜드 가치가 중고차 가격 결정에 있어 강력한 요인으로 작용함을 나타낸다.(2) 시장 세분화 분석 시장 세분화 회귀분석 결과 비교전체 표본을 프리미엄 브랜드와 대중 브랜드로 구분하여 회귀분석을 수행한 결과는 과 같다. 두 시장의 가격 결정 메커니즘은 변수의 영향력 및 민감도 측면에서 구조적인 차이를 보이며, 이는 본 연구가 제기한 시장 세분화의 필요성을 뒷받침한다.두 시장 간의 가장 두드러진 차이는 노후화에 대한 민감도와 리스크 허용 수준에서 발견되었다. 차령 계수는 프리미엄 브랜드에서 대중 브랜드 대비 약 6배 이상 높게 나타났는데, 이는 프리미엄 차량이 대중 차량에 비해 시간 경과에 따른 가치 보존력이 취약하며, 연식 증가가 가격 하락에 미치는 영향이 훨씬 크다는 것을 의미한다.또한, 주행거리(km) 및 소유주 변경 횟수 변수에서 흥미로운 대조가 확인되었다. 전체 데이터 분석에서는 통계적으로 유의하지 않아 제외되었던 ‘소다.