출석수업 과제물R cherryblossom 패키지에 내장된 run09 데이터셋은 2009년에 미국 워싱턴 디씨에서 열린 벚꽃 달리기 대회 참가자 14,974명에 대한 정보를 담고 있다. 이 데이터에 담긴 변수에 관한 설명은 R에서 명령문 ?run09를 실행하면 읽을 수 있다. 이 데이터를 이용하여 다음의 문항에 답하시오.1. 참가자 중 여성이면서 성씨(last name)가 Park인 참가자는 총 몇 명인가? (3점)그림입니다.원본 그림의 이름: 스크린샷 2025-10-24 164104.png원본 그림의 크기: 가로 885pixel, 세로 845pixel답: 총 6명이다코드:install.packages("cherryblossom")library(cherryblossom)summary(run09)sum(run09$gender=="F" & run09$last=="Park")2. 여성인 참가자 중 나이(age)가 결측인 참가자가 1명 있다. 이 참가자의 나이는 사실 40세라고 하자. 여성 참가자 전체를 나이를 기준으로 35세 이상인 그룹과 35세 미만인 그룹으로 나누는 변수를 생성하시오. 각 그룹에는 몇 명의 참가자가 있는가? (3점)사각형입니다.그림입니다.원본 그림의 이름: 스크린샷 2025-10-24 170453.png원본 그림의 크기: 가로 806pixel, 세로 789pixel첫 번째 run.fm: 빨간 네모칸은 결측치를 표시함사각형입니다.그림입니다.원본 그림의 이름: 스크린샷 2025-10-24 170507.png원본 그림의 크기: 가로 806pixel, 세로 792pixel두 번째 run.fm: 결측치가 사라졌음을 확인함사각형입니다.그림입니다.원본 그림의 이름: 스크린샷 2025-10-24 170518.png원본 그림의 크기: 가로 799pixel, 세로 799pixel세 번째 run.fm:빨간 네모칸에 age group(35세 미만/35세 이상)으로 구분됨을 확인함세 번째 run.fm의 summary 결과에서 볼 수 있듯이,35세 이상인 그룹은 2914명이고35세 미만인 그룹은 5409명이다.코드:library(dplyr)run.fm % filter(gender=="F")summary(run.fm)run.fm % mutate(age=replace(age, is.na(age), 40))summary(run.fm)run.fm % mutate(age.group=as.factor(ifelse(age>=35, 1, 0)))summary(run.fm)3. 여성인 참가자만 고려했을 때, 2번 문항에서 생성한 나이 그룹 별로 경기 기록(net_time)의 분포가 어떻게 다른지 나타내는 상자 그림을 그리시오. 그래프의 제목으로 본인의 학번을 출력하시오. (4점)그림입니다.원본 그림의 이름: CLP00004bec3d2d.bmp원본 그림의 크기: 가로 961pixel, 세로 741pixel코드:library(ggplot2)ggplot(data=run.fm) +geom_boxplot(aes(x=age.group, y=net_time)) +labs(title="202435-368368")4. 여성인 참가자만 고려했을 때, 2번 문항에서 생성한 나이 그룹 별로 경기 기록(net_time)의 평균이 다른지 t-검정을 수행하시오. (4점)그림입니다.원본 그림의 이름: 스크린샷 2025-10-24 172311.png원본 그림의 크기: 가로 890pixel, 세로 316pixel여기서대립가설(alternative hypothesis)는 “그룹 0(35세 미만 그룹)과 그룹 1(35세 이상 그룹) 간의 차이가 있다”이고,귀무가설은 그 반대인 “그룹 0과 그룹 1 간의 차이가 없다”이다.welch Two sample t-test 결과p-value가 0.05보다 작으므로귀무가설을 기각하고대립가설을 채택한다.즉, 나이 그룹 별로 경기 기록(net time)의 평균이 다르다고 할 수 있다.코드:t.test(net_time ~ age.group, data= run.fm)5. 여성 참가자 중에서 경기 기록(net_time)이 90 미만인 참가자의 비율은 전체의 몇 퍼센트인가? (4점)그림입니다.원본 그림의 이름: 스크린샷 2025-10-24 173003.png원본 그림의 크기: 가로 472pixel, 세로 49pixel여기서 nrow(run.fm)은 여성 참가자 수(그룹 0: 5409명 + 그룹 1: 2914명= 8324명)코드:sum(run.fm$net_time
자연언어처리 중간과제물중요 개념의 이해1. LSA(latent semantic analysis)의 원리를, 고등학생에게 설명한다고 가정하고, 적절한 비유를 사용해 설명하시오. 또한 이 비유가 LSA의 어떤 부분을 잘 표현하는지 설명하시오. (10점)답:사람이 문서를 이해하는 방식은 단어 개수를 하나하나를 세기보다 전체 맥락과 의미를 파악함으로써 이루어진다. 그러나 컴퓨터는 문장의 의미를 인간처럼 직접 이해할 수 없기 때문에, 문서를 수치로 변환하여 계산가능한 형태로 만들어야 한다. 이때 가장 기본적인 표현 방식이 문서단어 행렬(DocumentTerm Matrix, DTM)이며, 각 행은 문서, 각 열은 단어를 나타내고, 각 행렬의 원소는 단어가 해당 문서에서 차지하는 중요도를 의미한다.이 중요도를 계산하는 대표적인 방법이 바로 TFIDF(Term FrequencyInverse Document Frequency)이다. TFIDF는 단순히 단어의 횟수를 세는 것이 아니라 그 단어가 문서 내에서 얼마나 자주 등장하는지(TF-단어 빈도)와 전체 문서 집합에서 얼마나 덜 등장하는지(IDF-역문서 빈도)를 함께 고려하여 단어의 상대적 중요도를 계산한다. 즉, 한 문서에서는 자주 등장하지만 다른 문서에서는 드물게 등장하는 단어일수록 높은 가중치를 받는다. 예를 들어 “대한민국의 역사”라는 문서에서 “대한민국”이라는 단어가 여러 번 등장하고, 다른 문서들에서는 거의 등장하지 않는다면, “대한민국”은 그 문서를 대표하는 핵심 단어가 된다. 이처럼 TFIDF는 단어의 단순 빈도보다는 문서의 주제를 얼마나 잘 드러내는지를 수치화한다.이렇게 수치화된 문서 벡터들은 서로 간의 유사도를 비교할 수 있다. 두 문서의 유사도를 측정하는 대표 이해하기 위해, LSA를 ‘책을 주제별로 정리하는 과정’에 비유할 수 있다. 예를 들어 서점에는 수 많은 책이 있고, 각 책에는 서로 다른 다양한 단어가 등장한다. 서점 매니저는 모든 책의 모든 단어를 일일이 세지 않고 대신 각 책에 어떤 단어들이 자주 등장하는지를 살펴서 비슷한 주제의 책끼리 분류해서 같은 구역에 정리한다. 예를 들어 어떤 책에는 ‘미분’, ‘적분’, ‘함수’가 자주 등장하고, 또 다른 책에는 ‘전자’, ‘원자’, ‘힘’이 자주 나온다면, 매니저는 자주 등장하는 단어들 몇 개 확인했을 뿐인데도 “하나는 수학 관련 책이고 다른 하나는 물리 관련 책이겠구나” 하고 각 책이 어떤 주제와 관련된 책인지를 추론하게 된다.LSA의 원리가 바로 이와 같다. 문서와 단어의 등장 빈도를 단어-문서 행렬로 정리하고, 그 안에 숨겨져 있는 의미 구조를 수학적으로 분해(SVD, singular value decomposition) 한다. 이 과정은 서점 매니저가 모든 책의 단어를 다 보지 않고도, 서로 비슷한 주제를 가진 책들끼리 분류하는 과정과 같다. 또한, 매니저는 불필요한 정보들(관련성이 떨어지는 덜 중요한 단어들)은 버리고, 주제를 잘 드러내고 자주 등장하는 단어들을 중심으로 책을 분류하듯이, LSA도 SVD를 통해 중요하지 않은 차원을 제거하고 핵심 의미 축(latent semantic space)만 남긴다.이 비유를 통해 LSA의 핵심 원리, 즉 단어-문서 간의 표면적 관계 속에서 숨겨진 의미 구조를 찾아내는 과정을 쉽게 이해할 수 있다. 서점 매니저가 단어 하나하나가 아니라 단어들의 함께 등장하는 패턴(co-occurrence pattern, 위의 예시: ‘미분’, ‘적분’ / ‘전자’, ‘원자’ 등)을 통해 책의 주제를 파악하듯이, LSA도 단어가 어떤 문서들과 함께 자주 등장하는지를 분석함으로써 단어들 사이의 의미적 유사성을 인식한다.SVD는 아래와 같은 식으로 표현할 수 있다.수식입니다.A`=`U sum _{} ^{} V ^{T}여기서수식입니다미 구조를 추출하는 방법이다. 단어의 단순한 등장 빈도를 넘어서 “이 단어들이 어떤 주제 안에서 어떻게 함께 쓰이는가”를 분석함으로써 사람이 책의 표지를 통해 책의 내용을 추측하고 분류하듯, LSA도 단어의 표면적 형태를 통해 그 안에 담겨진 맥락적 의미를 수학적으로 해석하는 과정이라 할 수 있다.2. negative sampling이 적용된 skip-gram 모델의 손실함수(loss function)의 각 항(term)이 직관적으로 의미하는 바를 설명하시오. (10점)답:Word2Vec의 Skip-gram 모델은 하나의 타겟 단어(target word)를 입력받아, 그 주변의 문맥 단어(context words)를 예측하도록 학습하는 신경망 기반 언어 모델이다. 이 모델의 기본 가정은 “문장에서 가까이 등장하는 단어일수록 의미적으로 유사하다”라는 가설에 기반한다. 예를 들어, “자동차가 도로를 달린다”라는 문장에서 타겟 단어가 “자동차”라면, 주변 단어 “도로”, “달린다”가 문맥 단어가 된다. Skip-gram 모델의 목표는 이러한 타겟 단어와 실제 문맥 단어 간의 의미적 관련성을 극대화하여, “자동차”의 벡터가 “도로”나 “달린다”의 벡터와 코사인 유사도가 높아지도록 학습하는 것이다.따라서, Skip-gram의 기본 목적함수는 타겟 단어수식입니다.W _{t}로부터 문맥 단어수식입니다.W _{t+j}가 등장할 확률수식입니다.P(w _{t+j} vert w _{t)}을 최대화하는 것이다. 이를 식으로 표현하면 다음과 같다.수식입니다.J= sum _{t=1} ^{} sum _{c LEQ j LEQ c,j != 0} ^{} logp(w _{t+j} vert w _{t} )여기서 각 항의 의미는 다음과 같다.수식입니다.W _{t}: 타겟 단어(target word)수식입니다.W _{t+j}: 문맥 단어(context word)수식입니다.c: 윈도우 크기(window size)이 확률은 softmax 함수를 통해 계산되며,수식입니다.p(w _{O} vert w _{수식입니다.L=log sigma (v prime _{wo}^{T} v _{w _{I}} )`+` sum _{i=1} ^{k} E _{w _{i} SIM P _{n} (w)} [log sigma (-v prime _{w _{i}}^{T} v _{w _{I}} )]여기서 각 항의 의미는 다음과 같다.수식입니다.sigma (x)`=` {1} over {1+e ^{-x}}: 시그모이드 함수수식입니다.w _{I}: 모델에 입력으로 들어가는 타겟 단어(input word)수식입니다.w _{O}: 실제 문맥 단어(positive sample)수식입니다.w _{i}: 무작위로 뽑은 단어(negative sample)수식입니다.k: negative sample의 개수수식입니다.v _{w _{I}}: 타겟 단어의 벡터수식입니다.E _{w _{i} SIM P _{n} (w)} [...]:수식입니다.w _{i}를수식입니다.P _{n} (w)와 같은 분포에서 추출했을 때 ...에 대한 기대값수식입니다.L=log sigma (v prime _{wo}^{T} v _{w _{I}} )`+` sum _{i=1} ^{k} E _{w _{i} SIM P _{n} (w)} [log sigma (-v prime _{wo}^{T} v _{w _{I}} )]이 손실함수는 두 개의 항으로 구성되어 있으며, 각각 다음과 같은 직관적 의미를 가진다.①첫 번째 항수식입니다.log sigma (v prime _{wo}^{T} v _{w _{I}} )는 타겟 단어와 실제 문맥 단어가 가까워지도록 학습하는 역할을 한다. 두 벡터의 점곱이 커질수록 시그모이드 값이 1에 가까워지고, 로그값이 커지므로 손실이 줄어든다. 따라서 모델은 “자동차도로”처럼 문맥상 자주 함께 등장하는 그런 유의미한 word pair의 벡터를 더 가깝게 만든다.반면②두 번째 항수식입니다.` sum _{i=1} ^{k} E _{w _{i} SIM P _{n} (w)} [log sigma (-v prime _{wo}^{T} v _{w _{I}} ip-gram구조를 사용하며, 학습 효율성을 높이기 위해 Negative Sampling 또는 Hierarchical Softmax를 사용한다. 또한, 학습된 단어 벡터 간의 유사도는 코사인 유사도로 계산한다. 이러한 점에서 Word2Vec과 FastText는 “비슷한 문맥에서 사용되는 단어들은 의미도 비슷하다”는 분포가설을 기반으로, 대규모 corpus로부터 단어 간 의미 관계를 학습한다는 점에서 공통점을 가진다.Word2Vec은 각 단어를 하나의 독립적인 단위(token)로 간주하고, 해당 단어에 대해 고유한 벡터를 직접 학습한다. 예를 들어 “자동차”, “도로”, “속도” 같은 단어들은 각각 고유한 임베딩 벡터를 갖는다. 특히 Skip-gram 구조에서는 타겟 단어로부터 주변 문맥 단어를 예측하는 확률을 최대화하도록 학습하며, 그 목적함수는 Negative Sampling이 적용된 형태로 다음과 같이 표현된다. (위 2번 문제에서도 나오는 내용)수식입니다.L=log sigma (v prime _{wo}^{T} v _{w _{I}} )`+` sum _{i=1} ^{k} E _{w _{i} SIM P _{n} (w)} [log sigma (-v prime _{wo}^{T} v _{w _{I}} )]여기서 각 항의 의미는 다음과 같다.수식입니다.sigma (x)`=` {1} over {1+e ^{-x}}: 시그모이드 함수수식입니다.w _{I}: 모델에 입력으로 들어가는 타겟 단어(input word)수식입니다.w _{O}: 실제 문맥 단어(positive sample)수식입니다.w _{i}: 무작위로 뽑은 단어(negative sample)수식입니다.k: negative sample의 개수수식입니다.v _{w _{I}}: 타겟 단어의 벡터수식입니다.E _{w _{i} SIM P _{n} (w)} [...]:수식입니다.w _{i}를수식입니다.P _{n} (w)와 같은 분포에서 추출했을 때 ...에 대한 기대값이 목적함수의 첫 번째 항은 positive pair를
2025학년도 2학기 중간과제물이슈로 보는 오늘날의 유럽 -1.멀티미디어 강의와 교재의 1강 8강을 참고하여, 괄호 안을 알맞게 채우시오.(총 15문항, 문항당 1점)(1)유라시아 대륙에서 유럽을 아시아와 구분하는 지리적 경계가 되는 산맥은(우랄산맥)이다.(2) 유럽은 문화적으로 그 정체성을 강하게 드러내는데, (그리스·로마)문명을기반으로 하고 있으며, 기독교를 공유한다는 점을 그 특징이라 할 수 있다.(3) 유럽의 정치·경제의 통합을 실현하기 위한 연합기구로 현재 27개 회원국으로 구성되어 있는 이 기구의 이름은 (유럽연합)이다.(4) (성 니콜라우스)은/는 산타클로스의 유래가 된 인물로, 미라의 주교였으며 가난한 이들과 아이들을 위해 자선 활동을 했다고 전해진다.(5) 독일, 오스트리아, 스위스 등에서 크리스마스이브에 선물을 가져다 준다고 많이 믿는,보통 금발 곱슬머리의 소녀나 천사로 형상화되는 환상의 인물은(크리스트킨트(Christkint))이다.(6) 유럽의 국가 대항 토너먼트 대회인 유로(EURO) 우승국에 주어지는 혜택 중 하나로, 차기 월드컵 개최지에서 치러지는 일종의 ‘리허설’에 해당하는 축구대회의 이름은(컨페더레이션스컵)이다.(7) (유로파리그)은/는 유럽축구연맹에 속한 각 리그의 상위원 구단 중 챔피언스리그에 참가하지 못하는 차순위 팀과 자국 컵대회 우승팀 등이 참가하는 대회로, 202 분열의 관점에서 기술하시오.(15점), 정철환 특파원, 김지원 기자, 조선일보, 2025.07.09.(2025년 7월) 7일 오전 폴란드 서부 국경도시 스우비체. 오데르(Oder)강을 건너 독일과 폴란드를 오가는 차량들이 100여m 이상 길게 줄을 서 폴란드 국경수비대와 경찰의 검문을 받았다. 강 건너편 독일 도시 ‘프랑크푸르트 안데어 오데르’에서도 같은 풍경이 펼쳐졌다. 폴란드 정부는 이날 0시부터 ‘이민자 단속’을 명분으로 독일·리투아니아 국경 52개 지점에서 임시 검문소를 설치하고 통행자 단속에 나섰다. 과거에는 국경을 넘는다는 인식조차 못 할 정도로 왕래가 자유로웠던 곳이지만, 이제는 모든 차량과 보행자가 양쪽 국경에서 줄을 서서 검문을 받아야 한다는 의미다.유럽연합(EU) 시민과 일반 관광객들의 경우 간단한 여권 확인만으로 통과가 가능했지만, 중동·아프리카 출신으로 보이는 이들은 어김없이 체류 자격을 확인하는 등 상세 질문이 이어졌다. 다리 위에 줄지어 펄럭이는 EU 깃발이 무색할 지경이었다. AP는 “리투아니아·폴란드 국경에서 한 에스토니아인의 안내로 폴란드로 들어오려던 아프가니스탄 국적자 4명이 적발되기도 했다”고 전했다.최근 유럽 국가들이 앞다퉈 이민자 단속을 위해 국경 경비를 강화하면서 EU 통합의 상징인 ‘솅겐 조약’이 흔들리고 있다는 지적이 나온다. 1995년 발효된 이 조약은 유럽 내 국경을 개방하고 비자 정책을 통일해 자유로운 이동을 보장하는 체제다. EU 대부분 국가와 노르웨이·스위스 등 총 29국이 가입해 4억5000만 명에 달하는 거주민뿐만 아니라 여행자들도 혜택을 누려왔다.솅겐 조약은 원칙적으로 치안이나 공중 보건 등 예외적 사유에 한해서만 ‘최대 6개월간’의 임시 국경 통제를 허용한다. 그러나 최근 들어 이민자 유입을 이유로 국경 통제 기간을 반복 연장하며 사실상 국경을 상시 통제하는 국가가 늘고 있다. 독일 일간 도이체벨레는 “솅겐 조약의 본래 의도는 장기적 통제를 허용하는 것이 아니었다”며 “결국 도미노처럼 솅겐 전체가 무망명 신청은 총 38만8299건으로, 지난해 같은 기간보다 23% 감소했다. 특히 독일은 6만5495건으로 1년 전보다 43% 줄었다. 스페인(7만6020건), 프랑스(7만5428건)보다도 적은 수준이다.출처:0https://www.chosun.com/international/international_general/2025/07/09/6UT3HLY6XBEXHESR35LYFSZ3ZQ/;1;0;0;https://www.chosun.com/international/international_general/2025/07/09/6UT3HLY6XBEXHESR35LYFSZ3ZQ/HWPHYPERLINK_TYPE_URLHWPHYPERLINK_TARGET_BOOKMARKHWPHYPERLINK_JUMP_CURRENTTABhttps://www.chosun.com/international/international_general/2025/07/09/6UT3HLY6XBEXHESR35LYFSZ3ZQ/, 조양준 기자, 서울경제, 2025.03.17.도산 위기에 처했던 스웨덴 배터리 회사 노스볼트(Northvolt)가 지난주 결국 파산 신청을 했습니다. 유럽 최대 배터리 제조사인 이 회사가 지난해 11월 현금 부족을 이유로 미국에 파산보호(챕터 11)를 요청한지 4개월 만인데요. 배터리 업계에서는 ‘파산은 불가피했다’고 보는 분위기가 짙습니다. 회사 스스로의 경영적 판단 미스도 있겠지만, 근본적인 배경에는 유럽 배터리 시장을 잠식한 중국이 있기 때문입니다. 그런데 배터리만 그런 것이 아닙니다. 시야를 넓혀보면 유럽의 ‘에너지 독립’이 그만큼 커다란 난관에 부딪혔다는 의미이기 때문입니다.여기서 잠깐 유럽의 에너지 수급 상황을 한 번 볼까요? 유럽연합(EU) 통계 기구인 유로스타트에 따르면 2022년 기준 EU의 에너지 수입 의존도는 62.5%입니다. 유럽도 지하자원이 풍부하다고 보기 어려운 지역이죠. (참고로 한국의 에너지 수입 의존도는 2022년 92%입니다.) 석유천연가스원자력 등 EU의 전 세계 전기차용 배터리 사용량 기준 한국 배터리 3사(LG에너지솔루션, 삼성SDI, SK온)의 글로벌 시장 점유율은 43.5%로 2023년 대비 5.0% 포인트 감소했습니다.전기차 배터리만 그런 것이 아닙니다. 태양광 발전을 위한 태양 전지 분야도 사실상 중국의 독무대이죠. 파이낸셜타임스(FT)에 따르면 중국 태양광 패널의 저가 공세에 유럽의 태양광 패널 제조사, 특히 소규모 회사들의 파산이 이어지고 있습니다. 대기업의 사정도 마찬가지인데요. 유럽 최대 태양광 패널 기업인 스위스 마이어 버거는 올해 말까지 전 세계 임원 1050명 가운데 19%인 200명을 감축하겠다고 지난해 9월 발표했습니다. 회사 측이 밝힌 이유는 “유럽 태양광 시장의 심각한 가격 인하”, 다시 말해 중국의 저가 공세입니다.정리하면 애써 재생에너지 산업과 시장을 육성해도 그 과실을 중국이 가져갈 판이라는 겁니다. EU가 이달 5일 역내 친환경 산업을 되살리기 위한 국산 우대 정책, ‘바이 유러피안’을 꺼내든 이유가 바로 여기에 있습니다. EU는 향후 2년간 18억유로(약 2조8400억 원)를 투입해 배터리 등 유럽의 청정 산업 생산 라인의 확대를 지원할 계획이며, 2030년까지 배터리 가치사슬 전반에서 ‘유럽산(産) 부가가치 비율’을 50%까지 확대한다는 목표를 세웠습니다. 죽 쒀서 남 줄 판인 에너지 전략을 지키기 위해 보호주의 장벽을 높인 것입니다. 유럽을 주요 시장으로 두고 있는 한국으로서 반가운 소식은 아닐 겁니다.유럽의 에너지 이야기에서 빠질 수 없는 나라가 하나 있죠. 바로 러시아입니다. 유럽의 청정에너지 비전이 명(明)이라면, 러시아 화석연료에 대한 유럽의 높은 의존도는 암(暗)이자 현실입니다. 핀란드 싱크탱크 ‘에너지·청정대기조사연구소(CREA)’에 따르면 우크라이나 전쟁 발발 3년째인 현재 EU의 러시아산 화석연료 수입량은 총 219억 유로(약 35조 원)로 1년 전에 비해 1% 감소했는데요. 2022년 전쟁이 터진 직후 미국과 EU가 러시아산 원유와 가스에 제재를 가한 체코·오스트리아 접경지에서 통제를 강화했다. 불법 이민자는 현장에서 즉시 송환되며, 솅겐 조약이 허용하는 6개월 한시 통제가 사실상 상시화되었다. 시리아 내전 이후 난민 유입이 이어지면서 일부 회원국에 부담이 쏠렸고, 헝가리·폴란드 등은 EU의 분담안을 거부했다. 난민·이민 문제는 유럽 각국의 선거 이슈로 부상하며 극우·보수 세력의 약진을 이끌었다. 이들은 “국경 봉쇄”를 모토로 내세우며, 복지 부담과 치안 불안 등 대중들의 불안 심리를 자극했다. 독일과 폴란드는 난민 송환 책임을 두고 공방을 벌였고, 벨기에는 국경 통제를 강화하겠다고 발표했으며, 2025년 상반기 EU 및 노르웨이·스위스의 망명 신청은 38만 8천여 건으로 전년 대비 23% 감소했다. 보시다시피 통제 강화의 과정 속에서 유럽은 공동체 중심에서 이해관계 중심으로 변모하고 있다.② 에너지·산업의 장벽2022년 EU의 에너지 수입 의존도는 62.5%에 달했으며, 러시아산 화석연료 비중이 컸다. 우크라이나 전쟁 이후 EU는 뒤늦게 재생에너지의 비중을 늘리고자 REPowerEU 전략을 추진했으나, 에너지 자립이 완전히 달성되지 못한 상태에서 재생에너지 확대만 밀어붙인 결과 오히려 전환 비용 증가, 외부 기술 의존, 산업 경쟁력 약화라는 새로운 문제점들이 발생했다. 특히 중국은 배터리·태양광 산업에서 강력한 점유율을 확보해 유럽 배터리 시장에서의 비중이 2019년 10%에서 2023년 40%로 급등했다. 대표적 기업인 스웨덴의 노스볼트(Northvolt) 파산 문제는 유럽의 자본력과 기술 경쟁력의 한계를 상징한다. 이에 EU는 ‘Buy European’ 정책을 내세워 향후 2년간 18억 유로를 투입하고, 2030년까지 배터리 가치사슬 내 유럽산 부가가치 비중을 50%로 끌어올리는 목표를 세웠다. 그러나 이는 자유무역 원칙과 충돌하며, 독일·프랑스 등 재정 여력이 큰 국가와 남·동유럽 간 격차를 확대시키고 있다. 러시아산 에너지 의존에서 완전히 벗어나지 못한 점도 문제다. 제재에도 불구하고 일부 천연가스이다.
1-①풀이:데이터 마이닝이란 데이터로부터 이들 데이터 내에 존재하는 패턴, 규칙 등을 분석 하고 모형화함으로써 유용한 지식을 추출하는 일련의 과정이다. 통계학에서 전통적 으로 사용되었던 모수적 접근방법과 기계학습의 발전의 결과물인 알고리즘 접근방법 이 모두 데이터 마이닝에 사용될 수 있다.① 모수적 모형 접근방법은 단순 선형 회귀분석 Y= a + bx와 같이 식을 세우고 식 안의 모수 a와 b를 최소제곱법이나 최대우도추정법 등을 통해 과거 데이터로부 터 추정하는 방법이다. 예시로 선형 회귀분석, 로지스틱 회귀모형 등이 있다.② 알고리즘 접근방법은 알고리즘에 의해 정해진 방식으로 계산된 결과에 따라 분 석되는 방식이다. 즉 알고리즘에 의해 데이터로 학습하는 방식이다. 예시로 의사결 정나무, 배깅(bagging), 부스팅(boosting), 랜덤포레스트(random forest), 신경망모 형 등이 있다.이러한 특징을 기반으로, 모수적 모형 접근방법은 결과의 해석이 쉽고, 계산이 빠 르고, 결과가 복잡하지 않다는 장점을 가진다. 하지만 특정 분포를 따른다는 가정이 성립하지 않으면 결과의 신뢰도가 낮아질 수 있고 그만큼 정확도도 떨어지게 되며, 데이터가 복잡한 경우 설명력이 떨어질 수 있다는 단점이 있다.반면, 알고리즘 접근방법은 모수적 접근방법처럼 데이터가 특정분포를 따른다는 가 정이 필요없으므로 데이터가 다양하고 복잡해도 유연하게 적용가능하고, 이미지, 텍 스트, 음성과 같은 복잡하고 비선형의 데이터도 분석이 가능하다는 장점을 가진다. 하지만 그만큼 이해하기 어려운 알고리즘을 기반으로 하기 때문에 결과 해석이 어렵 고, 복잡한 데이터일수록 계산이 오래 걸리고, 학습 데이터가 부족하면 성능이 저하 되고, 과적합(overfitting) 위험이 발생하는 단점이 있다.1-②풀이:최근 SNS 이용률이 증가함에 따라, 방대한 양의 데이터가 쏟아져 나오고 있다.
풀이:집에서 키우는 샴 고양이가 가까이서 얼굴만 봤을 때는 족제비과의 담비랑 닮았다는 소리를 들은 적이 있었는데, 과연 머신러닝 모형이 담비인지 샴 고양이인지 제대로 구별할 수 있는지 알아보기 위하여 인터넷에서 검색할 수 있는 샴 고양이 사진과 담비 사진을을 데이터로 머신 러닝 모형을 만들어봤다.Teachable Machine에 담비 이미지 15개와 샴 고양이 이미지 15개를 각 클래스로 나누어 입력하고 학습시켰다. 학습 시도 횟수인 에포크는 50으로 설정했다. 에포크는 클수록 좋은 학 습 성능을 가진다. 배치크기는 16으로 설정했다. 배치시 매 학습마다 몇 개의 샘플을 사용할 지 정한다. 담비, 샴고양이 이미지 각각 15개이므로 모두 공평하게 1번의 배치가 피드되면 1 에포크를 학습완료한다. 학습률은 0.001로 설정했으며 모델의 성능에 배치 크기나 에포크보다 더 큰 영향을 끼칠 수 있다.<중 략>결과해석:위에서부터 순서대로 class 2의 출력값이 에포크 50, 학습률 0.001: 48% -> 에포크 100, 학습률 0.001: 76% -> 에포크 100, 학습률 0.0007: 92%로 증가했다.마찬가지로, 에포크를 50에서 100으로 늘릴수록, 학습률을 0.001에서 0.0007로 개선시킬수록 학습률이 더 좋아지므로 출력값 정확도가 개선됨을 알 수 있다. ** 담비 다음으로 샴 고양이와 닮은 같은 족제비과의 족제비 이미지를 입력해봤다. 그 결과, 기본값인 에포크 50, 배치크기 16, 학습률 0.001 조건에서는 class 1의 출력값이 39%로 낮은 수치였지만, 에포크를 100으로 늘린 조건과 에포크 100, 학습률 0.0007로 개선시킨 조건에서 모두 class 1의 출력값이 100%로 증가했다. 즉, 위에서 학습시킨 모델이 담비, 족제비를 같 은 종류로 분류할 수 있고, 전혀 다른 종인 샴 고양이랑은 구분할 수 있다는 것이다.