총 4개
-
Q-러닝과 SARSA 알고리즘의 비교와 응용2025.12.191. Q-러닝 알고리즘 Q-러닝은 오프폴리시 학습 알고리즘으로, 에이전트가 실제로 취한 행동과 관계없이 항상 최적의 행동을 기준으로 가치함수를 업데이트한다. 수식은 Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)]로 표현되며, 다음 상태에서 가능한 모든 행동 중 최대 가치를 선택하여 업데이트한다. 탐험적 행동을 하더라도 학습은 최적 정책을 향해 수렴하며, 게임 AI와 전략 게임에서 널리 사용되었다. 최근에는 딥 Q-네트워크(DQN)로 발전하여 고차원 환경에서도 학습이 가능하다. 2. SAR...2025.12.19
-
머신러닝의 3가지 학습 방법2025.12.111. 지도 학습 (Supervised Learning) 지도 학습은 미리 정의된 레이블(정답)을 포함한 데이터를 이용하여 모델을 학습시키는 방법입니다. 입력 데이터와 함께 그에 대응하는 출력 레이블이 제공되며, 주요 알고리즘으로는 결정 트리, 로지스틱 회귀, 서포트 벡터 머신, 선형 회귀, 신경망 등이 있습니다. 이미지 분류, 스팸 메일 필터링, 음성 인식 등 다양한 분야에서 활용되며, 각 이미지를 사전에 정의된 카테고리로 분류하거나 이메일이 스팸인지 판별하는 작업에 사용됩니다. 2. 비지도 학습 (Unsupervised Learn...2025.12.11
-
마르코프 의사결정과정을 통한 강화학습의 이론적 기반2025.12.191. 마르코프 의사결정과정(MDP) 마르코프 의사결정과정은 상태 집합, 행동 집합, 전이 확률 함수, 보상 함수, 감가율로 정의되는 확률적 틀이다. 에이전트가 특정 상태에서 행동을 선택하면 환경은 전이 확률에 따라 새로운 상태와 보상을 반환한다. MDP는 강화학습을 수학적으로 정식화하고 복잡한 환경 속에서의 의사결정을 명확히 모델링하는 핵심적 도구로 기능한다. 2. 벨만 방정식과 동적 계획법 벨만 방정식은 가치 함수와 최적 정책을 정의하는 핵심 요소로, 특정 상태의 가치를 재귀적으로 표현한다. 동적 계획법은 벨만 방정식을 반복적으로...2025.12.19
-
강화학습의 기본 개념과 기계학습 패러다임 속 위치2025.12.191. 기계학습 패러다임의 분류 기계학습은 지도학습, 비지도학습, 강화학습으로 구분된다. 지도학습은 입력과 정답 쌍으로 함수 근사나 분류 모델을 학습하며 이미지 분류나 음성 인식에 활용된다. 비지도학습은 정답 없는 데이터에서 구조를 발견하는 데 중점을 두며 군집화나 차원 축소 기법이 대표적이다. 강화학습은 정답이 직접 주어지지 않고 에이전트가 환경과 상호작용하며 보상 신호를 통해 장기적 전략을 학습하는 방식으로, 시행착오를 경험하면서 학습하는 체계이다. 2. 강화학습의 정의와 특징 강화학습은 에이전트가 환경에서 상태를 관찰하고 행동을...2025.12.19