카테고리 없음

[AI] 지도학습, 비지도학습, 강화학습

모클 2025. 3. 28. 14:49

1.  지도학습(Supervised Learning)

 

지도학습은 기계가 정답이 포함된 데이터(입력과 출력 쌍)을 사용해 학습하는 방식입니다. 

예를 들면 고양이 사진과 강아지 사진을 주고 "이건 고양이야, 이건 강아지야"라고 라벨을 붙여서 학습 시키면 나중에 새로운 사진을 주었을 떄  "아 이건 고양이네!" 라고 알아맞히는 겁니다. 

 

1) 특징 : 입력데이터(예 : X)와 이에 대응하는 정답 레이블(예: Y)이 주어집니다. 

2) 예시 : 

  • 이메일 스팸 필터링 : "스팸" 또는 "스팸 아님" 이라는 레이블이 붙은 이메일로 학습
  • 집값 예측 : 면적,위치 등의 데이터와 실제 집값 으로 학습

3) 대표적인 알고리즘

 

  • 선형 회귀(Linear Regression)
    • 연속적인 값을 예측하는 데 사용  : 
    • 작동 원리 : 입력 변수와 출력간의 선형 관계를 모델링.
    • 예 : " 집 크기가 100평이면 가격은 얼마일까?"
  • 로지스틱 회귀(Logistic Regression)
    • 이진분류  문제(예 : 스팸 vs 비스팸)에 사용
    • 작동 원리 : 확률을 계산해 0 또는 1로 분류
    • 예 : "이 메일이 스팸일 확률은?"
  • 결정 트리(Decision Tree)
    • 질문을 던져가며 데이터를 분류하거나 예측해요. "나이가 30세 이상인가? → 수입이 5천만 원 이상인가?" 이런 식으로 나뭇가지처럼 나눠가며 결정을 내립니다.
    • 작동원리 : 질문을 반복하여 데이터를 분할 
    • 예 : "이사람이 대출을 갚을 수 있을까?"
  • 랜덤 포레스트(Random Forest)
    • 결정트리의 집합으로, 과적합을 줄이고 성능을 높임
    • 작동 원리 : 여러 트리의 예측을 평균내거나 다수결로 결정 

2. 비지도학습(Unsupervised Learning)

비지도학습은 선생님이 없이 학생이 스스로 데이터를 보고 규칙이나 패턴을 찾아내는 것과 같아요. 컴퓨터에게 "정답" 없이 데이터

비지도학습은 정답 레이블 없이 데이터의 구조나 패턴을 스스로 찾아내는 학습 방식입니다.

  • 특징: 입력 데이터만 주어지고, 모델은 데이터 간의 유사성이나 분포를 분석해 그룹화하거나 특징을 추출합니다.
  • 예시:
    • 고객 세분화: 구매 기록을 바탕으로 비슷한 고객들을 묶음(클러스터링).
    • 차원 축소: 복잡한 데이터를 단순화해 시각화(예: PCA).
  • 대표적인 알고리즘
    • K-평균 군집화 (K-Means Clustering)
      • 데이터를 비슷한 것끼리 K개의 그룹으로 나누는 방법이에요. 예를 들어, 고객 데이터를 3개의 그룹으로 나눠서 마케팅 전략을 세울 때 사용해요.
      • 예: "이 쇼핑 데이터를 비슷한 사람들끼리 묶어줘."
    • 주성분 분석 (Principal Component Analysis, PCA)
      • 데이터의 차원을 줄여서 중요한 정보만 남기는 기술이에요. 복잡한 데이터를 단순화해서 패턴을 보기 쉽게 만듭니다.
      • 예: "이 많은 데이터를 2차원 그래프로 보여줘."
    • 계층적 군집화 (Hierarchical Clustering)
      • 데이터를 나무 모양(덴드로그램)으로 계층적으로 묶어주는 방법이에요. K-평균처럼 그룹 수를 미리 정하지 않아도 돼요.
      • 예: "이 사람들을 비슷한 순서대로 쌓아봐."
    • DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
      • 밀도 기반으로 데이터를 묶어요. 이상치(노이즈)를 잘 걸러내고, 그룹의 모양이 일정하지 않아도 잘 작동해요.
      • 예: "이 데이터에서 이상한 점 빼고 그룹 지어줘."

3. 강화학습(Reinforcement Learning)

강화학습은 마치 게임을 하면서 보상을 받는 캐릭터를 훈련시키는 것과 비슷해요. 컴퓨터(에이전트)가 환경 속에서 행동을 취하고, 그 행동에 따라 보상(또는 벌점)을 받으면서 "어떤 행동이 더 좋은 결과를 가져오는지" 스스로 배워가는 방식이에요. 정답을 미리 주지 않고, 시행착오를 통해 최적의 전략을 찾아가는 게 특징이에요.
  • 예시: 게임에서 AI가 점수를 얻기 위해 버튼을 누르는 법을 학습.
  • 대표 알고리즘
    • Q-러닝 (Q-Learning)
      • 행동의 가치를 "Q-테이블"이라는 표에 기록하면서 학습해요. 각 상황에서 어떤 행동이 좋은지 점수를 매겨서 최적의 선택을 찾아갑니다.
      • 예: "미로 탈출 게임에서 최단 경로 찾기."
    • SARSA (State-Action-Reward-State-Action)
      • Q-러닝과 비슷하지만, 다음 행동까지 고려해서 값을 업데이트해요. 좀 더 안전하게 학습하는 스타일이에요.
      • 예: "로봇이 장애물을 피하면서 목적지로 가기."
    • 딥 Q-네트워크 (Deep Q-Network, DQN)
      • Q-러닝에 딥러닝(신경망)을 결합한 알고리즘이에요. 복잡한 환경(예: 비디오 게임)에서도 잘 작동해요. 구글의 알파고 개발에도 영향을 줬죠.
      • 예: "아타리 게임에서 최고 점수 내기."
    • 정책 경사법 (Policy Gradient Methods)
      • 행동의 "가치" 대신, 직접 "정책"(어떻게 행동할지)을 학습해요. 연속적인 행동이 필요한 상황에 강력해요
        • 예: "로봇 팔이 물건을 자연스럽게 집기."
      • PPO (Proximal Policy Optimization)
        • 정책 경사법을 개선한 버전으로, 안정적이고 효율적으로 학습해요. 요즘 강화학습에서 많이 쓰이는 알고리즘이에요.
        • 예: "자율주행차가 도로에서 안전하게 운전하기.