머신러닝 딥러닝 문제해결 전략

머신러닝ㆍ딥러닝 문제해결 전략 2장 / 머신러닝 주요개념

Severus Moriarty 2024. 2. 18. 19:56
  • 랜덤 포레스트 (Random Forest):
    • 특징: 의사 결정 트리를 기반으로 한 앙상블 학습 모델로, 여러 개의 결정 트리를 만들어서 그들의 평균 예측을 사용함.
    • 장점:
      • 과적합을 줄이고 일반화 성능을 향상시킴.
      • 다양한 유형의 데이터와 변수에 대해 잘 작동함.
      • 변수의 중요도를 추정할 수 있어서 데이터의 특성을 이해하는 데 도움이 됨.
    • 사용 사례:
      • 분류 및 회귀 문제에 널리 사용됨.
      • 대용량 데이터셋에 적합함.
  • 로지스틱 회귀 (Logistic Regression):
    • 특징: 선형 함수와 로지스틱 함수를 사용하여 이진 분류 문제에 대한 확률을 예측함.
    • 장점:
      • 모델의 결과를 해석하기 쉽고, 설명력이 좋음.
      • 계산 비용이 낮고 간단한 모델임.
      • 이상치에 대해 민감하지 않음.
    • 사용 사례:
      • 이진 분류 문제에 주로 사용됨.
      • 간단하고 해석 가능한 모델이 필요한 경우에 적합함.
  • XGBoost (Extreme Gradient Boosting):
    • 특징: Gradient Boosting 알고리즘의 확장으로, 빠른 실행과 높은 성능을 제공함.
    • 장점:
      • 과적합에 강하고, 높은 정확도를 제공함.
      • 다양한 유형의 데이터에 적용 가능함.
      • 자체적인 교차 검증 및 조기 종료 기능을 제공하여 모델 튜닝을 용이하게 함.
    • 사용 사례:
      • 분류 및 회귀 문제에 널리 사용되며, 특히 대규모 데이터셋에서 효과적임.
  • 결정 트리 (Decision Tree):
    • 특징: 데이터의 특성에 따라 의사 결정 규칙을 학습하여 트리 형태로 표현함.
    • 장점:
      • 해석하기 쉽고, 시각적으로 이해하기 용이함.
      • 데이터 전처리가 적게 필요함.
      • 범주형 및 연속형 변수를 모두 처리할 수 있음.
    • 사용 사례:
      • 분류 및 회귀 문제에 사용됨.
      • 특히 데이터의 구조를 시각화하고 설명해야 하는 경우에 유용함.
  • LightGBM (Light Gradient Boosting Machine):
    • 특징: Gradient Boosting 알고리즘을 기반으로 하며, Leaf-wise 성장 방식을 채택하여 속도와 효율성을 향상시킴.
    • 장점:
      • 빠른 학습 속도와 높은 성능을 제공함.
      • 대규모 데이터셋 및 고차원 특성에 적합함.
      • 자체적인 데이터 병렬 처리 및 분산 학습 기능을 제공함.
    • 사용 사례:
      • 대용량 데이터셋이나 높은 차원의 특성을 가진 데이터에 적합함.
      • 분류 및 회귀 문제에서 널리 사용됨.
  • 앙상블 학습 (Ensemble Learning):
    • 특징: 여러 개의 기본 모델을 조합하여 하나의 모델을 형성함.
    • 장점:
      • 다양한 모델의 장점을 결합하여 성능을 향상시킴.
      • 과적합을 줄이고 일반화 성능을 향상시킴.
      • 더욱 안정적이고 신뢰할 수 있는 예측을 제공함.
    • 사용 사례:
      • 다양한 모델을 함께 사용하여 높은 정확도를 필요로 하는 경우에 사용됨.
      • 예측력을 향상시키고 모델의 안정성을 강화하는 데 적합함.