머신러닝 딥러닝 문제해결 전략
머신러닝ㆍ딥러닝 문제해결 전략 2장 / 머신러닝 주요개념
Severus Moriarty
2024. 2. 18. 19:56
- 랜덤 포레스트 (Random Forest):
- 특징: 의사 결정 트리를 기반으로 한 앙상블 학습 모델로, 여러 개의 결정 트리를 만들어서 그들의 평균 예측을 사용함.
- 장점:
- 과적합을 줄이고 일반화 성능을 향상시킴.
- 다양한 유형의 데이터와 변수에 대해 잘 작동함.
- 변수의 중요도를 추정할 수 있어서 데이터의 특성을 이해하는 데 도움이 됨.
- 사용 사례:
- 분류 및 회귀 문제에 널리 사용됨.
- 대용량 데이터셋에 적합함.
- 로지스틱 회귀 (Logistic Regression):
- 특징: 선형 함수와 로지스틱 함수를 사용하여 이진 분류 문제에 대한 확률을 예측함.
- 장점:
- 모델의 결과를 해석하기 쉽고, 설명력이 좋음.
- 계산 비용이 낮고 간단한 모델임.
- 이상치에 대해 민감하지 않음.
- 사용 사례:
- 이진 분류 문제에 주로 사용됨.
- 간단하고 해석 가능한 모델이 필요한 경우에 적합함.
- XGBoost (Extreme Gradient Boosting):
- 특징: Gradient Boosting 알고리즘의 확장으로, 빠른 실행과 높은 성능을 제공함.
- 장점:
- 과적합에 강하고, 높은 정확도를 제공함.
- 다양한 유형의 데이터에 적용 가능함.
- 자체적인 교차 검증 및 조기 종료 기능을 제공하여 모델 튜닝을 용이하게 함.
- 사용 사례:
- 분류 및 회귀 문제에 널리 사용되며, 특히 대규모 데이터셋에서 효과적임.
- 결정 트리 (Decision Tree):
- 특징: 데이터의 특성에 따라 의사 결정 규칙을 학습하여 트리 형태로 표현함.
- 장점:
- 해석하기 쉽고, 시각적으로 이해하기 용이함.
- 데이터 전처리가 적게 필요함.
- 범주형 및 연속형 변수를 모두 처리할 수 있음.
- 사용 사례:
- 분류 및 회귀 문제에 사용됨.
- 특히 데이터의 구조를 시각화하고 설명해야 하는 경우에 유용함.
- LightGBM (Light Gradient Boosting Machine):
- 특징: Gradient Boosting 알고리즘을 기반으로 하며, Leaf-wise 성장 방식을 채택하여 속도와 효율성을 향상시킴.
- 장점:
- 빠른 학습 속도와 높은 성능을 제공함.
- 대규모 데이터셋 및 고차원 특성에 적합함.
- 자체적인 데이터 병렬 처리 및 분산 학습 기능을 제공함.
- 사용 사례:
- 대용량 데이터셋이나 높은 차원의 특성을 가진 데이터에 적합함.
- 분류 및 회귀 문제에서 널리 사용됨.
- 앙상블 학습 (Ensemble Learning):
- 특징: 여러 개의 기본 모델을 조합하여 하나의 모델을 형성함.
- 장점:
- 다양한 모델의 장점을 결합하여 성능을 향상시킴.
- 과적합을 줄이고 일반화 성능을 향상시킴.
- 더욱 안정적이고 신뢰할 수 있는 예측을 제공함.
- 사용 사례:
- 다양한 모델을 함께 사용하여 높은 정확도를 필요로 하는 경우에 사용됨.
- 예측력을 향상시키고 모델의 안정성을 강화하는 데 적합함.