본문 바로가기

머신러닝 딥러닝 문제해결 전략

(3)
[Kaggle] 자전거 대여 수요 예측 | Bike Sharing Demand | Ridge, Lasso, RandomForest 자전거 대여 수요 예측 경진대회 - 문제 유형 : 회귀 - 평가지표 : RMSLE - 제출 시 사용한 모델 : 랜덤 포레스트 회귀 - 캐글 노트북 : https://www.kaggle.com/code/jinkwonskk/bike-sharing-demand-ridge-lasso-rf-jake-lee bike_sharing_demand_Ridge,Lasso, RF_Jake_Lee Explore and run machine learning code with Kaggle Notebooks | Using data from Bike Sharing Demand www.kaggle.com # 학습 순서 탐색적 데이터 분석 과정에서는 분포도, 막대 그래프 ,박스플롯, 포인트플롯, 산점도, 히트맵을 활용, 베이스라인 모델..
머신러닝ㆍ딥러닝 문제해결 전략 2장 / 머신러닝 주요개념 랜덤 포레스트 (Random Forest): 특징: 의사 결정 트리를 기반으로 한 앙상블 학습 모델로, 여러 개의 결정 트리를 만들어서 그들의 평균 예측을 사용함. 장점: 과적합을 줄이고 일반화 성능을 향상시킴. 다양한 유형의 데이터와 변수에 대해 잘 작동함. 변수의 중요도를 추정할 수 있어서 데이터의 특성을 이해하는 데 도움이 됨. 사용 사례: 분류 및 회귀 문제에 널리 사용됨. 대용량 데이터셋에 적합함. 로지스틱 회귀 (Logistic Regression): 특징: 선형 함수와 로지스틱 함수를 사용하여 이진 분류 문제에 대한 확률을 예측함. 장점: 모델의 결과를 해석하기 쉽고, 설명력이 좋음. 계산 비용이 낮고 간단한 모델임. 이상치에 대해 민감하지 않음. 사용 사례: 이진 분류 문제에 주로 사용됨...
머신러닝ㆍ딥러닝 문제해결 전략 1장 리뷰 / 머신러닝 문제해결 체크리스트 먼저 문제에 대해 어떤 식으로 진행되는지 이해한다. 그 뒤에는 이어서 EDA를 통해서 데이터가 어떤 식으로 구성되어 있는지, 집중해야할 피처가 있는지, 각 데이터들의 클래스는 골고루 분포해있는지, 선형적인 흐름이 나타나는지 등을 확인하고 필요하다면 피처 엔지니어링을 진행한다. 데이터가 준비되었다면 훈련시킬 모델을 결정하고 성능을 높이기 위해 파라미터등을 조정한다. 앙상블등의 기법을 활용하여 성능을 극대화시킨다.