본문 바로가기

분류 전체보기

(37)
[ 데이콘 ] 소득 예측 AI 해커톤 코드 분석(Private 1위) [Private 1위] Target Encoding + LGBM + StratifiedKFold 노트북 링크 : https://colab.research.google.com/drive/1rVmEeZC9RgxHq4Iq6MrfrBJo2N2KAM-u?usp=sharing 데이콘 소득예측 / [Private 1위] Target Encoding + LGBM + StratifiedKFold Colab notebook colab.research.google.com # 초기 설정 !pip install category-encoders !pip install catboost !pip install optuna import numpy as np import pandas as pd import matplotlib.pyplo..
[Kaggle] 범주형 데이터 이진분류 경진대회 | Categorical Feature Encoding Challenge | 이진분류, EDA, 피처엔지니어링 범주형 데이터 이진분류 경진대회 - 문제 유형 : 이진분류 - 평가지표 : ROC AUC - 제출 시 사용한 모델 : 로지스틱 회귀 - 캐글노트북 # 본 문제 : https://www.kaggle.com/competitions/cat-in-the-dat Categorical Feature Encoding Challenge | Kaggle www.kaggle.com # EDA : https://www.kaggle.com/code/jinkwonskk/eda-categorical-feature-encoding-challenge [EDA]_Categorical Feature Encoding Challenge Explore and run machine learning code with Kaggle Notebook..
[Kaggle] 안전 운전자 예측 / Ensemble(LGB, XGB) - 미션 : 보험사에서 제공한 고객 데이터를 활용해 운전자가 보험을 청구할 확률 예측 - 문제유형 : 이진분류 - 평가지표 : 정규화된 지니계수 - 사용 모델 : LightGBM - 캐글 노트북 : https://www.kaggle.com/jinkwonskk/iii-ensemble-lgb-xgb #코드 # 안전 운전자 예측 경진대회 성능 개선 III : LightGBM과 XGBoost 앙상블 import pandas as pd # 데이터 경로 data_path = '/kaggle/input/porto-seguro-safe-driver-prediction/' train = pd.read_csv(data_path + 'train.csv', index_col='id') test = pd.read_csv(dat..
[Kaggle] 안전 운전자 예측 / XGBoost - 미션 : 보험사에서 제공한 고객 데이터를 활용해 운전자가 보험을 청구할 확률 예측 - 문제유형 : 이진분류 - 평가지표 : 정규화된 지니계수 - 사용 모델 : LightGBM - 캐글 노트북 : https://www.kaggle.com/jinkwonskk/ii-xgb-modeling 안전 운전자 예측 경진대회 성능 개선 II / XGB Modeling Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction www.kaggle.com # 코드 # 안전 운전자 예측 경진대회 성능 개선 II : XGBoost 모델 import pandas as pd # 데..
[Kaggle] 안전 운전자 예측 / LightGBM - 미션 : 보험사에서 제공한 고객 데이터를 활용해 운전자가 보험을 청구할 확률 예측 - 문제유형 : 이진분류 - 평가지표 : 정규화된 지니계수 - 사용 모델 : LightGBM - 캐글 노트북 : https://www.kaggle.com/jinkwonskk/i-lgb-modeling 안전 운전자 예측 경진대회 성능 개선 I / LGB Modeling Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction www.kaggle.com 먼저 LightGBM이란? LightGBM (Light Gradient Boosting Machine)은 Microsoft에..
[Kaggle] 타이타닉 생존자 예측 | Titanic - Machine Learning from Disaster | 앙상블, XGBoost 타이타닉 생존자 예측 - 문제 유형 : 회귀 - 평가지표 : RMSLE - 제출 시 사용한 모델 : XGboost - 캐글노트북 : https://www.kaggle.com/code/jinkwonskk/notebook7ac86867dd notebook7ac86867dd Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com - 참고블로그 : https://chaesoong2.tistory.com/27 타이타닉 생존자 예측, 분류 성능 평가 지표(Accuracy, Confusion Matrix, Precision, Recal..
[Kaggle] 자전거 대여 수요 예측 | Bike Sharing Demand | Ridge, Lasso, RandomForest 자전거 대여 수요 예측 경진대회 - 문제 유형 : 회귀 - 평가지표 : RMSLE - 제출 시 사용한 모델 : 랜덤 포레스트 회귀 - 캐글 노트북 : https://www.kaggle.com/code/jinkwonskk/bike-sharing-demand-ridge-lasso-rf-jake-lee bike_sharing_demand_Ridge,Lasso, RF_Jake_Lee Explore and run machine learning code with Kaggle Notebooks | Using data from Bike Sharing Demand www.kaggle.com # 학습 순서 탐색적 데이터 분석 과정에서는 분포도, 막대 그래프 ,박스플롯, 포인트플롯, 산점도, 히트맵을 활용, 베이스라인 모델..
머신러닝ㆍ딥러닝 문제해결 전략 2장 / 머신러닝 주요개념 랜덤 포레스트 (Random Forest): 특징: 의사 결정 트리를 기반으로 한 앙상블 학습 모델로, 여러 개의 결정 트리를 만들어서 그들의 평균 예측을 사용함. 장점: 과적합을 줄이고 일반화 성능을 향상시킴. 다양한 유형의 데이터와 변수에 대해 잘 작동함. 변수의 중요도를 추정할 수 있어서 데이터의 특성을 이해하는 데 도움이 됨. 사용 사례: 분류 및 회귀 문제에 널리 사용됨. 대용량 데이터셋에 적합함. 로지스틱 회귀 (Logistic Regression): 특징: 선형 함수와 로지스틱 함수를 사용하여 이진 분류 문제에 대한 확률을 예측함. 장점: 모델의 결과를 해석하기 쉽고, 설명력이 좋음. 계산 비용이 낮고 간단한 모델임. 이상치에 대해 민감하지 않음. 사용 사례: 이진 분류 문제에 주로 사용됨...