빅분기 실기 작업2형 template typing용

import pandas as pd
import numpy as np

# 시험 : 데이터 가져오기
x_test = pd.read_csv("data/X_test.csv")
x_train = pd.read_csv("data/X_train.csv")
y_train = pd.read_csv("data/y_train.csv")

# 연습 : 데이터 가져오기 
df = pd.read_csv("data/dataset.csv")


# ------- 데이터 확인 info ---------


# 모든 컬럼값 확인 T


# 행/열 확인 shape (생략가능)


# 요약정보 확인 info()
## 데이터타입, 결측치 등 확인, object 범주형
### object 범주형 인코딩 확인


# 기초통계량 확인 describe()
## count, mean,std,min, 25%, 50%, 75%, max
### 데이터 스케일링 확인, 회귀, 비tree 계열


# 타깃값 확인 unique
## 1차원인지도 확인 (y,)


# ------- 데이터 전처리 preprocessing ---------

# 불필요한 컬럭 삭제 drop(columns=[])
## PK 역할 컬럼 등 삭제


# 결측치 처리하기 fillna()
## 임의로 결측치 삭제하지 말 것
## 평균, 중앙값, 상황에 따른 값


# 범주형 변수 인코딩
## 라벨 인코딩 LabelEncoder, 원핫인코딩  OneHotEncoder
## 라벨 인코딩(Tree 계열의 분류 알고리즘에 사용)


# 파생변수 생성
## 필요시 생성


# 데이터 스케일링
## 연속형 변수의 최대, 최소 분포차가 클때
## MinMaxScaler, StandardScaler, RobustScaler
## test는 train용의로 transform() 
## Tree 계열 필수는 아님


# 상관관계 확인 corr()
## 필요 시 확인


# 전처리 확인 info()


# ------- 머신러닝 machine learning ---------

# 평가용 데이터 분리 model_selection
## stratify, stes_size, y값 1차원 확인


# 데이터 학습
## fit, predict, predict_proba
## 분류 XXXClassifier, LogisticRegression
## 회귀(예측) XXXRegressor(XXXRegression)
## 공통 ensemble
## RandomForestXXX : n_estimators (default = 100), max_depth, criterion
## criterion : 분할 품질을 측정하는 기능 ()
### RandomForestClassifier: criterion{“gini”, “entropy”, “log_loss”}, default=”gini”
### RandomForestRegressor: criterion{“mse”, “mae”}, / v1.2 criterion{“squared_error”, “absolute_error”}, default=”squared_error”
## GradientBoostingXXX : n_estimators, learning_rate(default =  0.1)


# 데이터 평가 metrics
## 회귀 : MAE, MSE, RMSE, R^2, RMSE는 np.sqrt(MSE값)
## 분류 : ROC_AUC, Accuracy(정확도), Precision(정밀도), Recall(재현율)


# ------- 답안 제출 ---------

# 전체학습데이터로 다시 학습


# 제출용 예측


# 답안 제출 참고
# 아래 코드 예측변수와 수험번호를 개인별로 변경하여 활용
#pd.DataFrame({'cust_id': x_test_data.cust_id, 'gender': pred}).to_csv('424242.csv', index=False)


# 제출 최종 확인
#print(pd.read_csv("data/424242.csv"))