kaggle Top6% (95th of 1836)🥉

2019. 10. 17. 12:39

Summary of Instant Gratification

kaggle Top6% (95th of 1836) 🥉

BaseLine [cv scores = 0.537]

LGBoost 피쳐중요도 그린 결과 'wheezy-copper-turtle-magic'변수의 중요도가 매우높아 탐색결과 'wheezy-copper-turtle-magic'변수만 정수값을 가지고 있었음. EDA를 통해 'wheezy-copper-turtle-magic' 변수와 다른 변수간의 상호작용을 탐색해봄

LogisticRegression [cv scores = 0.803]

eda 를 통하여 발견한 'wheezy-copper-turtle-magic'변수를 독립적으로 모델을 만들어 다른 변수들과 상호작용, 스코어가 향상.

Feature Selection [cv scores = 0.804]

독립모델을 만들경우 약 500개의 로우와 255개의 피처가 있어 차원의저주 즉 과적합에 빠질 수 있습니다. 적은 피처로도 비슷한 성능을 내는 방법을 찾아야 했고 분산이 1.5 이상인 피처들이 예측력이 있음을 찾았습니다.

Nonliear Model(NuSVC) [cv scores = 0.943]

StandardScaler [cv scores = 0.953]

QDA [cv scores = 0.964]

높은 스코어를 기록하는 Quadratic Discriminant Analysis모델을 Vladislav가 공개 Chris Deotte가 QDA를 설명
QDA가 높은스코어를 얻은 이유는 데이터가 다변량 가우스분포를 따르며 이러한 가정에서 매우 효과적인 모델이기 때문

Ensemble Models_XGBoost [cv scores = 0.967]

Pseudo Labeling [cv scores = 0.970]

Ensemble Models_XGBoost[cv scores = 0.9717][private = 0.972]

1% solution[private = 0.9744]

이번 comp의 핵심모델은 GMM이었습니다. 데이터가 make_classification을 통해 생성되었고 n_clusters_per_class=3이라는 것을 알아야만 했습니다.

반올림
unique_value_count 변수 생성
catergorial + NN, Lgboost, xgboost
VarianceThreshold
RobustScaler + VarianceThreshold + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)
StandardScaler + VarianceThreshold + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)
StandardScaler + PCA + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)
RobustScaler + PCA + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)
PolynomialFeatures + StandardScaler + VarianceThreshold + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)
PolynomialFeatures + RobustScaler+ VarianceThreshold + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)
StandardScaler + PolynomialFeatures + VarianceThreshold + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)
RobustScaler + PolynomialFeatures + VarianceThreshold + model(NuSVC, QDA, LR, MLP, KNN, SVC, LDA, GPC)

Data Structure : Chris Deotte discover Variables are not Gaussian
Adversarial Validation : test데이터와 train데이터는 같은 분포에서 나온데이터 확인. 참고
make_classification : mhviraf가 make_classification통해 Synthetic data생성 real데이터와 비슷한 AUC를 얻음
QDA
VarianceThreshold : 분산에 의해 특성을 선택한다.
GMM : Gaussian Mixture Model의 약자로 이번 우승 솔루션의 핵심 개념이다.
QLR(Quadratic logistic regression) : 이 모델은 QDA와 같은 quadratic boundary를 가지게 하는 변수와 logistic regression이 합쳐진것을 의미한다 예) PolynomialFeatures + LR

please upvote after click

Compare optimizer of efficientNet (2)	2019.11.06
Frequency Encoding이란? (0)	2019.10.17
kaggle Top8% (681th of 8802) 🥉 (0)	2019.10.17
[kaggle] Adversarial validation part1 (0)	2019.06.11
make_classification(데이터 만들기) (0)	2019.06.11