
데이터사이언티스트 질문

통계 및 수학

  • 고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 왜 중요할까요?
  • 샘플링(Sampling)과 리샘플링(Resampling)에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
  • 확률 모형과 확률 변수는 무엇일까요?
  • 누적 분포 함수와 확률 밀도 함수는 무엇일까요? 수식과 함께 표현해주세요
  • 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / t 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요
  • 조건부 확률은 무엇일까요?
  • 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요
  • 신뢰 구간의 정의는 무엇인가요?
  • p-value를 고객에게는 뭐라고 설명하는게 이해하기 편할까요?
  • p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요?
  • A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요?
  • R square의 의미는 무엇인가요?
  • 평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?
  • 중심극한정리는 왜 유용한걸까요?
  • 엔트로피(entropy)에 대해 설명해주세요. 가능하면 Information Gain도요.
  • 요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요?
  • 어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요?
  • “likelihood”와 “probability”의 차이는 무엇일까요?
  • 통계에서 사용되는 bootstrap의 의미는 무엇인가요.
  • 모수가 매우 적은 (수십개 이하) 케이스의 경우 어떤 방식으로 예측 모델을 수립할 수 있을까요?
  • 베이지안과 프리퀀티스트간의 입장차이를 설명해주실 수 있나요?
  • 검정력(statistical power)은 무엇일까요?
  • missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?
  • 아웃라이어의 판단하는 기준은 무엇인가요?
  • 콜센터 통화 지속 시간에 대한 데이터가 존재합니다. 이 데이터를 코드화하고 분석하는 방법에 대한 계획을 세워주세요. 이 기간의 분포가 어떻게 보일지에 대한 시나리오를 설명해주세요
  • 출장을 위해 비행기를 타려고 합니다. 당신은 우산을 가져가야 하는지 알고 싶어 출장지에 사는 친구 3명에게 무작위로 전화를 하고 비가 오는 경우를 독립적으로 질문해주세요. 각 친구는 2/3로 진실을 말하고 1/3으로 거짓을 말합니다. 3명의 친구가 모두 "그렇습니다. 비가 내리고 있습니다"라고 말했습니다. 실제로 비가 내릴 확률은 얼마입니까?
  • 필요한 표본의 크기를 어떻게 계산합니까?
  • Bias를 통제하는 방법은 무엇입니까?
  • 로그 함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요

분석 일반

  • 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?
  • "상관관계는 인과관계를 의미하지 않는다"라는 말이 있습니다. 설명해주실 수 있나요?
  • A/B 테스트의 장점과 단점, 그리고 단점의 경우 이를 해결하기 위한 방안에는 어떤 것이 있나요?
  • 각 고객의 웹 행동에 대하여 실시간으로 상호작용이 가능하다고 할 때에, 이에 적용 가능한 고객 행동 및 모델에 관한 이론을 알아봅시다.
  • 고객이 원하는 예측모형을 두가지 종류로 만들었다. 하나는 예측력이 뛰어나지만 왜 그렇게 예측했는지를 설명하기 어려운 random forest 모형이고, 또다른 하나는 예측력은 다소 떨어지나 명확하게 왜 그런지를 설명할 수 있는 sequential bayesian 모형입니다.고객에게 어떤 모형을 추천하겠습니까?
  • 고객이 내일 어떤 상품을 구매할지 예측하는 모형을 만들어야 한다면 어떤 기법(예: SVM, Random Forest, logistic regression 등)을 사용할 것인지 정하고 이를 통계와 기계학습 지식이 전무한 실무자에게 설명해봅시다.
  • 나만의 feature selection 방식을 설명해봅시다.
  • 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?


  • Cross Validation은 무엇이고 어떻게 해야하나요?
  • 회귀 / 분류시 알맞은 metric은 무엇일까요?
  • 알고 있는 metric에 대해 설명해주세요(ex. RMSE, MAE, recall, precision ...)
  • 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?
  • Local Minima와 Global Minima에 대해 설명해주세요.
  • 차원의 저주에 대해 설명해주세요
  • dimension reduction기법으로 보통 어떤 것들이 있나요?
  • PCA는 차원 축소 기법이면서, 데이터 압축 기법이기도 하고, 노이즈 제거기법이기도 합니다. 왜 그런지 설명해주실 수 있나요?
  • LSA, LDA, SVD 등의 약자들이 어떤 뜻이고 서로 어떤 관계를 가지는지 설명할 수 있나요?
  • Markov Chain을 고등학생에게 설명하려면 어떤 방식이 제일 좋을까요?
  • 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?
  • SVM은 왜 반대로 차원을 확장시키는 방식으로 동작할까요? 거기서 어떤 장점이 발생했나요?
  • 다른 좋은 머신 러닝 대비, 오래된 기법인 나이브 베이즈(naive bayes)의 장점을 옹호해보세요.
  • Association Rule의 Support, Confidence, Lift에 대해 설명해주세요.
  • 최적화 기법중 Newton’s Method와 Gradient Descent 방법에 대해 알고 있나요?
  • 머신러닝(machine)적 접근방법과 통계(statistics)적 접근방법의 둘간에 차이에 대한 견해가 있나요?
  • 인공신경망(deep learning이전의 전통적인)이 가지는 일반적인 문제점은 무엇일까요?
  • 지금 나오고 있는 deep learning 계열의 혁신의 근간은 무엇이라고 생각하시나요?
  • ROC 커브에 대해 설명해주실 수 있으신가요?
  • 여러분이 서버를 100대 가지고 있습니다. 이때 인공신경망보다 Random Forest를 써야하는 이유는 뭘까요?
  • K-means의 대표적 의미론적 단점은 무엇인가요? (계산량 많다는것 말고)
  • L1, L2 정규화에 대해 설명해주세요
  • XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요?
  • 앙상블 방법엔 어떤 것들이 있나요?
  • SVM은 왜 좋을까요?
  • feature vector란 무엇일까요?
  • 좋은 모델의 정의는 무엇일까요?
  • 50개의 작은 의사결정 나무는 큰 의사결정 나무보다 괜찮을까요? 왜 그렇게 생각하나요?
  • 스팸 필터에 로지스틱 리그레션을 많이 사용하는 이유는 무엇일까요?
  • OLS(ordinary least squre) regression의 공식은 무엇인가요?
xgboost_general parameters


  • xgboost를 시작하기 전에 우리는 세가지의 파라미터를 반드시 설정해야한다

    1.general parameters : 우리가 사용하는 부스팅과 관련이 있으며 트리와 선형모델이 있다.

    2 booster parameters : 위에서 선택한 부스터에 따른 파라미터이다.

    3 learning task parameters : 학습 시나리오를 결정하는 파라미터이다.

general parameters

  • booster [default= gbtree ] : 어떤 부스터를 사용할지 결정한다. 기본값은 gbtree 이며 gbtree 및 dart 값은 트리 기반 모델을 사용하는 반면 gblinear는 선형 함수를 사용합니다.
  • silent [default=1]: 기본값은1이다. 0입력시 실행 메세지를 출력한다
  • Nthread(default=가능한 최대 threads의 수) : xgboost 실행에 사용되는 병렬 스레드의 수
  • num_pbuffer : xgboost가 자동으로 셋팅하며 사용자가 셋팅할 필요가없다.
  • num_feature xgboost가 자동으로 셋팅하며 사용자가 셋팅할 가없다.

xgboost에 general parameters 적용해보기

In [7]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import xgboost as xgb
In [8]:
#암분류 데이터 로드(569명의 환자의 30개 변수)
cancer = load_breast_cancer()

#데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, stratify=cancer.target, random_state=42)
print("X_train 크기{}".format(X_train.shape))
print("y_train 크기{}".format(y_train.shape))
print("X_test 크기{}".format(X_test.shape))
print("y_test 크기{}".format(y_test.shape))
X_train 크기(426, 30)
y_train 크기(426,)
X_test 크기(143, 30)
y_test 크기(143,)
In [9]:
# .XGBClassifier의 general parameters기본값: booster='gbtree',  nthread=None, silent=1

#분류문제이기 떄문에 XGBClassifier 모델 로드
xgb_model =xgb.XGBClassifier(silent=0)
XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
       colsample_bytree=1, gamma=0, learning_rate=0.1, max_delta_step=0,
       max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
       n_jobs=1, nthread=None, objective='binary:logistic', random_state=0,
       reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
       silent=True, subsample=1)

silent=0으로 설정하니 학습메세지가 나온걸 볼 수 있다 너무 길어 다음 포스팅부터는 1로 고정

In [10]:
#모델학습 (훈련세트에 비해 테스트세트가 정확도가 낮아졌다 과적합된걸로 보인다.)
xgb_model.fit(X_train, y_train)
print("훈련 세트 정확도: {:.3f}".format(xgb_model.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(xgb_model.score(X_test, y_test)))
훈련 세트 정확도: 1.000
테스트 세트 정확도: 0.951
In [11]:
릿지 회귀에서 가중치 W는 데이터 예측 뿐 아니라 추가 제약 조건을 위해 사용한다.

W의 절대값을 가능한한 작게하여 W의 모든원소가 0이 되게 하여 모든 특성이 출력에 주는

영향을 0으로 가깝게 만듦으로써 과대적합이 되지 않게 한다.

In [1]:
import numpy as nop
import pandas as pd
import mglearn
In [2]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

보스턴주택가격 데이터로드

In [3]:
X, y = mglearn.datasets.load_extended_boston()
print("X.shape: {}".format(X.shape))
X.shape: (506, 104)


In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)


In [5]:
lr = LinearRegression().fit(X_train, y_train)
In [6]:
print("훈련 세트 점수: {:.2f}".format(lr.score(X_train, y_train)))
print("테스트 세트 점수: {:.2f}".format(lr.score(X_test, y_test)))
훈련 세트 점수: 0.95
테스트 세트 점수: 0.61


선형모델모다 훈련세트의 점수는 낮지만 테스트 세트의 점수는 높아진 것을 볼 수 있다.

In [7]:
from sklearn.linear_model import Ridge
In [8]:
ridge = Ridge().fit(X_train, y_train)
print("훈련 세트 점수: {:.2f}".format(ridge.score(X_train, y_train)))
print("테스트 세트 점수: {:.2f}".format(ridge.score(X_test, y_test)))
훈련 세트 점수: 0.89
테스트 세트 점수: 0.75

Ridge의 매개변수로는 alpha가 있습니다. alpha값을 높이면 계수를 0에 가깝게 만들어서 훈련세트의 성능은 나빠지지만 일반화에는 도움을 줄 수 있다.


In [9]:
from sklearn.svm import SVC

best_score = 0

for alpha in [1e-05, 0.0001, 0.001, 0.01, 0.1, 1, 10, 100]:
        ridge = Ridge(alpha=alpha)
        ridge.fit(X_train, y_train)

        score = ridge.score(X_test, y_test)
        score1  = ridge.score(X_test, y_test)

        print("alpha 파라미터: {}".format(alpha))
        print("훈련 세트 점수: {:.2f}".format(score))
        print("테스트 세트 점수: {:.2f}".format(score1))
alpha 파라미터: 1e-05
훈련 세트 점수: 0.61
테스트 세트 점수: 0.61
alpha 파라미터: 0.0001
훈련 세트 점수: 0.62
테스트 세트 점수: 0.62
alpha 파라미터: 0.001
훈련 세트 점수: 0.63
테스트 세트 점수: 0.63
alpha 파라미터: 0.01
훈련 세트 점수: 0.70
테스트 세트 점수: 0.70
alpha 파라미터: 0.1
훈련 세트 점수: 0.77
테스트 세트 점수: 0.77
alpha 파라미터: 1
훈련 세트 점수: 0.75
테스트 세트 점수: 0.75
alpha 파라미터: 10
훈련 세트 점수: 0.64
테스트 세트 점수: 0.64
alpha 파라미터: 100
훈련 세트 점수: 0.42
테스트 세트 점수: 0.42

alpha값을 줄이면 계수에 대한 제약이 없어져 선형모델과 같은 결과를 나타낸다.

alpha값이 너무 커지면 제약이 강해져 가중치는 0에 가까워져 성능이 떨어집니다.

parmeters를 축소하는 작업은 다중공선성 방지에 가장 많이 쓰입니다.

계수 축소에 의해 모델의 복잡도를 줄입니다.

L2 regularization을 활용합니다.

In [11]:
