Session8. 텍스트 분석

기존 내용 복습

fit→predict

fit: 지도 학습에서 특정 레이블을 예측하기 전에 데이터를 학습하기 위해 사용

fit메서드를 사용해 데이터를 학습시킨 후, predict메서드를 통해 결과를 예측한다

fit→transform

fit: 학습 데이터 세트에서 변환을 위한 기반을 설정하는 단계

transforms: fit메서드에서 저장한 설정값들은 기반으로 데이터를 변환하는 메서드

fit_transform

fit+transform을 연속적으로 수행

*테스트 세트에서 fit_transform() 혹은 fit()을 통해 데이터를 변환시켜버리면 기존의 훈련 데이터에서 저장했던 값들을 새롭게 저장하게 됨, 따라서 이 경우 fit_transform()사용하지말고 transform()만 사용해야함

#기본 fit, predict활용
df.fit(X_train, y_train)
pred=df.predict(X_test)
print('예측 정확도:{0:.4f}'.format(accuaracy_score(y_test,pred)

pipeline

목적: cross_validated(교차 검증) 여러가지의 단계들을 합쳐놓은 것이다. 여러가지 데이터 전처리를 하는 모델들은 한데 묶어서 fit시키려고 사용한다.

from sklearn.pipelearn import pipeline
X_trian,X_test,Y_train,Y_test=tranin_test_split(df,target,
test_size=0.2,random_state=11)
pipe=Pipeline([('scaler', StandScaler()),('svc',SVC())])
pipe.fit(X_train,Y_trian)
pipe.score(X_test,Y_test)

#parameter넘겨주기 가능
estimators=[('reduce_dim',PCA()),('clf',SVC())]
pipe=Pipeline(estimators)
pipe.fit(X_train,Y_trian)

#GridSearchCV와 결합해서 Params수정
param_grid=dict(reduce_dim__n_components=[0,1,2],clf__C=[0.1,1,10])
grid_search=GridSearchCV(pipe,param_grid=param_grid)
grid_seasrch.fit(X_trian,Y_trian)