목록AI dev/Machine Learning (3)
bonggyulim 님의 블로그
전처리를 하다 보면 결측치 처리, 인코딩, 스케일링만으로 끝나지 않는 경우도 많다.데이터 형태와 문제 유형에 따라 차원축소, 벡터화, 클래스 불균형 처리까지 함께 고려할 수 있다.다만 이 기법들은 모든 문제에 무조건 사용하는 것이 아니라,데이터 특성과 모델 목적에 맞게 선택적으로 적용해야 한다.1. PCA차원축소는 feature 수가 많을 때 정보를 최대한 유지하면서 차원을 줄이는 방법이다.컬럼이 너무 많으면 학습 속도가 느려지고, 불필요한 노이즈가 많아질 수 있다.이럴 때 대표적으로 PCA(Principal Component Analysis) 를 사용할 수 있다.from sklearn.decomposition import PCApca = PCA(n_components=2)X_train_pca = pca..
전처리가 끝났다면 이제 본격적으로 머신러닝 모델을 학습시키고 성능을 평가할 수 있다. 실제 머신러닝 프로젝트에서는 모델 하나만 사용하는 것이 아니라, 여러 모델을 비교해보고 데이터에 더 잘 맞는 모델을 선택하는 과정이 중요하다. 이번 글에서는 대표적인 회귀 모델과 분류 모델의 기본 사용법을 정리한다. 회귀 예제: tips 데이터셋분류 예제: iris 데이터셋1. 회귀 모델 학습 파트회귀는 연속적인 숫자 값을 예측하는 문제이다.예를 들어 집값, 매출, 온도, 점수처럼 숫자로 표현되는 값을 예측할 때 회귀 모델을 사용한다.이번 예제에서는 tips 데이터셋을 사용해서 **팁 금액(tip)**을 예측해본다.1.0. 데이터 준비tips = sns.load_dataset("tips").copy()# 결측치 / 중복..
머신러닝에서 모델을 바꾸는 것만큼 중요한 것이 데이터 전처리다.실제로 데이터를 다뤄보면 모델을 바로 학습하는 시간보다, 먼저 데이터를 확인하고 정리하고 가공하는 시간이 더 길다.복잡한 수식 설명보다 실제로 어떻게 전처리를 하는지에 집중해서 정리했다.예시는 seaborn의 tips 데이터셋을 사용했다. 1. 실습 준비import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler2. 데..