AI & DS/머신러닝(34)
-
[머신러닝] Train set/Test set/Features/Target 이란?
훈련(Train)데이터, 테스트(Test)데이터,입력데이터(Features), 타겟데이터(Target)의 의미를 정확히 이해하고 넘어가자왜 데이터를 훈련(train)과 테스트(test)로 나눌까?머신러닝 모델을 만들 때 가장 중요한 목표는 새로운 데이터(보지 않은 데이터)에서도 잘 예측하는 모델을 만드는 것이다.이를 위해, 주어진 데이터를 학습용(train)과 평가용(test)으로 나눠야 한다.훈련 데이터 (Train set) → 모델을 훈련시키는 데 사용테스트 데이터 (Test set) → 훈련된 모델을 평가하는 데 사용 모델을 학습한 데이터로 그대로 평가하면?모델이 학습 데이터에 너무 과적합(overfitting)될 위험이 있다.새로운 데이터에서는 성능이 낮아질 수 있음 → 그래서 테스트 데이터가 필..
2025.02.27 -
[머신러닝] 데이터 인코딩(DataEncoding)/Feature Scaling이란?
1. Label Encoding (레이블 인코딩)문자(범주형, Categorical) 데이터를 숫자로 변환하는 방법예를 들어, "사과", "바나나", "오렌지" 같은 문자열을 0, 1, 2 같은 숫자로 변환함💡 머신러닝 모델은 숫자만 이해할 수 있기 때문에, 문자 데이터를 숫자로 변환해야 한다!과일이름레이블(숫자)Apple0Banana1Orange2 from sklearn.preprocessing import LabelEncoderfruits = ["Apple", "Banana", "Orange", "Apple", "Banana"]encoder = LabelEncoder()encoded_labels = encoder.fit_transform(fruits)print(encoded_labels) # 출력..
2025.02.27 -
[머신러닝/문법] Numpy & Pandas 결측치 관련 함수
1. 결측치 확인 함수df.isna()NaN이면 True, 아니면 False 반환df.isnull()isna()와 동일 (NaN이면 True)df.notna()NaN이 아닌 값이면 True, NaN이면 Falsedf.notnull()notna()와 동일df.isna().sum()각 열별 결측치 개수 반환df.info()데이터프레임 정보 (결측치 개수 포함) import pandas as pdimport numpy as npdata = { "name": ["Alice", "Bob", "Charlie", "David"], "age": [25, np.nan, 30, np.nan], "score": [85, 90, np.nan, 78]}df = pd.DataFrame(data)# 결측치 확인pr..
2025.02.26 -
[머신러닝/개념] Numpy & Pandas 축(axis) 개념 정리
"행 단위 연산"이면 행을 기준으로 해야 할 것 같은데, 왜 "열 기준 연산"이라고 할까?" 축의 의미를 이해해보자axis=0과 axis=1이 의미 : 어떤 방향으로 연산을 적용하는가?axis=0 → "위에서 아래로(⬇) 세로 방향으로 적용" → 즉, 행(row) 단위 연산axis=1 → "왼쪽에서 오른쪽으로(➡) 가로 방향으로 적용" → 즉, 열(column) 단위 연산즉, 연산을 적용하는 기준이 축(axis) -> 축을 따라 이동하면서 연산을 수행하는 것!1. axis=0이면 행 방향(세로 방향)으로 이동하면서 연산을 수행2. axis=1이면 열 방향(가로 방향)으로 이동하면서 연산을 수행 axis=0⬇ 세로(수직)열(column) 기준 연산행(row)단위 연산행(row) 삭제각 열(column)에..
2025.02.26 -
[머신러닝] 공모전 추천 시스템(1) - 코랩/설치 라이브러리
캠퍼스픽에 소개된 공모전에 대한 추천 시스템을 만들어보도록 하겠습니다.먼저, 구글 코랩에서 공모전 추천 시스템에 필요한 라이브러리들을 설치하도록 합니다.구글 코랩에서 사용할 경우, 파이참 등에서 사용할 때와 설치방법이 다를 수 있으니 주의해 주세요! !pip install selenium!apt-get update# (최초 1회)!apt install chromium-chromedriver!cp /usr/lib/chromium-browser/chromedriver '/content/drive/MyDrive/Colab Notebooks' #!pip install chromedriver-autoinstaller !pip install seleniumPython에서 웹 브라우저 자동화를 수행하는 Seleni..
2024.08.29 -
[데이터 사이언스/문법] df[df[ ]] 과 df[ ]의 차이가 무엇일까?
df['Ticker'] == Ticker는'Ticker' 열에서 주어진 Ticker와 일치하는 값들을 찾는 boolean 시리즈를 생성합니다.df[df['Ticker'] == Ticker]는이 boolean 시리즈를 사용하여 일치하는 행을 필터링한 새로운 데이터프레임을 생성합니다.이렇게 필터링된 데이터프레임을 사용하여 주어진 Ticker에 해당하는 주식의 인덱스를 찾고,k-NN 모델을 사용하여 가장 유사한 주식을 추천할 수 있습니다. df['Ticker'] == Ticker: 비교 연산df['Ticker'] == Ticker는 데이터프레임 df의 'Ticker' 열과 주어진 Ticker 값을 비교하는 연산입니다.이 연산의 결과는 동일한 길이의 boolean 시리즈로, 각 요소는 해당 행의 'Ticker..
2024.08.17