데이터 사이언스(2)
-
[데이터 사이언스/개념/문법] pipeline이란?
Pipeline은 여러 변환기를 순차적으로 적용할 수 있게 해주는 유용한 도구입니다.각 변환기를 파이프라인의 하나의 "단계(step)"로 추가합니다.이러한 각 단계는 고유의 이름과 변환기로 구성됩니다. num_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())]) 수치형 데이터를 전처리하는 파이프라인을 정의이 파이프라인에는 두 가지 주요 단계: 결측치 대체와 표준화SimpleImputer & StandardScalerSimpleImputer(strategy='mean'):결측치를 평균값으로 대체합니다.각 열에 대해 결측치가 있을 경우, 해당 열의 평균값으로 결측치를 대체..
2024.08.15 -
[데이터 사이언스/문법] DataFrame 이란?
DataFrame은 pandas 라이브러리에서 제공하는 2차원 데이터 구조로, 행(row)과 열(column)로 구성된 데이터 테이블을 나타냅니다.DataFrame은 엑셀 스프레드시트와 비슷한 형식으로,데이터를 다루고 분석하기에 매우 유용합니다.pandas의 핵심 데이터 구조 중 하나로,다양한 데이터 소스로부터 데이터를 로드하고 조작할 수 있습니다. 주요 특징행과 열로 구성:DataFrame은 각기 다른 데이터 타입을 가질 수 있는 열(column)들로 이루어져 있습니다.각 행(row)은 서로 다른 데이터 포인트를 나타냅니다.레이블(인덱스):각 행과 열은 레이블을 가질 수 있습니다.기본적으로 행은 정수 인덱스를 가지지만, 특정 열을 인덱스로 설정할 수도 있습니다.다양한 데이터 소스로부터 생성 가능:CSV..
2024.08.15