Python(18)
-
[데이터 사이언스/문법] df[df[ ]] 과 df[ ]의 차이가 무엇일까?
df['Ticker'] == Ticker는'Ticker' 열에서 주어진 Ticker와 일치하는 값들을 찾는 boolean 시리즈를 생성합니다.df[df['Ticker'] == Ticker]는이 boolean 시리즈를 사용하여 일치하는 행을 필터링한 새로운 데이터프레임을 생성합니다.이렇게 필터링된 데이터프레임을 사용하여 주어진 Ticker에 해당하는 주식의 인덱스를 찾고,k-NN 모델을 사용하여 가장 유사한 주식을 추천할 수 있습니다. df['Ticker'] == Ticker: 비교 연산df['Ticker'] == Ticker는 데이터프레임 df의 'Ticker' 열과 주어진 Ticker 값을 비교하는 연산입니다.이 연산의 결과는 동일한 길이의 boolean 시리즈로, 각 요소는 해당 행의 'Ticker..
2024.08.17 -
[데이터 사이언스/문법] columnTransformer란?
전처리기 정의preprocessor = ColumnTransformer( transformers=[ ('num', num_transformer, num_features), ('cat', cat_transformer, cat_features) ])상세 설명preprocessor =preprocessor라는 변수에 ColumnTransformer 객체를 할당합니다.이 변수는 이후에 데이터 전처리를 수행하는 데 사용됩니다.ColumnTransformer(ColumnTransformer 클래스는 여러 개의 변환기를 각기 다른 열에 적용할 수 있게 해주는 클래스입니다.ColumnTransformer를 사용하면 수치형 데이터와 범주형 데이터를 각각의 적절한 방법으로 변환할 수 있..
2024.08.16 -
[데이터 사이언스/개념/문법] oneHotCoding이란?
OneHotEncoder를 사용하여 범주형 데이터를 원-핫 인코딩하면,범주형 데이터를 머신 러닝 모델이 직접 사용할 수 있는 형태로 변환할 수 있습니다.이는 모델 성능 향상에 기여하며, 다양한 알고리즘과의 호환성을 보장합니다.다만, 차원의 증가와 메모리 사용량에 주의해야 합니다. One-Hot Encoding이란?One-Hot Encoding은 범주형 데이터를 이진 벡터(binary vector)로 변환하는 방법입니다.각 범주형 값은 하나의 고유한 이진 벡터로 변환됩니다.벡터의 길이는 해당 범주형 변수의 고유한 값의 개수와 같고, 특정 범주에 해당하는 위치는 1, 나머지 위치는 0으로 설정됩니다.예를 들어, ['red', 'green', 'blue']라는 범주형 변수를 원-핫 인코딩하면 다음과 같은 결과..
2024.08.16 -
[데이터 사이언스/개념] 표준화의 장점 및 데이터 scale 차이에 따른 영향
표준화를 통해 데이터의 스케일 차이를 줄임으로써모델이 각 특성에 균등하게 학습할 수 있도록 도와줍니다.이는 특히 경사 하강법을 사용하는 모델에서학습 속도를 높이고 성능을 향상시키는 데 중요한 역할을 합니다.표준화의 장점학습 속도 향상많은 머신 러닝 알고리즘은 데이터의 크기와 분포에 민감합니다. 표준화된 데이터는 모델이 더 빠르게 수렴할 수 있도록 도와줍니다. 특히 경사 하강법을 사용하는 알고리즘에서 학습 속도를 크게 향상시킬 수 있습니다.스케일 차이 문제 해결원본 데이터의 특성들이 매우 다른 스케일을 가질 경우, 스케일이 큰 특성들이 모델 학습에 더 큰 영향을 미치게 됩니다. 표준화는 모든 특성들을 동일한 스케일로 변환하여, 각각의 특성이 동일한 중요도로 고려되게 합니다.모델 성능 향상표준화는 특히 거리..
2024.08.15 -
[데이터 사이언스/개념/문법] pipeline이란?
Pipeline은 여러 변환기를 순차적으로 적용할 수 있게 해주는 유용한 도구입니다.각 변환기를 파이프라인의 하나의 "단계(step)"로 추가합니다.이러한 각 단계는 고유의 이름과 변환기로 구성됩니다. num_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())]) 수치형 데이터를 전처리하는 파이프라인을 정의이 파이프라인에는 두 가지 주요 단계: 결측치 대체와 표준화SimpleImputer & StandardScalerSimpleImputer(strategy='mean'):결측치를 평균값으로 대체합니다.각 열에 대해 결측치가 있을 경우, 해당 열의 평균값으로 결측치를 대체..
2024.08.15 -
[데이터 사이언스/문법] DataFrame 이란?
DataFrame은 pandas 라이브러리에서 제공하는 2차원 데이터 구조로, 행(row)과 열(column)로 구성된 데이터 테이블을 나타냅니다.DataFrame은 엑셀 스프레드시트와 비슷한 형식으로,데이터를 다루고 분석하기에 매우 유용합니다.pandas의 핵심 데이터 구조 중 하나로,다양한 데이터 소스로부터 데이터를 로드하고 조작할 수 있습니다. 주요 특징행과 열로 구성:DataFrame은 각기 다른 데이터 타입을 가질 수 있는 열(column)들로 이루어져 있습니다.각 행(row)은 서로 다른 데이터 포인트를 나타냅니다.레이블(인덱스):각 행과 열은 레이블을 가질 수 있습니다.기본적으로 행은 정수 인덱스를 가지지만, 특정 열을 인덱스로 설정할 수도 있습니다.다양한 데이터 소스로부터 생성 가능:CSV..
2024.08.15