데이터사이언스(5)
-
[데이터 사이언스/문법] df[df[ ]] 과 df[ ]의 차이가 무엇일까?
df['Ticker'] == Ticker는'Ticker' 열에서 주어진 Ticker와 일치하는 값들을 찾는 boolean 시리즈를 생성합니다.df[df['Ticker'] == Ticker]는이 boolean 시리즈를 사용하여 일치하는 행을 필터링한 새로운 데이터프레임을 생성합니다.이렇게 필터링된 데이터프레임을 사용하여 주어진 Ticker에 해당하는 주식의 인덱스를 찾고,k-NN 모델을 사용하여 가장 유사한 주식을 추천할 수 있습니다. df['Ticker'] == Ticker: 비교 연산df['Ticker'] == Ticker는 데이터프레임 df의 'Ticker' 열과 주어진 Ticker 값을 비교하는 연산입니다.이 연산의 결과는 동일한 길이의 boolean 시리즈로, 각 요소는 해당 행의 'Ticker..
2024.08.17 -
[데이터 사이언스/문법] columnTransformer란?
전처리기 정의preprocessor = ColumnTransformer( transformers=[ ('num', num_transformer, num_features), ('cat', cat_transformer, cat_features) ])상세 설명preprocessor =preprocessor라는 변수에 ColumnTransformer 객체를 할당합니다.이 변수는 이후에 데이터 전처리를 수행하는 데 사용됩니다.ColumnTransformer(ColumnTransformer 클래스는 여러 개의 변환기를 각기 다른 열에 적용할 수 있게 해주는 클래스입니다.ColumnTransformer를 사용하면 수치형 데이터와 범주형 데이터를 각각의 적절한 방법으로 변환할 수 있..
2024.08.16 -
[데이터 사이언스/개념/문법] oneHotCoding이란?
OneHotEncoder를 사용하여 범주형 데이터를 원-핫 인코딩하면,범주형 데이터를 머신 러닝 모델이 직접 사용할 수 있는 형태로 변환할 수 있습니다.이는 모델 성능 향상에 기여하며, 다양한 알고리즘과의 호환성을 보장합니다.다만, 차원의 증가와 메모리 사용량에 주의해야 합니다. One-Hot Encoding이란?One-Hot Encoding은 범주형 데이터를 이진 벡터(binary vector)로 변환하는 방법입니다.각 범주형 값은 하나의 고유한 이진 벡터로 변환됩니다.벡터의 길이는 해당 범주형 변수의 고유한 값의 개수와 같고, 특정 범주에 해당하는 위치는 1, 나머지 위치는 0으로 설정됩니다.예를 들어, ['red', 'green', 'blue']라는 범주형 변수를 원-핫 인코딩하면 다음과 같은 결과..
2024.08.16 -
[데이터 사이언스/개념] 표준화의 장점 및 데이터 scale 차이에 따른 영향
표준화를 통해 데이터의 스케일 차이를 줄임으로써모델이 각 특성에 균등하게 학습할 수 있도록 도와줍니다.이는 특히 경사 하강법을 사용하는 모델에서학습 속도를 높이고 성능을 향상시키는 데 중요한 역할을 합니다.표준화의 장점학습 속도 향상많은 머신 러닝 알고리즘은 데이터의 크기와 분포에 민감합니다. 표준화된 데이터는 모델이 더 빠르게 수렴할 수 있도록 도와줍니다. 특히 경사 하강법을 사용하는 알고리즘에서 학습 속도를 크게 향상시킬 수 있습니다.스케일 차이 문제 해결원본 데이터의 특성들이 매우 다른 스케일을 가질 경우, 스케일이 큰 특성들이 모델 학습에 더 큰 영향을 미치게 됩니다. 표준화는 모든 특성들을 동일한 스케일로 변환하여, 각각의 특성이 동일한 중요도로 고려되게 합니다.모델 성능 향상표준화는 특히 거리..
2024.08.15 -
[데이터분석] 데이터사이언스 개론
데이터 사이언스란?데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과정에서 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야데이터 사이언스의 관점에서 보는 과학 변천사인간의 직관통계학2차 산업혁명(19C~20C)6시그마 프로세스(20C)데이터 사이언스Iphone 모먼트(2007)엔비디아 창업(1993~) : GPU알파고 대국(2016)Chat-GPT 출시(2023)데이터란?Data : 어딘가에 있는 숫자, 이미지, 음성과 같은 형태로서의 데이터Information : 데이터를 좀 더 유의미한 처리과정을 통해서 정보로Knowledge : 정보간의 상호관계를 파악하면Insig..
2024.08.13