AI & DS/머신러닝(34)
-
[머신러닝] - 머신러닝의 개념 및 종류
프로그래밍 VS 머신러닝프로그래밍 : 인간이 주는 규칙이 있고 거기에 대한 데이터를 주면, 프로그래밍으로 해답을 내는 것머신러닝: 데이터와 해답을 주었을 때, 머신러닝을 통해 규칙을 도출해내는 것인공지능 VS 머신러닝 VS 딥러닝머신러닝 : 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상 시키는 기술 방법머신러닝의 상위분야가 인공지능사고나 학습 등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술머신러닝의 하위분야 중 하나가 딥러닝인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리머신러닝 VS 딥러닝머신러닝입력 - 특징 추출 - 분류 - 출력입력을 통해 출력을 배출하는데, 그 사이에 “특징 추출”이 필요함인간이 미리 데이터의 특징을 입력하는 작업이 있어야함 → 인간의 주관이 조금 더 중요함딥러닝입력..
2024.08.13 -
[데이터분석] 타이타닉 데이터셋 전처리 실습
타이타닉 데이터셋 전처리 실습https://www.kaggle.com/competitions/titanic/# 타이타닉 데이터셋 다운로드!kaggle competitions download -c titanic# 압축 해제!unzip titanic.zip데이터 병합import pandas as pdtrain_df = pd.read_csv("train.csv")train_df.head() test_df = pd.read_csv("test.csv")test_df.head()test.csv에 Survived column이 빠져있음Survived 컬럼을 추가하고 NaN 값으로 채우고 두 데이터프레임을 결합# test_df에 Survived 컬럼을 추가하고 NaN 값으로 채움test_df['Survived'] = ..
2024.08.13 -
[데이터분석] 데이터 전처리 - Kaggle API 인증하기
데이터 전처리를 학습하기 전에, Kaggle API 인증하는 방법에 대해 알아보도록 하겠습니다.Kaggle API 인증하기kaggle site에서 kaggle.json 다운로드 # Kaggle API를 사용하여 데이터 다운로드!pip install kaggle# Kaggle API 인증 파일 업로드from google.colab import filesfiles.upload()# Kaggle API 인증!mkdir -p ~/.kaggle!cp kaggle.json ~/.kaggle/!chmod 600 ~/.kaggle/kaggle.json파일선택 - kaggle.json
2024.08.13 -
[데이터분석] Pandas - DataFrame
DataFrame 생성pd.DataFrame(data)List 사용date = [['초코파이', '몽쉘', '오예스'], ['오리온', '롯데', '해태'], [171, 170, 150], 5830, 5290, 4790]]df = pd.DataFrame(data)+) index명, column명 설정date = [['초코파이', '몽쉘', '오예스'], ['오리온', '롯데', '해태'], [171, 170, 150], 5830, 5290, 4790]]df = pd.DataFrame(data, index='상품명', '제조사', '열량', '가격'], columns=['상품1', '상품2', '상품3'])Dictionary사용data = {'상품1' : ['초코파이', '오리온', 171, 5830], ..
2024.08.13 -
[데이터분석] Pandas - Series
Series 생성pd.Series(data, index = ) → List, Dictionary, Tuple, ndarray 등numpy와 다르게 다른 유형(자료형)의 데이터를 다 묶을 수 있음pandas는 계산용이 아닌, 분석용이기 때문에 다양한 형태의 데이터 호환이 가능함상품명초코파이제조사오리온열량171가격5830 List 사용# pd.Series(data)series = pd.Series(['초코파이', '오리온', 171, 5830])print(series)+) index 설정series = pd.Series(['초코파이', '오리온', 171, 5830], index = ['상품명', '제조사', '열량', '가격'])print(series) Tuple 사용Tuple 자료형: (data1, d..
2024.08.13 -
[데이터분석] Pandas
PandasPython Data Analysis Library대표적인 Python 기반 정형 데이터 분석 라이브러리import pandas as pd특징테이블 형태의 데이터를 분석/처리할 수 있는 다양한 함수 제공Excel로 할 수 있는 모든 연산/기능 수행 가능데이터 통계, 크롤링, 시각화 등 가능Python 자료구조(list, Tuple, Dictionary, numpy array)와 호환외부 데이터(CSV, txt, Excel, SQL database, XML, pdf 등)불러올 수 있음Pandas 자료구조1. Series - 1차원데이터 2. Data Frame - 2차원 데이터행의 이름 : index명열의 이름 : column명series를 모아놓은 것이 Data Frame
2024.08.13