전체 글(86)
-
[머신러닝] 주식 종목 추천 시스템 - (1) yfinance 라이브러리 설치 & Ticker란?
yfinance 라이브러리 설치 및 설명!pip install yfinance!pip install --upgrade yfinance #로드가 안 될 경우 업그레이드가 필요import yfinance as yfTicker란 무엇인가?주식 시장에서 "티커(ticker)"는 특정 주식의 고유 식별자를 의미하며, 각 주식은 고유한 티커 심볼(ticker symbol)로 식별된다. 티커 심볼은 특정 회사나 펀드를 대표한다.예를 들어, Apple Inc.의 티커 심볼은 'AAPL', Microsoft의 티커 심볼은 'MSFT’이다.yf.Ticker(티커명).infoPython의 yfinance 라이브러리를 사용하여 Apple Inc. (AAPL) 주식의 52주 변동률(52-week change)을 가져온다.yf...
2024.08.14 -
[데이터분석] 데이터 크롤링 실습(2) - 인프런 크롤링
오늘은 인프런 사이트의 데이터 크롤링 실습을 진행하여 보도록 하겠습니다DataCrawling Pycharm Library Settingimport seleniumprint(selenium.__version__)from selenium import webdriverfrom selenium.webdriver.common.by import Byimport sysfrom selenium.webdriver.common.keys import Keysimport urllib.requestimport osfrom urllib.request import urlretrieveimport timeimport pandas as pdimport numpy as npimport re # 전처리를 위한 라이브러리chrome_opt..
2024.08.14 -
[데이터분석] 데이터 크롤링 실습(1)
파이참에 환경 세팅selenium 다운로드pip install seleniumpip install --upgrade piphomebrew 로 Mac에 chromedriver 설치brew install chromedriberBeautifulSoup1. 라이브러리 가져오기# beautifulSoup 라이브러리 가져오기import requestsfrom bs4 import BeautifulSoup 2. robots.txt 읽어보기(예) 다나와 사이트 : https://danawa.com/robots.txt → url 뒤에 /robots.txt 붙이기robots.txt : 법적 효력이 없기 때문에, 수정사항이 있어도 반영되지 않을 수 있음모든 User-agent 에 대해 /user_report/, /elec/M..
2024.08.14 -
[데이터분석] 데이터 크롤링
Crawling자동으로 웹페이지 데이터를 수집하는 행위너무 많은 크롤링은 서버에 과도한 부하를 주게 되어서 IP가 차단되는 상황이 발생할 수 있음Robots.txt와 사용자 에이전트(user agent)Robots.txt웹 사이트 및 웹 페이지를 수집하는 로봇들의 무단 접근을 방지하기 위해 만들어진 로봇 배제 표준/국제 권고안 → 법적인 통제력은 없으나 서로 간 예의일부 스팸 봇이나 악성 목적을 지닌 가짜 클라이언트 로봇은 웹 사이트에 진짜 클라이언트처럼 접근무단으로 웹 사이트 정보를 긁어가거나, 웹 서버에 부하를 줌⇒ 이런 로봇들의 무분별한 접근을 통제하기 위해 마련User agent웹 서버에 요청을 보내도 요청을 거부 당하는 경우 발생 → 무단 봇으로 짐작하고 웹 서버에서 접근을 막는 것우리가 스팸 ..
2024.08.14 -
[머신러닝] - 머신러닝의 개념 및 종류
프로그래밍 VS 머신러닝프로그래밍 : 인간이 주는 규칙이 있고 거기에 대한 데이터를 주면, 프로그래밍으로 해답을 내는 것머신러닝: 데이터와 해답을 주었을 때, 머신러닝을 통해 규칙을 도출해내는 것인공지능 VS 머신러닝 VS 딥러닝머신러닝 : 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상 시키는 기술 방법머신러닝의 상위분야가 인공지능사고나 학습 등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술머신러닝의 하위분야 중 하나가 딥러닝인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리머신러닝 VS 딥러닝머신러닝입력 - 특징 추출 - 분류 - 출력입력을 통해 출력을 배출하는데, 그 사이에 “특징 추출”이 필요함인간이 미리 데이터의 특징을 입력하는 작업이 있어야함 → 인간의 주관이 조금 더 중요함딥러닝입력..
2024.08.13 -
[데이터분석] 타이타닉 데이터셋 전처리 실습
타이타닉 데이터셋 전처리 실습https://www.kaggle.com/competitions/titanic/# 타이타닉 데이터셋 다운로드!kaggle competitions download -c titanic# 압축 해제!unzip titanic.zip데이터 병합import pandas as pdtrain_df = pd.read_csv("train.csv")train_df.head() test_df = pd.read_csv("test.csv")test_df.head()test.csv에 Survived column이 빠져있음Survived 컬럼을 추가하고 NaN 값으로 채우고 두 데이터프레임을 결합# test_df에 Survived 컬럼을 추가하고 NaN 값으로 채움test_df['Survived'] = ..
2024.08.13