[데이터분석] 데이터사이언스 개론
2024. 8. 13. 15:16ㆍAI & DS/머신러닝
데이터 사이언스란?
- 데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과정에서 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야
데이터 사이언스의 관점에서 보는 과학 변천사
- 인간의 직관
- 통계학
- 2차 산업혁명(19C~20C)
- 6시그마 프로세스(20C)
- 데이터 사이언스
- Iphone 모먼트(2007)
- 엔비디아 창업(1993~) : GPU
- 알파고 대국(2016)
- Chat-GPT 출시(2023)
데이터란?
- Data : 어딘가에 있는 숫자, 이미지, 음성과 같은 형태로서의 데이터
- Information : 데이터를 좀 더 유의미한 처리과정을 통해서 정보로
- Knowledge : 정보간의 상호관계를 파악하면
- Insight : insight를 발견할 수 있음
- Wisdom
데이터 기반 의사 결정 예시
- 데이터
- 구매 기록 데이터
- 고객별 인적 사항 데이터
- 제품 데이터
- 고객별 리뷰 데이터
- 정보
- 단골고객 구매 상품 분석
- 연령별 구매 상품 분석
- 제품별 구매 연령대 분석
- 단골고객 연령대 분석
- 제품 리뷰 키워드 분석
- 지식
- 단골고객일수록 구매 상품의 변동폭이 적었다.
- 우리 제품은 20~30대 단골 고객이 유독 많았다.
- 20~30대 단골고객의 경우 리뷰에 ‘빠른 배송’을 키워드로 꼽는 비율이 더 높았다.
- 지혜
- 단골고객을 포인트제로 구별하여 단골고객에게 제품 카탈로그를 제공해서 제품 노출도를 올리자
- 왜 20~30대에 유독 단골고객이 많은 지 심층적인 분석을 하자
- 배송에 차질이 안 생기도록 제품 배송 파이프라인을 꼼꼼히 점검하자
데이터의 종류
- 정형 데이터
- 형태가 있고, 연산이 가능함 ex) 엑셀, CSV
- 반정형 데이터
- 형태가 있고, 연산이 불가능함 ex) HTML, XML
- 비정형 데이터
- 형태가 없고, 연산이 불가능함 ex) 사진, 영상, 음성
데이터 사이언스 파이프 라인
- 문제정의 ↔ 데이터 수집 ↔ 데이터 전처리 ↔ 데이터 저장 ↔ 모델 학습/평가 ↔ 모델 배포 ↔ 문제정의
- 각각의 단계는 양방향으로 이동 = 유기적 연결
- 각 단계에서 문제가 발생할 시 이전단계로 돌아갈 수 있음
- 바로 전 단계로만 이동하는 것이 아닌 모든 단계로 돌아갈 수 있음
- 각각의 단계는 양방향으로 이동 = 유기적 연결
데이터 관련 직무의 분류
- 데이터 엔지니어
- 데이터 자체와 데이터를 둘러싼 시스템을 책임지는 사람
- 데이터 관리, 수집, 보관, 처리 시스템의 개발, 구조 설계, 유지보수 담당
- 빠르게 쌓이는 대용량 데이터의 처리 능력이 요구됨
- hadoop, apache HBASE, JAVA
- 데이터 애널리스트
- 데이터에서 기업의 현재 상태와 관련된 인사이트를 도출해 경영진에게 효율적으로 전달하는 업무 담당
- 데이터 분석 도구나 대시보드 같은 시각화 도구의 활용 능력이 요구됨
- SQL을 활용해 원하는 데이터를 추출하는 능력도 필요함
- PostgreSQL, MySQL, PowerBI tableau
- 데이터 사이언티스트
- 통계 방법론, 인공지능, 데이터 마이닝 지식을 바탕으로 정량적이고 과학적인 데이터 분석을 통해 인사이트를 도출하는 일을 담당
- 현상에 대한 분석 뿐만 아니라 미래 상황을 예측하거나 미래에 발생할 수도 있는 문제를 예방하기도 함
- PostgreSQL, hadoop, R, PyTorch, MySQL, apache Spark, python, TensorFlow
- 데이터 리서처
- 데이터를 분석하기 위한 새로운 알고리즘과 방법론을 연구&개발함
- 최신 연구 동향 파악 위해 학회에 참석하거나 논문을 발표하기도 함
- 현업에서는 데이터 사이언티스트가 해당 업무를 같이 담당하기도 함
- CVPR, NEURAL INFORMATION PROCESSING SYSTEMS, EMNLP2023, ICCV23
- 데이터 기획자(데이터 프로젝트 매니저)
- 빅데이터 비즈니스 사이클의 계획과 원활한 운영을 책임지는 사람
- 확실한 목표를 설계하고, 그 목표를 달성하기 위한 데이터, 시스템, 인력을 효율적으로 운영해야 함
- 간단한 데이터 시각화나 분석을 통해 프로젝트 방향을 정하고, 데이터 기술의 동향을 파악해 적절한 기술이 프로젝트에 적용되고 있는 지 살펴야 함
- 시티즌 데이터 사이언티스트
- 본인의 업무에 데이터를 적절히 활용하는 인재를 말함
Chat-GPT 시대와 데이터 사이언스
- 인공지능 시대에 필요한 능력
- 100대 기업의 인재상 변화
- 책임의식/ 도전정신/ 소통과 협력 능력의 중요성이 강조되는 반면, 전문성의 강조는 상대적으로 줄어듬
- 다양한 분야에 빨리 잘 적응하는 능력이 강조됨
- 평균 업무 투입의 변화
- 사회적 업무는 증가하는 반면, 반복적 업무와 수학적 업무는 상대적으로 약세
- 업무 강도별 고용 비중 변화
- High Social - Low Math 증가
- High Social - High Math 증가
- 수학적 능력 보다 Social Skill이 중요해지고 있음
- 기술별 노출 지수와 업무 역량 간 회귀분석 결과
- 대체가능성이 높은 순 : 반복적 인지적 > 반복적 육체적 > 비반복적 인지적(분석) > 비반복적 인지적(대화) > 비반복적 육체적
- 100대 기업의 인재상 변화
인공지능 시대에 필요한 능력(Work Trend Index)
- 유연성 : 빠르게 AI 기술에 적응할 수 있는 능력
- 감성 지능: 언제 AI 대신 인간 능력을 쓰는 것이 좋은 지 판단하는 능력
- 분석적 판단력 : 언제 인간 능력 대신 AI를 쓰는 것이 좋은 지 판단하는 능력
- 창조적 평가 : AI가 생성한 컨텐츠를 평가하는 능력
- 지적 호기심: AI에게 적절한 질문을 하는 능력
- 편향 감지: 의사결정 상황에서 AI의 공정성을 평가하는 능력
- 프롬프팅 능력: 적절한 프롬프트로 AI를 이끌어 내는 능력
Hallucination
- 인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것으로 환각이나 환청을 뜻하는 정신의학 용어에서 단어를 빌려옴
- 업계는 AI가 처음부터 잘못된 데이터로 학습하는 것을 원인으로 보고 있음 → AI 언어 모델은 데이터를 학습해 확률상 가장 높은 대답을 내놓지 진위는 확인할 수 없기에 얼핏 그럴 듯해 보이지만 말도 안 되는 답을 내는 오류를 범한다는 것
- 만약 인간이 악의적으로 오염된 데이터를 학습시킬 경우 위험해질 수 있기에 최근 주요 7개국(G7) 정부는 ‘챗GPT’ 등 AI 모델을 사용할 때 책임을 부여해야 한다는 취지의 공동성명을 채택하기도 함 (서울경제, 23.06.04.)
'AI & DS > 머신러닝' 카테고리의 다른 글
[데이터분석] Pandas - Series (0) | 2024.08.13 |
---|---|
[데이터분석] Pandas (0) | 2024.08.13 |
[데이터분석] Numpy배열 - indexing, slicing (0) | 2024.08.13 |
[데이터분석] Numpy배열 - broadcasting (0) | 2024.08.13 |
[데이터분석] Numpy 배열 (0) | 2024.08.13 |