데이터사이언스
데이터사이언스의 개념
- 분석 방법, 도메인 전문성 및 기술의 융합을 통해 데이터에서 패턴을 찾고, 추출하고, 표면화하는 다학문적인 접근 방식
- 빅데이터, 데이터를 가지고 유의미한 가치를 추출해 내는 영역
데이터 사이언스 분야
- 데이터 마이닝
- 예측
- 머신러닝
- 예측 분석
- 통계 및 텍스트 분석
위 5가지 분야 말고도 데이터를 다루고 데이터를 가지고 데이터를 활용하는 분야를 데이터 사이언스라고 함.
데이터 사이언스 로드맵
Data Science
Data Engineering - 데이터의 활용에 가까움.
(엔지니어링 어떤기존에 있던 이론과 기반지식을 활용해 서비스를 만들고 솔루션을 만드는 분야)
Statistics and Mathematics - 통계에 가까운 영역, 접근하기 힘든 영역, 통계라는 부분은 수치적으로 가시화 할수있는 부분
Machine Learning - 데이터사이언스가 붐을 일으켰을때 머신러닝 영향이 컸음, 포함되어있다.
Programming - 프로그래밍을 어떻게 해야하는지, 어떤 방식으로 활용하는지 알아야함.
Data Extraction and Wrangling - 데이터 추출, 데이터 사이언스는 무의미한 데이터가아니라 유의미한 데이터라 가치가지고 있는 데이터를 추출하는 영역
EDA, Business acumen and Storytelling - 사전검토, 어떤 데이터를 가지고 있었을 때 분석을 할 수 있는 능력.
로우데이터, 원천데이터를 가지고 유의미한 가치를 추출하기 위해서 ( 흔히 전처리 영역) EDA를 통해 데이터를 활용하기 위한 전처리를 수행하기 위한 영역이 EDA.
데이터 사이언스의 절차
- 비즈니스 문제 이해
- 원시 데이터 수집 및 통합
- 데이터 탐색, 변환, 정리 및 준비
- 데이터를 기반으로 모델 생성 및 선택
- 모델 테스트, 조정 및 배포
- 모델 모니터링, 테스트, 재학습 및 관리
데이터 사이언티스트란?
- 실제 비즈니스 결과를 끌어내는 활동들간의 트렌드를 발견하기 위해 기업의 대용량 데이터를 분석하는 사람
(데이터과학자가 발휘하느 영역 : 데이터 입력 - 준비 - 머신러닝적용 - 모델 배포, 평가 및 관리 - 데이터 출력)
데이터 과학자가 가지고 있어야할 역량
- 비즈니스 기술
- 분석 기술
- 컴퓨터 과학
- IT 기술
데이터 사이언스란?
- 데이터로부터 의미있는 정보를 추출해내는 학문
- 통계학이 정형화된 실험 데이터를 분석 대상으로 하는것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법을 사용
- 데이터 마이닝은 주로 '분석'에 초점되나, 데이터 사이언스는 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념
- 데이터공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문으로 정의
데이터 사이언티스트의 역할
- 사업의 성과 견인
- 전략적 통찰을 추구하고, 비즈니스 핵심 이슈에 답을 하며 사업의 성과를 견인한다.
- 소통
- 소통은 데이터 사이언티스트의 중요 역량중 하나이다.
- 비즈니스와 정렬
- 비즈니스의 성과를 좌우하는 핵심 요소를 정확하게 파악하여 비즈니스와 정렬한다.
구분 | 요구 역량 | 내용 |
하드 스킬 | 빅데이터에 대한 이론적 지식 | 관련 기법에 대한 이해와 방법론 습득 |
분석 기술에 대한 숙련 | 최적의 분석 설계 및 노하우 축적 | |
소프트 스킬 | 통찰력있는 분석 | 창의적 사고, 호기심, 논리적 비판 |
설득력 있는 전달 | 스토리텔링, 시각화(Visualization) | |
다분야간 협력 | 커뮤니케이션 |
데이터 사이언스의 활용
에너지
- 장비 고장 예측
- 미래 석유량 및 가격 예측
- 배포 최적화
- 배출 감소
- 지반 구성 분석
- 저장소 특성화
금융 및 보험
- 신용 위험 예측
- 사기감지
- 고객 분석
- 포트폴리오 위험 관리
- 고객 이탈 가능성 결정
- SOX, Basel ll 와 같은 규정의 준수
제약
- 최적 배치 결정
- 임상 시험 분석
- 제품 추적
- 안정성 및 유통 기한분석
- 규정 준수를 위한 보고 및 분석 검증
- 제조 프로세스, 데이터 분석
의료
- 질병 위험 예측
- 사기성 주장 감지
- 맞춤형 약 복용량 처방
- 이미지 분석에 의한 암의 감지
- 청구 관리
- 환자 안전 향상
- 가장 위급한 환자 결정
제조
- 수율 향상
- 스크랩, 재작업 및 반품 감소
- 보증 사기 감지
- 규정 준수
- 장비 고장 예측 및 방지
'공부' 카테고리의 다른 글
Udemy - Web의 기초 개념과 HTML의 기초 활용 - Web과 HTTP의 개념 (0) | 2023.08.08 |
---|---|
Udemy - Spring Boot를 활용한 웹 개발 입문 2 (0) | 2023.08.08 |
Udemy - Spring Boot를 활용한 웹 개발 입문 1 (0) | 2023.08.08 |
Udemy - 데이터베이스 설계 및 개발 - 통계 주요 용어 및 상식 - 1 (0) | 2023.08.03 |