공부

Udemy - 데이터베이스 설계 및 개발 - 데이터사이언스 기초

록's 2023. 8. 3. 15:13
728x90
반응형

데이터사이언스

 

 

데이터사이언스의 개념

 

- 분석 방법, 도메인 전문성 및 기술의 융합을 통해 데이터에서 패턴을 찾고, 추출하고, 표면화하는 다학문적인 접근 방식

- 빅데이터, 데이터를 가지고 유의미한 가치를 추출해 내는 영역

 

 

데이터 사이언스 분야

  • 데이터 마이닝
  • 예측
  • 머신러닝
  • 예측 분석
  • 통계 및 텍스트 분석

위 5가지 분야 말고도 데이터를 다루고 데이터를 가지고 데이터를 활용하는 분야를 데이터 사이언스라고 함.

 

 


데이터 사이언스 로드맵

 

 

Data Science

 

Data Engineering - 데이터의 활용에 가까움. 

(엔지니어링 어떤기존에 있던 이론과 기반지식을 활용해 서비스를 만들고 솔루션을 만드는 분야)

 

Statistics and Mathematics - 통계에 가까운 영역, 접근하기 힘든 영역, 통계라는 부분은 수치적으로 가시화 할수있는 부분

 

Machine Learning - 데이터사이언스가 붐을 일으켰을때 머신러닝 영향이 컸음, 포함되어있다.

 

Programming - 프로그래밍을 어떻게 해야하는지, 어떤 방식으로 활용하는지 알아야함.

 

Data Extraction and Wrangling - 데이터 추출, 데이터 사이언스는 무의미한 데이터가아니라 유의미한 데이터라 가치가지고 있는 데이터를 추출하는 영역

 

EDA, Business acumen and Storytelling - 사전검토, 어떤 데이터를 가지고 있었을 때 분석을 할 수 있는 능력.

로우데이터, 원천데이터를 가지고 유의미한 가치를 추출하기 위해서 ( 흔히 전처리 영역) EDA를 통해 데이터를 활용하기 위한 전처리를 수행하기 위한 영역이 EDA. 

 

 


데이터 사이언스의 절차 

 

 

  1. 비즈니스 문제 이해
  2. 원시 데이터 수집 및 통합 
  3. 데이터 탐색, 변환, 정리 및 준비
  4. 데이터를 기반으로 모델 생성 및 선택
  5. 모델 테스트, 조정 및 배포
  6. 모델 모니터링, 테스트, 재학습 및 관리

 


데이터 사이언티스트란?

- 실제 비즈니스 결과를 끌어내는 활동들간의 트렌드를 발견하기 위해 기업의 대용량 데이터를 분석하는 사람

(데이터과학자가 발휘하느 영역 : 데이터 입력 - 준비 - 머신러닝적용 - 모델 배포, 평가 및 관리 - 데이터 출력)

 

데이터 과학자가 가지고 있어야할 역량

  • 비즈니스 기술
  • 분석 기술 
  • 컴퓨터 과학
  • IT 기술

 

데이터 사이언스란?

- 데이터로부터 의미있는 정보를 추출해내는 학문

 

  • 통계학이 정형화된 실험 데이터를 분석 대상으로 하는것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법을 사용
  • 데이터 마이닝은 주로 '분석'에 초점되나, 데이터 사이언스는 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념
  • 데이터공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문으로 정의

 

 

데이터 사이언티스트의 역할

  • 사업의 성과 견인
    • 전략적 통찰을 추구하고, 비즈니스 핵심 이슈에 답을 하며 사업의 성과를 견인한다.
  • 소통
    • 소통은 데이터 사이언티스트의 중요 역량중 하나이다.
  • 비즈니스와 정렬
    • 비즈니스의 성과를 좌우하는 핵심 요소를 정확하게 파악하여 비즈니스와 정렬한다.

 

 

구분 요구 역량 내용
하드 스킬 빅데이터에 대한 이론적 지식 관련 기법에 대한 이해와 방법론 습득
분석 기술에 대한 숙련 최적의 분석 설계 및 노하우 축적
소프트 스킬 통찰력있는 분석 창의적 사고, 호기심, 논리적 비판
설득력 있는 전달  스토리텔링, 시각화(Visualization)
다분야간 협력 커뮤니케이션

 

 


데이터 사이언스의 활용

 

에너지

  • 장비 고장 예측
  • 미래 석유량 및 가격 예측
  • 배포 최적화
  • 배출 감소
  • 지반 구성 분석
  • 저장소 특성화

금융 및 보험

  • 신용 위험 예측
  • 사기감지
  • 고객 분석
  • 포트폴리오 위험 관리
  • 고객 이탈 가능성 결정
  • SOX, Basel ll 와 같은 규정의 준수

 

제약

  • 최적 배치 결정
  • 임상 시험 분석
  • 제품 추적 
  • 안정성 및 유통 기한분석
  • 규정 준수를 위한 보고 및 분석 검증
  • 제조 프로세스, 데이터 분석

 

의료

  • 질병 위험 예측
  • 사기성 주장 감지
  • 맞춤형 약 복용량 처방
  • 이미지 분석에 의한 암의 감지
  • 청구 관리
  • 환자 안전 향상
  • 가장 위급한 환자 결정

 

제조 

  • 수율 향상
  • 스크랩, 재작업 및 반품 감소
  • 보증 사기 감지
  • 규정 준수
  • 장비 고장 예측 및 방지

 

 

728x90
반응형