공부

Udemy - 데이터베이스 설계 및 개발 - 통계 주요 용어 및 상식 - 1

록's 2023. 8. 3. 16:55
728x90
반응형

데이터 사이언스 - 통계 주요 용어 및 상식

 

통계는 데이터 사이언스에서 매우 효육적으로 쓰인다.

 

 

 


통계 주요 용어

 

* 모집단(population)

  • 관심의 대상이 되는 모든 객체의 특성을 나타내는 관측값이나 측정값의 전체 집합

추출단위(sampling unit)

  • 전체를 구성하는 각 개체들

특성값(characteristic)

  • 각 추출단위의 특성을 나타내는 값  

* 표본(sample)

  • 통계적 분석을 위해 실제로 뽑힌 추출 단위들의 집합

관찰값(observed values)

  • 표본의 특성값, 관찰된 측정값

* 모수(parameter)

  • 모집단의 특성을 나타내는 양적인 측도(고유의 상수)

통계량(statistic)

  • 표본에 대한 특성을 나타내는 양적인 측도
    • 표본을 통해 모집단의 특성을 추론해야함

 

( * 는 중요)

 

 


통계 주요 상식

  • 차원의 저주(Curse of Dimension)
    • 변수가 증가하면 그것을 표현하기 위한 데이터 양(같은 비율의 공간)이 기하급수적으로 증가
      • 차원이 증가할수록 데이터의 밀도는 급속도로 희박(sparse)해짐
      • 전체 공간에 있는 변수 양 동일, 찾고자 하는 공간에 있는 데이터의 양이 적어짐
      • 일정 차원을 넘으면 분류기의 성능 떨어짐 -> overfitting
      • overfitting : 많은 연산이 쌓이면서 오차가 증가하고 예측력이 낮아짐
  • overfitting
    • 학습 데이터에 성능이 좋지만 실제 데이터에 관해 성능이 떨어짐
      • Under Fitting - 적정 수준의 학습을 하지 못하여 실제 성능이 떨어지는 경우
      • Normal Fitting (Generalized Fitting) - 적정 수준의 학습으로 실제 적정한 일반화 수준을 나타냄
  • 베이즈 정리
  • Monte Carlo Method
  • 정규분포
  • 추정이론
  • 가설검정
  • 주성분 분석

 


통계 분석 도구

 

Python / R / EXCEL

 


통계 자료의 분류

 

수치형 변수 (Numerical Variable)

 

  • 연속성 변수(Contionous Variable) : 키, 몸무게, 온도, 거리 (정확한 값X, 연속적 수)
  • 이산형 변수(Discrete Variable) : 수강생 수, 카페의 개수 (정확한 숫자값)

 

 

범주형 변수 (Categorial Variable)

 

  • 명목형 변수(Nominal Variable) : 혈액형, 성별, 통신사
  • 순위형 변수(Ordinal Variable) : 학년, 등급, 설문지 척도

통계 분석 프로세스 

 

데이터 통계 분석 프로세스

 

  • Sample : 샘플 선택
  • Explore : 데이터 변수
  • Modify : 유의미한 변수 찾기, 변수 변환, 파생변수 생성
  • Model : 통계 모델
  • Assess : 모델링 작동 평가

 

 

728x90
반응형