공부
Udemy - 데이터베이스 설계 및 개발 - 통계 주요 용어 및 상식 - 1
록's
2023. 8. 3. 16:55
728x90
반응형
데이터 사이언스 - 통계 주요 용어 및 상식
통계는 데이터 사이언스에서 매우 효육적으로 쓰인다.
통계 주요 용어
* 모집단(population)
- 관심의 대상이 되는 모든 객체의 특성을 나타내는 관측값이나 측정값의 전체 집합
추출단위(sampling unit)
- 전체를 구성하는 각 개체들
특성값(characteristic)
- 각 추출단위의 특성을 나타내는 값
* 표본(sample)
- 통계적 분석을 위해 실제로 뽑힌 추출 단위들의 집합
관찰값(observed values)
- 표본의 특성값, 관찰된 측정값
* 모수(parameter)
- 모집단의 특성을 나타내는 양적인 측도(고유의 상수)
통계량(statistic)
- 표본에 대한 특성을 나타내는 양적인 측도
- 표본을 통해 모집단의 특성을 추론해야함
( * 는 중요)
통계 주요 상식
- 차원의 저주(Curse of Dimension)
- 변수가 증가하면 그것을 표현하기 위한 데이터 양(같은 비율의 공간)이 기하급수적으로 증가
- 차원이 증가할수록 데이터의 밀도는 급속도로 희박(sparse)해짐
- 전체 공간에 있는 변수 양 동일, 찾고자 하는 공간에 있는 데이터의 양이 적어짐
- 일정 차원을 넘으면 분류기의 성능 떨어짐 -> overfitting
- overfitting : 많은 연산이 쌓이면서 오차가 증가하고 예측력이 낮아짐
- 변수가 증가하면 그것을 표현하기 위한 데이터 양(같은 비율의 공간)이 기하급수적으로 증가
- overfitting
- 학습 데이터에 성능이 좋지만 실제 데이터에 관해 성능이 떨어짐
- Under Fitting - 적정 수준의 학습을 하지 못하여 실제 성능이 떨어지는 경우
- Normal Fitting (Generalized Fitting) - 적정 수준의 학습으로 실제 적정한 일반화 수준을 나타냄
- 학습 데이터에 성능이 좋지만 실제 데이터에 관해 성능이 떨어짐
- 베이즈 정리
- Monte Carlo Method
- 정규분포
- 추정이론
- 가설검정
- 주성분 분석
통계 분석 도구
Python / R / EXCEL
통계 자료의 분류
수치형 변수 (Numerical Variable)
- 연속성 변수(Contionous Variable) : 키, 몸무게, 온도, 거리 (정확한 값X, 연속적 수)
- 이산형 변수(Discrete Variable) : 수강생 수, 카페의 개수 (정확한 숫자값)
범주형 변수 (Categorial Variable)
- 명목형 변수(Nominal Variable) : 혈액형, 성별, 통신사
- 순위형 변수(Ordinal Variable) : 학년, 등급, 설문지 척도
통계 분석 프로세스
데이터 통계 분석 프로세스
- Sample : 샘플 선택
- Explore : 데이터 변수
- Modify : 유의미한 변수 찾기, 변수 변환, 파생변수 생성
- Model : 통계 모델
- Assess : 모델링 작동 평가
728x90
반응형