수학, 통계 개념 모음집
수학 및 통계 용어와 수식을 정의하고 ML 관점에서의 직관을 서술한다.
평균, 분산, 표준편차
\[\bar{x} = \frac{x_{1}+ x_{2} + \dots +x_{n}}{n}\]데이터 값을 모두 더한 다음(sum), 값의 개수(데이터 사이즈)로 나눈다 👉 평균
데이터 포인트들의 대표값
- 편차
- 데이터별로 평균과의 차이를 구한다. 이때 편차의 총합은 $0$이다.
- 편차제곱
- 편차별로 제곱한다(squared deviations)
- 편차제곱의 평균
- 편차제곱을 모두 더한 다음(제곱합, sum of squares), 값의 개수로 나눈다
👉 분산
데이터 포인트들이 평균으로부터 얼마나 퍼져 있는지, 얼마나 벗어나 있는지 의미한다
High Variance: 분산이 큰 데이터로 학습된 모델은 입력값이 조금만 변화해도 민감하게 반응하여 출력값이 크게 바뀌기 때문에 예측의 안정성이 떨어진다
분산의 제곱근 👉 표준편차
제곱된 값에 루트를 씌움으로써 원래 데이터의 스케일(단위)에 맞추고 해석을 직관적으로 만든다
Norm
벡터의 크기(길이)
- $p$는 Norm의 차수를 의미한다.
L1 Norm (맨해튼 거리)
내용
L2 Norm (유클리드 거리)
\[\sqrt{\sum_{i=1} |x_{i}|^{2}}\]$p=2$ 인 Norm. 피타고라스 정리를 기반으로 n차원 좌표 평면(유클리드 공간)에서의 크기를 계산한다.
활용 : L2 정규화, KNN 알고리즘, K-means 알고리즘
수학
집합
단조 감소(monotonically decreasing)
\(\lim_{x\to\infty} A_{n} = \cap_{n=1}^{\infty}A_{n}\)
집합이 갈수록 작아져서 모든 집합 $A$들의 교집합이 가장 작은 집합과 같아지는 것이다.
K-Means 알고리즘의 목적함수[WCSS]는 단조 감소한다
용어집
- identity
- 항등식. 언제나 성립하는 등식. 좌변과 우변의 값이 항상 같다.