수학, 통계 개념 모음집

2024-08-21

수학 및 통계 용어와 수식을 정의하고 ML 관점에서의 직관을 서술한다.

평균, 분산, 표준편차

\[\bar{x} = \frac{x_{1}+ x_{2} + \dots +x_{n}}{n}\]

데이터 값을 모두 더한 다음(sum), 값의 개수(데이터 사이즈)로 나눈다 👉 평균

데이터 포인트들의 대표값

\[\frac{\sum_{n}^{i}{({x}_{i} - \bar{x})^{2}}}{n}\]

편차: 데이터별로 평균과의 차이를 구한다. 이때 편차의 총합은 $0$이다.

\[\begin{aligned} & (x_{1}-m) + (x_{2}-m) + \dots + (x_{n}-m) \\ & = (x_{1}+x_{2}+\dots+x_{n}) - n \times m \\ & = n \times m - n \times m \\ & = 0 \end{aligned}\]

편차제곱: 편차별로 제곱한다(squared deviations)
편차제곱의 평균: 편차제곱을 모두 더한 다음(제곱합, sum of squares), 값의 개수로 나눈다
👉 분산

데이터 포인트들이 평균으로부터 얼마나 퍼져 있는지, 얼마나 벗어나 있는지 의미한다

High Variance: 분산이 큰 데이터로 학습된 모델은 입력값이 조금만 변화해도 민감하게 반응하여 출력값이 크게 바뀌기 때문에 예측의 안정성이 떨어진다

\[\sqrt{\frac{\sum_{n}^{i}{({x}_{i} - \bar{x})^{2}}}{n}}\]

분산의 제곱근 👉 표준편차

제곱된 값에 루트를 씌움으로써 원래 데이터의 스케일(단위)에 맞추고 해석을 직관적으로 만든다

Norm

벡터의 크기(길이)

$p$는 Norm의 차수를 의미한다.

L1 Norm (맨해튼 거리)

내용

L2 Norm (유클리드 거리)

\[\sqrt{\sum_{i=1} |x_{i}|^{2}}\]

$p=2$ 인 Norm. 피타고라스 정리를 기반으로 n차원 좌표 평면(유클리드 공간)에서의 크기를 계산한다.

활용 : L2 정규화, KNN 알고리즘, K-means 알고리즘

수학

집합

단조 감소(monotonically decreasing)
$\lim_{x\to\infty} A_{n} = \cap_{n=1}^{\infty}A_{n}$

집합이 갈수록 작아져서 모든 집합 $A$들의 교집합이 가장 작은 집합과 같아지는 것이다.

K-Means 알고리즘의 목적함수[WCSS]는 단조 감소한다

용어집

identity: 항등식. 언제나 성립하는 등식. 좌변과 우변의 값이 항상 같다.

 K-Means Clustering 군집화 알고리즘 블로그 키워드 추천 및 검색 기능 구현기 