1. 통계란?
어떤 사건이 우연히 발생할 확률이 얼마일까?
2. 대푯값
- 데이터의 대표적인 특징으로 데이터가 가진 값 중 가장 대표되는 그러면서 데이터를 가장 잘 설명하는 값을 말한다.
2-1. 통계에서의 대푯값
- 평균(average; mean)
- 중앙값(median)
- 최빈값(mode)
- 표준편차(standard deviation)
- 분산(variance)
- 구간(range)
- 최솟값(min; minimum)
- 최댓값(Max; Maximum)
2-2. 평균과 표준편차
- 평균과 표준편차는 데이터의 특징을 설명하는 대표적인 대푯값 중 하나이다.
2-3. 평균
- 평균은 데이터의 중심값으로서 데이터의 특성을 대표하는 값이다.
우리가 가진 데이터가 1, 2, 3, 4, 5 라고 가정하고 평균을 구해보자.
(1 + 2 + 3 + 4 + 5) / 5 = 3
위의 예를 조금 바꿔서 우리가 가진 데이터가 1, 2, 3, 4, 5, 99 라고 가정하고 평균을 구해보자.
(1 + 2 + 3 + 4 + 5 + 99) / 6 = 19
단 한 개의 값이 추가됐을 뿐이지만 평균은 3에서 19로 움직였고, 99가 있는 방향으로 평균이 이동했다.
평균은 통계의 대푯값으로서 혼자서도 굉장히 중요한 역할을 하지만 표준편차를 만났을 때 더욱 더 빛이 난다.
표준편차를 구하기 위해서는 먼저 평균을 계산해야 하기 때문이다.
2-4. 표준편차
- 표준편차는 분산에 제곱근을 씌운 값이다.
2-4-1. 분산
- 분산은 영어로 variance라고 한다. 여기서 vari-는 변화한다는 의미인 vary라는 동사에서 온 것이다. 즉, 분산은 기본적으로 변화하는 어떤 값을 의미한다.
가끔 어떤 경우에는 분산의 식을 아래처럼 쓰는 경우도 있다.
앞에서 우리가 가졌던 첫 번째 데이터의 평균은 3이었다.
# 출처
1. 통알못을 위한 통계 강의(유튜브 강의)
https://www.youtube.com/@SapientiaaDei/featured
2. 통알못을 위한 기초통계 1(교재)
https://who4u78.github.io/book1/
3. 통알못을 위한 기초통계 2(교재)
https://who4u78.github.io/book2/
해당 포스팅은 위의 출처를 바탕으로 정리했습니다.
댓글