본문 바로가기
통계/통계 기초

통계란?

by 훈영 2023. 7. 20.

1. 통계란?

어떤 사건이 우연히 발생할 확률이 얼마일까?

 

2. 대푯값

- 데이터의 대표적인 특징으로 데이터가 가진 값 중 가장 대표되는 그러면서 데이터를 가장 잘 설명하는 값을 말한다.

 

2-1. 통계에서의 대푯값

  • 평균(average; mean)
  • 중앙값(median)
  • 최빈값(mode)
  • 표준편차(standard deviation)
  • 분산(variance)
  • 구간(range)
  • 최솟값(min; minimum)
  • 최댓값(Max; Maximum)

2-2. 평균과 표준편차

- 평균과 표준편차는 데이터의 특징을 설명하는 대표적인 대푯값 중 하나이다.

 

2-3. 평균

- 평균은 데이터의 중심값으로서 데이터의 특성을 대표하는 값이다.

평균 계산식

 

우리가 가진 데이터가 1, 2, 3, 4, 5 라고 가정하고 평균을 구해보자.

(1 + 2 + 3 + 4 + 5) / 5 = 3

 

위의 예를 조금 바꿔서 우리가 가진 데이터가 1, 2, 3, 4, 5, 99 라고 가정하고 평균을 구해보자.

(1 + 2 + 3 + 4 + 5 + 99) / 6 = 19

단 한 개의 값이 추가됐을 뿐이지만 평균은 3에서 19로 움직였고, 99가 있는 방향으로 평균이 이동했다.

 

평균은 통계의 대푯값으로서 혼자서도 굉장히 중요한 역할을 하지만 표준편차를 만났을 때 더욱 더 빛이 난다.

표준편차를 구하기 위해서는 먼저 평균을 계산해야 하기 때문이다.

 

2-4. 표준편차

- 표준편차는 분산에 제곱근을 씌운 값이다.

 

2-4-1. 분산

- 분산은 영어로 variance라고 한다. 여기서 vari-는 변화한다는 의미인 vary라는 동사에서 온 것이다. 즉, 분산은 기본적으로 변화하는 어떤 값을 의미한다.

분산 계산식(모집단에 대한 분산식)

 

가끔 어떤 경우에는 분산의 식을 아래처럼 쓰는 경우도 있다.

분산 계산식(표본에 대한 분산식)

 

앞에서 우리가 가졌던 첫 번째 데이터의 평균은 3이었다. 

 

 

 

# 출처

1. 통알못을 위한 통계 강의(유튜브 강의)

https://www.youtube.com/@SapientiaaDei/featured

 

2. 통알못을 위한 기초통계 1(교재)

https://who4u78.github.io/book1/

 

3. 통알못을 위한 기초통계 2(교재)

https://who4u78.github.io/book2/

 

해당 포스팅은 위의 출처를 바탕으로 정리했습니다.

댓글