본문 바로가기

통계3

영화 추천 알고리즘, 나이브 베이즈 분류 1. 넷플릭스의 성공 요인 넷플릭스는 콘텐츠와 편리한 접근성을 바탕으로 성장했다. 뿐만 아니라 당신의 취향을 분석하여 돈을 번다. 넷플릭스의 또 다른 핵심 경쟁력은 바로 '추천 알고리즘'이다. 추천 알고리즘은 당신의 취향을 분석하여 오랜 시간동안 넷플릭스에 머물도록 한다. 취향의 저격의 수익과 직결되기 때문에 넷플릭스는 알고리즘을 중요하게 생각한다. 넷플릭스는 영화 추천 알고리즘의 성능을 10% 향상 시키는 팀에게 100만 달러를 상금으로 주는 대회인 'NETFLIX PRIZE'를 열기도 했다. 현재는 Netflix Research 부서를 운영하고 있다. 이처럼 넷플릭스는 콘텐츠를 만들고 유통할 뿐 아니라, 인공지능을 핵심 경쟁력으로 삼는 IT 기업이라 생각해야 한다. 2. 넷플릭스의 추천 알고리즘 넷플.. 2024. 3. 14.
베이즈 정리(Bayes’ theorem) 1. 베이즈 정리(Bayes’ theorem)란? '베이브 정리'는 확률 이론에서 중요한 개념 중 하나이다. 이는 18세기에 프랑스의 수학자인 피에르-시몽 라플라스에 의해 개발되었다. 베이브 정리는 사건 A가 발생했을 때 사건 B가 발생할 조건부 확률을 계산하는 방법이다. 간단히 말해서, P(A|B)로 표시되는 사건 B가 발생했을 때 사건 A가 발생할 확률은 P(A)와 P(B|A)의 곱으로 계산된다. 여기서 P(A)는 사건 A가 발생할 사전 확률이며, P(B|A)는 사건 A가 발생했을 때 사건 B가 발생할 조건부 확률이다. 수학적으로는 다음과 같이 표현된다. 여기서 P(A∩B)는 사건 A와 사건 B가 동시에 발생할 확률을 나타내며, P(B)는 사건 B가 발생할 확률이다. 베이브 정리는 확률 이론과 통계 .. 2024. 3. 14.
통계란? 1. 통계란? 어떤 사건이 우연히 발생할 확률이 얼마일까? 2. 대푯값 - 데이터의 대표적인 특징으로 데이터가 가진 값 중 가장 대표되는 그러면서 데이터를 가장 잘 설명하는 값을 말한다. 2-1. 통계에서의 대푯값 평균(average; mean) 중앙값(median) 최빈값(mode) 표준편차(standard deviation) 분산(variance) 구간(range) 최솟값(min; minimum) 최댓값(Max; Maximum) 2-2. 평균과 표준편차 - 평균과 표준편차는 데이터의 특징을 설명하는 대표적인 대푯값 중 하나이다. 2-3. 평균 - 평균은 데이터의 중심값으로서 데이터의 특성을 대표하는 값이다. 우리가 가진 데이터가 1, 2, 3, 4, 5 라고 가정하고 평균을 구해보자. (1 + 2 +.. 2023. 7. 20.