분류 전체보기57 베이즈 정리(Bayes’ theorem) 1. 베이즈 정리(Bayes’ theorem)란? '베이브 정리'는 확률 이론에서 중요한 개념 중 하나이다. 이는 18세기에 프랑스의 수학자인 피에르-시몽 라플라스에 의해 개발되었다. 베이브 정리는 사건 A가 발생했을 때 사건 B가 발생할 조건부 확률을 계산하는 방법이다. 간단히 말해서, P(A|B)로 표시되는 사건 B가 발생했을 때 사건 A가 발생할 확률은 P(A)와 P(B|A)의 곱으로 계산된다. 여기서 P(A)는 사건 A가 발생할 사전 확률이며, P(B|A)는 사건 A가 발생했을 때 사건 B가 발생할 조건부 확률이다. 수학적으로는 다음과 같이 표현된다. 여기서 P(A∩B)는 사건 A와 사건 B가 동시에 발생할 확률을 나타내며, P(B)는 사건 B가 발생할 확률이다. 베이브 정리는 확률 이론과 통계 .. 2024. 3. 14. 특징 추출(Feature extraction) 세 가지 방법 모두 텍스트를 벡터로 만드는 방법이다. 1. CountVectorizer 텍스트에서 단어 출현 횟수를 특징으로 추출 직관적이고 간단해서 여러 상황에서 사용할 수 있다는 장점이 있다. 단순히 횟수만을 특징으로 잡기 때문에 큰 의미가 없지만 자주 사용되는 단어들(조사, 지시대명사)이 높은 특징 값을 가지기 때문에 유의미하게 사용하기 어려울 수 있다. 2. TfidfVectorizer TF(Term Frequency): 특정 단어가 하나의 데이터 안에서 등장하는 횟수 DF(Document Frequency): 문서 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지 IDF(Inverse Document Frequency): DF 값에 역수를 취해서 구할 수 잇으며, 특정 단어.. 2024. 2. 9. Index Machine Learning(ML, 머신러닝) 1. Scikit-Learn 파이썬용 머신러닝 라이브러리 1) 지도 학습 나이브 베이즈(Naive Bayes) 의사결정 트리(Decision Trees) 서포트 벡터 머신(Support Vector Machines) k 최근접 이웃 분류기(k-nearest neighbor classifier) 2) 비지도 학습 군집화(Clustering) 가우시안 혼합 모델(Gaussian mixture models) k 평균 군집화(k-means clustering) 3) 모델 선택 & 평가 모듈 교차 검증(Cross validation) 모델 평가(Model evaluation) 모델의 지속성을 위해 모델 저장과 불러오기를 위한 기능 등을 제공 4) 데이터 변환 모듈 .. 2024. 2. 9. 2. 데이터 분석 2023. 8. 10. 1. 데이터 크롤링 2023. 8. 10. [프로그래머스 스쿨_SQL] 오프라인/온라인 판매 데이터 통합하기 ONLINE_SALE 테이블과 OFFLINE_SALE 테이블에서 2022년 3월의 오프라인/온라인 상품 판매 데이터의 판매 날짜, 상품ID, 유저ID, 판매량을 출력하는 SQL문을 작성해주세요. OFFLINE_SALE 테이블의 판매 데이터의 USER_ID 값은 NULL 로 표시해주세요. 결과는 판매일을 기준으로 오름차순 정렬해주시고 판매일이 같다면 상품 ID를 기준으로 오름차순, 상품ID까지 같다면 유저 ID를 기준으로 오름차순 정렬해주세요. (SELECT DATE_FORMAT(SALES_DATE, '%Y-%m-%d') AS SALES_DATE, PRODUCT_ID, USER_ID, SALES_AMOUNT FROM ONLINE_SALE WHERE DATE_FORMAT(SALES_DATE, '%m') = .. 2023. 7. 28. 이전 1 2 3 4 5 6 7 ··· 10 다음