Python/텐서플로 2와 머신러닝으로 시작하는 자연어 처리22 특징 추출(Feature extraction) 세 가지 방법 모두 텍스트를 벡터로 만드는 방법이다. 1. CountVectorizer 텍스트에서 단어 출현 횟수를 특징으로 추출 직관적이고 간단해서 여러 상황에서 사용할 수 있다는 장점이 있다. 단순히 횟수만을 특징으로 잡기 때문에 큰 의미가 없지만 자주 사용되는 단어들(조사, 지시대명사)이 높은 특징 값을 가지기 때문에 유의미하게 사용하기 어려울 수 있다. 2. TfidfVectorizer TF(Term Frequency): 특정 단어가 하나의 데이터 안에서 등장하는 횟수 DF(Document Frequency): 문서 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지 IDF(Inverse Document Frequency): DF 값에 역수를 취해서 구할 수 잇으며, 특정 단어.. 2024. 2. 9. Index Machine Learning(ML, 머신러닝) 1. Scikit-Learn 파이썬용 머신러닝 라이브러리 1) 지도 학습 나이브 베이즈(Naive Bayes) 의사결정 트리(Decision Trees) 서포트 벡터 머신(Support Vector Machines) k 최근접 이웃 분류기(k-nearest neighbor classifier) 2) 비지도 학습 군집화(Clustering) 가우시안 혼합 모델(Gaussian mixture models) k 평균 군집화(k-means clustering) 3) 모델 선택 & 평가 모듈 교차 검증(Cross validation) 모델 평가(Model evaluation) 모델의 지속성을 위해 모델 저장과 불러오기를 위한 기능 등을 제공 4) 데이터 변환 모듈 .. 2024. 2. 9. 이전 1 다음