서비스 기획자의 성장기록

[ML/텍스트분석] 4. 피처 벡터화 - Bag of Words (BOW) 본문

머신러닝 (ML)/텍스트 분석

[ML/텍스트분석] 4. 피처 벡터화 - Bag of Words (BOW)

Jenny Noh 2024. 2. 10. 17:46

텍스트에서 피처를 추출하고 각 피처에 벡터를 부여하는 것을 피처 벡터화라고 한다. 텍스트는 피처벡터화를 통해서만 머신러닝 알고리즘을 적용할 수 있다. 대표적인 피처 벡터화에는 Bag of Words (BOW)와 Word2Vec 방식이 있다.

 

BOW (Bag of Words)

Bag of Words 방식은 문맥이나 순서를 무시하고 전체 문서에서 나타나는 해당 단어의 빈도를 벡터로 부여하는 방식이다. 

이 방식은 작동 방식이 간단하지만 단어의 순서를 무시하기 때문에 1) 문맥적 의미를 반영하지 못하고, 단어 수 만큼의 컬럼이 만들어지기 때문에 2) 희소행렬 문제가 나타난다는 단점이 있다. 

 

BOW에는 두 가지 방식이 있다. 

1) Count 기반 벡터화

: 단어의 빈도를 피처로 부여하는 방식

 

불용어 설정: 1) 사용자 정의 불용어, 2) NLTK 불용어 목록

 

 

 

2)  TF-IDF 기반 벡터화 

: 단어의 빈도를 피처로 부여하되, 모든 문서에 대해 공통적으로 나타나는 단어(범용적인 단어)에는 페널티를 부여함