[ML/텍스트분석] 4. 피처 벡터화

Notice

Recent Posts

Tags more

Archives

관리 메뉴

서비스 기획자의 성장기록

머신러닝 (ML)/텍스트 분석

Jenny Noh 2024. 2. 10. 17:46

텍스트에서 피처를 추출하고 각 피처에 벡터를 부여하는 것을 피처 벡터화라고 한다. 텍스트는 피처벡터화를 통해서만 머신러닝 알고리즘을 적용할 수 있다. 대표적인 피처 벡터화에는 Bag of Words (BOW)와 Word2Vec 방식이 있다.

Bag of Words 방식은 문맥이나 순서를 무시하고 전체 문서에서 나타나는 해당 단어의 빈도를 벡터로 부여하는 방식이다.

이 방식은 작동 방식이 간단하지만 단어의 순서를 무시하기 때문에 1) 문맥적 의미를 반영하지 못하고, 단어 수 만큼의 컬럼이 만들어지기 때문에 2) 희소행렬 문제가 나타난다는 단점이 있다.

BOW에는 두 가지 방식이 있다.

1) Count 기반 벡터화

: 단어의 빈도를 피처로 부여하는 방식

불용어 설정: 1) 사용자 정의 불용어, 2) NLTK 불용어 목록

2) TF-IDF 기반 벡터화

: 단어의 빈도를 피처로 부여하되, 모든 문서에 대해 공통적으로 나타나는 단어(범용적인 단어)에는 페널티를 부여함

[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류 (0)	2024.02.11
[ML/텍스트분석] 3. 텍스트 전처리 (정규화) - stopwords 제거, stemming & lemmatization (0)	2024.02.10
[ML/텍스트분석] 2. 텍스트 전처리 (정규화) - 클렌징, 텍스트 토큰화 (2)	2024.01.11
[ML / 텍스트분석] 1. 텍스트 분석 개요 (2)	2023.12.11

'머신러닝 (ML)/텍스트 분석' Related Articles