Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- R실습
- 문자열reverse
- 야구게임 코드
- 파이썬 야구게임
- 데이터프레임 정보 조회
- 파이썬예제
- R기초
- 네이버웹툰크롤링
- 특정값 추출
- r연습문제
- rolling retention
- 피처벡터화
- Python
- 파이썬
- 문자열함수
- 조건인덱싱
- java
- R
- 구구단
- 데이터프레임조회
- classic retention
- requests 모듈
- range retention
- 웹크롤링
- 함컴타자연습
- 프로그래머스 풀이
- 웹크롤링 예제
- pandas
- 타자연습파이썬
- 웹크롤링 실습
Archives
- Today
- Total
서비스 기획자의 성장기록
[ML/텍스트분석] 4. 피처 벡터화 - Bag of Words (BOW) 본문
텍스트에서 피처를 추출하고 각 피처에 벡터를 부여하는 것을 피처 벡터화라고 한다. 텍스트는 피처벡터화를 통해서만 머신러닝 알고리즘을 적용할 수 있다. 대표적인 피처 벡터화에는 Bag of Words (BOW)와 Word2Vec 방식이 있다.
BOW (Bag of Words)
Bag of Words 방식은 문맥이나 순서를 무시하고 전체 문서에서 나타나는 해당 단어의 빈도를 벡터로 부여하는 방식이다.
이 방식은 작동 방식이 간단하지만 단어의 순서를 무시하기 때문에 1) 문맥적 의미를 반영하지 못하고, 단어 수 만큼의 컬럼이 만들어지기 때문에 2) 희소행렬 문제가 나타난다는 단점이 있다.
BOW에는 두 가지 방식이 있다.
1) Count 기반 벡터화
: 단어의 빈도를 피처로 부여하는 방식
불용어 설정: 1) 사용자 정의 불용어, 2) NLTK 불용어 목록
2) TF-IDF 기반 벡터화
: 단어의 빈도를 피처로 부여하되, 모든 문서에 대해 공통적으로 나타나는 단어(범용적인 단어)에는 페널티를 부여함
'머신러닝 (ML) > 텍스트 분석' 카테고리의 다른 글
[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류 (0) | 2024.02.11 |
---|---|
[ML/텍스트분석] 3. 텍스트 전처리 (정규화) - stopwords 제거, stemming & lemmatization (0) | 2024.02.10 |
[ML/텍스트분석] 2. 텍스트 전처리 (정규화) - 클렌징, 텍스트 토큰화 (2) | 2024.01.11 |
[ML / 텍스트분석] 1. 텍스트 분석 개요 (2) | 2023.12.11 |