Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 야구게임 코드
- range retention
- 데이터프레임조회
- classic retention
- 파이썬예제
- 피처벡터화
- R
- 웹크롤링
- Python
- R기초
- 웹크롤링 예제
- 데이터프레임 정보 조회
- r연습문제
- 특정값 추출
- rolling retention
- 조건인덱싱
- 함컴타자연습
- 파이썬
- 구구단
- R실습
- 프로그래머스 풀이
- 네이버웹툰크롤링
- 파이썬 야구게임
- 문자열reverse
- java
- 문자열함수
- 타자연습파이썬
- 웹크롤링 실습
- pandas
- requests 모듈
Archives
- Today
- Total
목록피처벡터화 (1)
서비스 기획자의 성장기록

텍스트에서 피처를 추출하고 각 피처에 벡터를 부여하는 것을 피처 벡터화라고 한다. 텍스트는 피처벡터화를 통해서만 머신러닝 알고리즘을 적용할 수 있다. 대표적인 피처 벡터화에는 Bag of Words (BOW)와 Word2Vec 방식이 있다. BOW (Bag of Words) Bag of Words 방식은 문맥이나 순서를 무시하고 전체 문서에서 나타나는 해당 단어의 빈도를 벡터로 부여하는 방식이다. 이 방식은 작동 방식이 간단하지만 단어의 순서를 무시하기 때문에 1) 문맥적 의미를 반영하지 못하고, 단어 수 만큼의 컬럼이 만들어지기 때문에 2) 희소행렬 문제가 나타난다는 단점이 있다. BOW에는 두 가지 방식이 있다. 1) Count 기반 벡터화 : 단어의 빈도를 피처로 부여하는 방식 불용어 설정: 1) ..
머신러닝 (ML)/텍스트 분석
2024. 2. 10. 17:46