Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- classic retention
- 웹크롤링 예제
- 조건인덱싱
- java
- 네이버웹툰크롤링
- requests 모듈
- 파이썬 야구게임
- 타자연습파이썬
- 데이터프레임 정보 조회
- pandas
- 프로그래머스 풀이
- R
- 특정값 추출
- 웹크롤링 실습
- 문자열함수
- 파이썬
- 구구단
- 데이터프레임조회
- 웹크롤링
- 야구게임 코드
- 피처벡터화
- Python
- R실습
- 문자열reverse
- range retention
- r연습문제
- R기초
- 파이썬예제
- 함컴타자연습
- rolling retention
Archives
- Today
- Total
서비스 기획자의 성장기록
[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류 본문
📌 20newsgroups
사이킷런에서는 20개의 토픽으로 분류된 뉴스기사 데이터셋을 제공한다. sklearn.datasets 패키지의 fetch_20newsgroups로 불러올 수 있다. 이 데이터 셋은 뉴스기사 텍스트 데이터 (.data), 데이터가 저장된 파일경로 (.filenames), 토픽의 이름(.target_names)과 토픽이름의 인덱스(.target), 그리고 데이터셋에 대한 설명 (.DESCR)을 인스턴스로 가지고 있다.
1️⃣ 데이터셋 불러오기
2️⃣ 기사 본문 내용만 불러오기
: 기사의 headers, footers, quotes 제거
3️⃣ 학습/평가 데이터 분리
4️⃣ 모델 학습/예측/평가
(1) CounterVectorizer 사용
(2) TfidfVectorizer 사용
(3) TfidfVectorizer + ngram_range, max_df 파라미터
결론:
예측력이 가장 높은 것은 TfidfVectorizer에 ngram_range와 max_df 파라미터를 사용하여 벡터화한 모델이다.
어근추출(stemming or lemmatization)과 GridSearchCV로 하이퍼파라미터 튜닝을 수행하면 예측력을 더 높일 수 있다.
'머신러닝 (ML) > 텍스트 분석' 카테고리의 다른 글
[ML/텍스트분석] 4. 피처 벡터화 - Bag of Words (BOW) (0) | 2024.02.10 |
---|---|
[ML/텍스트분석] 3. 텍스트 전처리 (정규화) - stopwords 제거, stemming & lemmatization (0) | 2024.02.10 |
[ML/텍스트분석] 2. 텍스트 전처리 (정규화) - 클렌징, 텍스트 토큰화 (2) | 2024.01.11 |
[ML / 텍스트분석] 1. 텍스트 분석 개요 (2) | 2023.12.11 |