[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

서비스 기획자의 성장기록

[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류 본문

머신러닝 (ML)/텍스트 분석

[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류

Jenny Noh 2024. 2. 11. 12:28

📌 20newsgroups

사이킷런에서는 20개의 토픽으로 분류된 뉴스기사 데이터셋을 제공한다. sklearn.datasets 패키지의 fetch_20newsgroups로 불러올 수 있다. 이 데이터 셋은 뉴스기사 텍스트 데이터 (.data), 데이터가 저장된 파일경로 (.filenames), 토픽의 이름(.target_names)과 토픽이름의 인덱스(.target), 그리고 데이터셋에 대한 설명 (.DESCR)을 인스턴스로 가지고 있다.

1️⃣ 데이터셋 불러오기

2️⃣ 기사 본문 내용만 불러오기

: 기사의 headers, footers, quotes 제거

3️⃣ 학습/평가 데이터 분리

4️⃣ 모델 학습/예측/평가

(1) CounterVectorizer 사용

(2) TfidfVectorizer 사용

(3) TfidfVectorizer + ngram_range, max_df 파라미터

결론:

예측력이 가장 높은 것은 TfidfVectorizer에 ngram_range와 max_df 파라미터를 사용하여 벡터화한 모델이다.

어근추출(stemming or lemmatization)과 GridSearchCV로 하이퍼파라미터 튜닝을 수행하면 예측력을 더 높일 수 있다.

'머신러닝 (ML) > 텍스트 분석' 카테고리의 다른 글

[ML/텍스트분석] 4. 피처 벡터화 - Bag of Words (BOW) (0)	2024.02.10
[ML/텍스트분석] 3. 텍스트 전처리 (정규화) - stopwords 제거, stemming & lemmatization (0)	2024.02.10
[ML/텍스트분석] 2. 텍스트 전처리 (정규화) - 클렌징, 텍스트 토큰화 (2)	2024.01.11
[ML / 텍스트분석] 1. 텍스트 분석 개요 (2)	2023.12.11

'머신러닝 (ML)/텍스트 분석' Related Articles

서비스 기획자의 성장기록

[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류 본문

[ML/텍스트분석] 5. 텍스트 분류 실습: 20 뉴스그룹 분류

'머신러닝 (ML) > 텍스트 분석' 카테고리의 다른 글

티스토리툴바