일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬 야구게임
- 조건인덱싱
- 웹크롤링 예제
- pandas
- range retention
- R
- 웹크롤링
- java
- 프로그래머스 풀이
- 문자열함수
- Python
- 구구단
- 데이터프레임조회
- 네이버웹툰크롤링
- 문자열reverse
- 타자연습파이썬
- r연습문제
- 함컴타자연습
- classic retention
- 파이썬
- requests 모듈
- 야구게임 코드
- 파이썬예제
- 웹크롤링 실습
- R실습
- 데이터프레임 정보 조회
- R기초
- 피처벡터화
- rolling retention
- 특정값 추출
- Today
- Total
목록머신러닝 (ML) (6)
서비스 기획자의 성장기록

📌 20newsgroups 사이킷런에서는 20개의 토픽으로 분류된 뉴스기사 데이터셋을 제공한다. sklearn.datasets 패키지의 fetch_20newsgroups로 불러올 수 있다. 이 데이터 셋은 뉴스기사 텍스트 데이터 (.data), 데이터가 저장된 파일경로 (.filenames), 토픽의 이름(.target_names)과 토픽이름의 인덱스(.target), 그리고 데이터셋에 대한 설명 (.DESCR)을 인스턴스로 가지고 있다. 1️⃣ 데이터셋 불러오기 2️⃣ 기사 본문 내용만 불러오기 : 기사의 headers, footers, quotes 제거 3️⃣ 학습/평가 데이터 분리 4️⃣ 모델 학습/예측/평가 (1) CounterVectorizer 사용 (2) TfidfVectorizer 사용 (3..

텍스트에서 피처를 추출하고 각 피처에 벡터를 부여하는 것을 피처 벡터화라고 한다. 텍스트는 피처벡터화를 통해서만 머신러닝 알고리즘을 적용할 수 있다. 대표적인 피처 벡터화에는 Bag of Words (BOW)와 Word2Vec 방식이 있다. BOW (Bag of Words) Bag of Words 방식은 문맥이나 순서를 무시하고 전체 문서에서 나타나는 해당 단어의 빈도를 벡터로 부여하는 방식이다. 이 방식은 작동 방식이 간단하지만 단어의 순서를 무시하기 때문에 1) 문맥적 의미를 반영하지 못하고, 단어 수 만큼의 컬럼이 만들어지기 때문에 2) 희소행렬 문제가 나타난다는 단점이 있다. BOW에는 두 가지 방식이 있다. 1) Count 기반 벡터화 : 단어의 빈도를 피처로 부여하는 방식 불용어 설정: 1) ..

스톱워드(stopword) 제거 스톱워드랑 is, the, a will 등과 같이 문장을 구성하는 문법적인 요소지만 문맥적으로 의미가 없는 단어이다. 이들은 문장의 의미에는 큰 영향을 주지 않지만 빈번하게 등장하기 때문에 제거하지 않으면 중요한 단어로 인식될 수 있다. 1️⃣ stopword 다운로드 2️⃣ 영어 stopwords 확인 3️⃣ stopwords 목록에 포함된 단어 제거 4️⃣ 원본 텍스트 vs 불용어 제거 후 텍스트 확인 참고) 불용어 목록 지원언어 확인 nltk에는 이러한 스톱워드가 언어별로 목록화 되어있다. 다음은 nltk에서 stopwords 목록을 제공하는 언어 목록. Stemming & Lemmatization Stemming와 lemmatization은 모두 단어를 어근으로 반..

텍스트 데이터에서 피처를 추출하기 위해 텍스트를 정규화하는 작업이 필요하다. 텍스트 정규화 작업에는 크게 클렌징, 텍스트 토큰화, stop word 제거, 어근화 (stemming & lemmatization)이 있다. 클렌징 텍스트 분석에 방해가 되는 불필요한 문자, 기호 등을 제거하는 작업이다. HTML, XML 태그나 기호들을 제거한다. 텍스트 토큰화 텍스트 토큰화는 문서를 문장 단위로 분리하는 문장 토큰화와 문장을 단어 단위로 분리하는 단어 토큰화가 있다. 1) 문장 토큰화 (sentence tokenization) - nltk sent_tokenize() 문장 토큰화는 문장의 끝을 의미하는 기호를 기준으로 문서를 문장 단위로 분리한다. 분리의 기준이 되는 기호는 마침표(.)나 개행문자(\n) 등..
텍스트를 처리하는 대표적인 기술로는 NLP (National Language Processing)과 텍스트 분석 (Text Analytics)이 있다. NLP는 머신이 인간의 언어를 이해하고 해석하는데 중점을 두고, 텍스트 마이닝 (Text Mining)은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 둔다. 하지만 머신러닝이 보편화 되면서 이 두 기술간의 차이는 사라지고 있는 추세이다. 텍스트 분석의 활용 1. 텍스트 분류 (Text Classification) 텍스트가 특정 분류나 카체고리에 속하는지 예측하는 기법으로, 지도학습을 적용한다. * 비지도학습으로 수행하는 텍스트 분류는 텍스트 군집화 (Text Clustering) -그런데 이제 유사도 측정을 동반한-으로 분류할 수 있다. 예를..

텍스트 데이터를 숫자형으로 표현하는 가장 대표적인 방법에는 One-hot encoding과 Label encoding이 있습니다. 01. One Hot Encoding One-hot encoding은 표현하고 싶은 단어의 인덱스에 1 값을 부여하고 다른 단어의 인덱스에는 0을 부여하는 처리방식입니다. 예를 들면 "I ate hamburger for lunch."라는 문장을 처리한다고 하면, 아래와 같이 표현됩니다. 단어 인덱스 one-hot 벡터 I 0 [1, 0, 0, 0, 0] ate 1 [0, 1, 0, 0, 0] hamburger 2 [0, 0, 1, 0, 0] for 3 [0, 0, 0, 1, 0] lunch 4 [0, 0, 0, 0, 1] 아래의 링크에서 파이썬을 사용한 원-핫 인코딩의 상세 ..