일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 야구게임 코드
- java
- 파이썬예제
- 특정값 추출
- 웹크롤링 실습
- 구구단
- rolling retention
- R기초
- 문자열reverse
- requests 모듈
- range retention
- 함컴타자연습
- 웹크롤링 예제
- 데이터프레임조회
- 네이버웹툰크롤링
- 피처벡터화
- 데이터프레임 정보 조회
- r연습문제
- 파이썬
- R
- Python
- 타자연습파이썬
- 문자열함수
- classic retention
- 파이썬 야구게임
- 프로그래머스 풀이
- R실습
- pandas
- 조건인덱싱
- 웹크롤링
- Today
- Total
목록분류 전체보기 (70)
서비스 기획자의 성장기록

📌 Pandas NaT 구분하기 Pandas 데이터 프레임에서 Datetime 열에 Na 값이 있으면, 해당 값은 NaT (Not a DatetimeType)으로 표기된다. Pandas 공식문서에 따르면 NaT와 NaN 사이의 compatibility를 제공한다고 하지만... 실제로 개별 값을 불려와서 np.nan이냐? pd.NaT냐? 물어보면 다 False로 반환한다.😭 귀신이 곡할 노릇이다. 그래서 Datetime 열에서 Na 값인지 판별하기 위해서 검사열을 하나 추가해주었다. 이게 또 전체열.isna()하면 제대로 판별해 낸다. 검사 열이 True (=is na? YES!) 인 index를 가져오면 된다.

📌 Pandas shift 함수 shift 함수는 데이터프레임 내에서 지정된 축 방향으로 데이터를 이동시키는 함수이다. 기본 사용 포맷은 다음과 같다. df.shift(periods=1, freq=None, axis=0, fill_value=None) df['column_name'].shift(periods=1, freq=None, axis=0, fill_value=None) - periods: 선택한 축을 따라 이동하는 정수 값 - freq: 날짜 및 시간 이동을 위한 'D', 'W', 'M' 값 또는 DateOffset 지정 (optional) - axis: 0 = 행 방향, 1 = 열 방향으로 이동 - fill_value: 데이터가 이동하면서 발생하는 NaN 값을 채우기 위한 매개변수 (option..

📌 Array와 list의 차이 구글 search에 의하면 파이썬에서 array와 list의 차이는 동일한 type의 데이터만 담을 수 있느냐 (=list)와 서로다른 type의 데이터를 담을 수 있느냐(=array)이다. In contrast, programmers use arrays to store values that vary in size or type, such as the sum of numbers in an array. Lists can contain only one type of element such as integers or strings, whereas an array may have elements that are different kinds of data such as an int..

📌 pd.date_range().to_list() 반환형태 pd.date_range() 함수의 기본 반환 값은 DatetimeIndex이며, 아래처럼 '날짜' 형태로 반환된다. date_range() 반환값에 to_list() 함수를 적용하면 개별값의 type이 Timestamp로 바뀌면서 뒤에 00:00:00같이 시간 정보가 포함된다. 📌 날짜에 하루 더하기 datetime 객체에 + timedelta(days=원하는 일 수) 📌 새로운 열의 값을 iloc으로 추가하기 iloc으로 새로운 열에 값을 하나씩 추가하기 위해서는 먼저 빈 열을 생성해주어야 한다. 위의 예에서 pd.Series()없이 바로 두 번째 행을 실행하면 KeyError 발생함 🚨

📌 f-string의 반환값은 문자열이다. f-string으로 port 별 (port_name)_hourly_workingvessel 데이터 프레임 변수를 불러오려 했지만, f-string 안에 들어가면 문자열 반환되어 원하는 대로 변수로 불러올 수 없다..🥺..so..sad....:(

📌 데이터 프레임을 파일로 저장하기 1. csv 파일로 저장하기 데이터 프레임을 csv 파일로 저장하려면 to_csv() 함수를 쓰면된다. csv 파일로 저장할 때 단점은, 데이터 타입이 날아가기 때문에 다시 불러와서 사용하기 위해서는 추천하지는 않는 방법이다. cf. 파일 open, write, close 함수로 데이터를 csv 파일로 저장하기 위해서는 문자열 형태의 데이터를 입력해야한다. (아니면 아래처럼 오류남) 2. Pickle 파일로 저장하기 피클은 데이터프레임 뿐만 아니라 파이썬의 모든 객체를 파일로 저장할 수 있는 방법이다. 보통은 sklearn으로 머신러닝 모델을 학습시키고 저장할 때 사용한다고 한다. 객체를 다시 불러와서 작업하기엔 가장 적합한 저장 방법인 것 같다. 피클로 데이터프레임을..

📌 모바일에서 마우스 호버 효과: AliExpress앱 알리 익스프레스 앱에서 상품 미리보기 카드를 long press하면 웹에서 마우스 호버했을 때처럼 전환된다. (일반 탭 = short press 했을때는 상품 페이지로 이동) 보통 모바일 앱 환경에서는 마우스 호버 이펙트를 적용할 수 없는 것이 보편적인데 long press으로 이 효과를 적용할 수 있다는 것을 배웠다! 😲

📌 nltk word_tokenize()에는 리스트를 넣을 수 없다. ① 텍스트는 sent_tokenize 로 sentence 단위로 넣어주고, ② 이 sentence를 for 문으로 하나씩 가져와서 word_tokenize 해주면 단어로 토큰화 되는 것!

📌 DateTimeIndex CNSHA_df에서 'work_start_time' 컬럼의 값과 'work_end_time' 컬럼의 값을 하나씩 가져와서 그 사이에 한시간 간격으로 timestamp를 생성하여 그것을 새로운 열의 값으로 넣고 싶었다. 그런데 TypeError이 뜨면서 실행이 안된다. 내 예상은 'work_start_time' 컬럼과 'work_end_time' 컬럼에서 값을 하나씩 가져와서 date_range로 연산한 값을 차례로 반환하는 거였는데 아닌가보다. 😅 정확한 사유는 "Cannot convert input" 예상한 오류의 원인은...🤔 ① date_range() 함수로 감쌌기 때문에 레코드가 하나씩 반환되어 연산되는거 (이게 broadcasting 맞나?)가 안된다. ② date_..
텍스트를 처리하는 대표적인 기술로는 NLP (National Language Processing)과 텍스트 분석 (Text Analytics)이 있다. NLP는 머신이 인간의 언어를 이해하고 해석하는데 중점을 두고, 텍스트 마이닝 (Text Mining)은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 둔다. 하지만 머신러닝이 보편화 되면서 이 두 기술간의 차이는 사라지고 있는 추세이다. 텍스트 분석의 활용 1. 텍스트 분류 (Text Classification) 텍스트가 특정 분류나 카체고리에 속하는지 예측하는 기법으로, 지도학습을 적용한다. * 비지도학습으로 수행하는 텍스트 분류는 텍스트 군집화 (Text Clustering) -그런데 이제 유사도 측정을 동반한-으로 분류할 수 있다. 예를..