Pandas
-
데이터프레임 타입 변경하기 (.astype)Data Analysis & EDA 2022. 4. 15. 00:59
데이터셋 불러오기 이전 데이터를 이어서 사용하겠다. 이번 실습에서의 차이는 데이터를 불러올때 천 단위의 숫자에 있는 ' , ' (콤마) 를 제거 하고 불러오는 것이다. import pandas as pd url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url) import pandas as pd url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url, thousands = ',') 숫자로 이루어진 데이터의 컬럼만 추출하고, 컬럼명까지 바..
-
문자열(str)데이터를 정수형(int) 데이터로 변환하기카테고리 없음 2022. 4. 14. 02:18
앞선 데이터로 이어서 진행하겠다. 데이터셋을 불러오는 과정이 햇갈린다면 다시 보고오길 바란다. https://battlecoding.tistory.com/10 데이터셋 불러오기 (cvs, xlsx 등) 데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다. 뭐가 있어야 이래저래 갖고놀지.. 개발환경 실습에 앞서 개발환경은 구글 코랩을 사용한다. - 코랩이란? battlecoding.tistory.com 데이터 타입 확인하기 df.dtypes .dtypes 를 통해 데이터의 타입을 확인 할 수 있다. 문자열데이터 변환하기 간단한 함수를 통해 변환이 가능하다. # str(object)을 int로 바꾸는 함수 def toint(string) : return int(string.re..
-
데이터프레임의 열 이름 / 컬럼명 변경하기 (.rename)Data Analysis & EDA 2022. 4. 14. 01:50
데이터셋 준비하기 데이터셋을 불러오는 과정이 햇갈린다면 아래 글을 참고하기 바란다. https://battlecoding.tistory.com/10 데이터셋 불러오기 (cvs, xlsx 등) 데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다. 뭐가 있어야 이래저래 갖고놀지.. 개발환경 실습에 앞서 개발환경은 구글 코랩을 사용한다. - 코랩이란? battlecoding.tistory.com url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url) url 에 담긴 데이터의 원본은 네이버 금융을 통해서 확인할 수 있다. 데이터프레임 위에 컬럼이..
-
원하는 컬럼(들)만 추출하기 (feat. sns)Data Analysis & EDA 2022. 4. 13. 17:54
이번엔 데이터셋을 불러온 뒤 데이터프레임에서 원하는 컬럼(들) 만 추출해보자. 데이터셋 불러오기 오늘은 Pandas 환경이 아닌 Seaborn 에서 제공하는 샘플 데이터셋인 'Penguins' 데이터를 사용 해 보자. import seaborn as sns data = sns.load_dataset('penguins') 먼저, 코랩에 seaborn 을 임포트 시켜주고 데이터셋을 불러온다. 불러온 데이터셋은 data 라는 변수에 담아주었다. 아래 Shape 을 확인 해 보면 (344, 7) 의 형태임을 확인 할 수 있다. 원하는 컬럼 추출 이 데이터프레임에서 bill_length_mm, bill_depth_mm, flipper_length_mm, body_mass_g 컬럼 만 추출 해 보자. data1 =..
-
데이터 시각화 ( Data_Visualization ) matplotlib카테고리 없음 2022. 4. 12. 01:58
데이터 생성 먼저 임의의 데이터프레임을 생성하겠다. import pandas as pd ex = pd.DataFrame({ "과목":['수학', '과학', '영어', '사회'], "점수":[95, 90, 25, 70] }) ex matplotlib 위 데이터를 가지고 데이터 시각화를 진행하기 앞서 먼저 matplotlib 를 불러와야 한다. import matplotlib.pyplot as plt # 경고 메시지 숨기기 import warnings 그래프를 나타내었을때 한글이 깨져 출력된다면 아래 명령어를 실행해보자 본인은 윈도우를 사용하기에 주석을 풀었고, 맥을 사용한다면 아래 명령어의 주석을 풀어서 실행하면 된다. # Window 의 한글 폰트 설정 plt.rc('font',family='Malgun..
-
데이터 시각화 (Data Visualization) 워드클라우드 기법Data Analysis & EDA 2022. 4. 12. 00:28
데이터 시각화란 너무 많은 데이터가 있을때 데이터로부터 유용한 정보를 얻기가 어렵다. 이를 해결하기 위해 데이터 시각화를 하게되면 세분화된 데이터를 쉽게 이해하며 시각적으로 설득력 있고 유용한 비즈니스 정보로 전환할 수 있다. 가장 쉬운 예로 주식 그래프를 살펴보자. 주식을 하다 보면 위와 같은 차트를 쉽게 볼 수 있다. 하지만, 초 단위로 빠르게 이루어지는 거래를 매번 숫자로 표시가 된다면 한 눈에 파악하기가 불편할 것이다. 그렇기에 우리는 조금더 빠르고 간결하게 파악하기 위해 시각화를 이용하는겁니다. 워드클라우드 워드 클라우드란 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각화하는 기법이다. 직접 실습을 통해 확인을 할테지만, 보다싶이 제일 크게 확인할 수 있는 단어가 몇가지 보인다..
-
결측치 다루기 (Feat. 결측치를 임의의 숫자로 대체하기)카테고리 없음 2022. 4. 11. 02:18
데이터 확인을 했다면 그 안에는 알수없는 내용이 포함되어있을것이다. 예를들면 NaN 이라던지 Na 으로 칭하며 다른언어에서는 Null 이라고도 하는데, 이를 '결측치' 라고 부른다. Missing feature, NA (Not Available) : '결측치'라고 하며 값이 표기되지 않은 값 먼저, 데이터프레임에서 결측치가 있는지부터 확인 해 보자. # isnull 로 결측치를 데이터로 확인 df2.isnull() 위와 같은 결과가 출력되었다. False는 값이 들어있다는 말이고, 반대로 True 는 값이 없는상태, 즉 결측치 임을 나타낸다. 결측치의 여부를 데이터프레임으로 확인하였으니 간단하게 어느 위치에 몇개나 있는지 확인을 해 보자. # .sum 으로 개수를 확인 df2.isnull().sum() ..