공공데이터
-
원하는 행 지우기 (.drop 컬럼명)Data Analysis & EDA 2022. 4. 28. 02:46
앞선 포스팅에서 .drop 메소드를 이용해 행을 지우는 실습을 해 보았다. df1.drop(df1.index[0]) 위와 같은 형태로 인덱스 번호를 지정해 행을 삭제하는 방법을 사용했는데, 이번엔 조금 더 직관적으로 제거하고 싶은 컬럼명을 지정해 제거하는 방법에 대해 알아보도록 하자. df.head() 데이터프레임에서 .head() 메소드를 사용해 5개의 행 만을 뽑아왔다. 숫자형으로 이루어진 데이터프레임에서 문자로 이루어진 diagnosis 컬럼을 제거 해 보도록 하자. df = df.drop(['diagnosis'], axis=1) df.head() 말 그대로 .drop 메소드를 사용하는데 그 안에 컬럼명만 지정 해 주면 된다. 매개변수인 axis=1 의 의미는 컬럼(열)을 지칭하며, axis=0 은..
-
데이터프레임 합치기 (.merge)Data Analysis & EDA 2022. 4. 15. 02:13
데이터프레임 생성 임의의 두 데이터프레임을 생성해주겠다. df = pd.DataFrame({'Test':[1, 2, 3], 'Test1':['4', '5', '6'], 'Test2':['7', '8', '9']}) df1 = pd.DataFrame({'Test':[1, 2, 3], 'Test3':['10', '11', '12'], 'Test4':['13', '14', '15']}) 조건으로는 두 변수에 담긴 데이터프레임의 첫번째 행의 값이 같게 만들어 주었다. 데이터프레임 합치기 임의로 생성한 두개의 데이터프레임을 merge 를 이용해 합쳐보자. merge는 concat과 다르게 공통된 부분을 기반으로 합치기가 주된 용도이다. df = df.merge(df1, how = 'inner', on = 'Tes..
-
데이터프레임 합치기 (.concat)Data Analysis & EDA 2022. 4. 15. 01:42
데이터프레임 생성 임의의 데이터프레임을 변수 df, df1 에 담아 생성 해 주자. df = pd.DataFrame({'Test':[1, 2, 3], 'Test1':['4', '5', '6'], 'Test2':['7', '8', '9']}) df1 = pd.DataFrame({'Test3':[10, 11, 12], 'Test4':['13', '14', '15'], 'Test5':['16', '17', '18']}) 데이터프레임 합치기 임의로 만든 두개의 데이터프레임을 .concat 함수를 이용해 하나로 합쳐보자. pd.concat([df, df1]) 두개의 데이터프레임이 합쳐졌다. 여기서 알 수 있는점은 concat 의 defalut 값은 열 기준으로 합쳐진다는 것을 알 수 있다. 이를 행 기준으로 합쳐..
-
데이터프레임 타입 변경하기 (.astype)Data Analysis & EDA 2022. 4. 15. 00:59
데이터셋 불러오기 이전 데이터를 이어서 사용하겠다. 이번 실습에서의 차이는 데이터를 불러올때 천 단위의 숫자에 있는 ' , ' (콤마) 를 제거 하고 불러오는 것이다. import pandas as pd url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url) import pandas as pd url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url, thousands = ',') 숫자로 이루어진 데이터의 컬럼만 추출하고, 컬럼명까지 바..
-
문자열(str)데이터를 정수형(int) 데이터로 변환하기카테고리 없음 2022. 4. 14. 02:18
앞선 데이터로 이어서 진행하겠다. 데이터셋을 불러오는 과정이 햇갈린다면 다시 보고오길 바란다. https://battlecoding.tistory.com/10 데이터셋 불러오기 (cvs, xlsx 등) 데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다. 뭐가 있어야 이래저래 갖고놀지.. 개발환경 실습에 앞서 개발환경은 구글 코랩을 사용한다. - 코랩이란? battlecoding.tistory.com 데이터 타입 확인하기 df.dtypes .dtypes 를 통해 데이터의 타입을 확인 할 수 있다. 문자열데이터 변환하기 간단한 함수를 통해 변환이 가능하다. # str(object)을 int로 바꾸는 함수 def toint(string) : return int(string.re..
-
데이터프레임의 열 이름 / 컬럼명 변경하기 (.rename)Data Analysis & EDA 2022. 4. 14. 01:50
데이터셋 준비하기 데이터셋을 불러오는 과정이 햇갈린다면 아래 글을 참고하기 바란다. https://battlecoding.tistory.com/10 데이터셋 불러오기 (cvs, xlsx 등) 데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다. 뭐가 있어야 이래저래 갖고놀지.. 개발환경 실습에 앞서 개발환경은 구글 코랩을 사용한다. - 코랩이란? battlecoding.tistory.com url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url) url 에 담긴 데이터의 원본은 네이버 금융을 통해서 확인할 수 있다. 데이터프레임 위에 컬럼이..
-
원하는 컬럼(들)만 추출하기 (feat. sns)Data Analysis & EDA 2022. 4. 13. 17:54
이번엔 데이터셋을 불러온 뒤 데이터프레임에서 원하는 컬럼(들) 만 추출해보자. 데이터셋 불러오기 오늘은 Pandas 환경이 아닌 Seaborn 에서 제공하는 샘플 데이터셋인 'Penguins' 데이터를 사용 해 보자. import seaborn as sns data = sns.load_dataset('penguins') 먼저, 코랩에 seaborn 을 임포트 시켜주고 데이터셋을 불러온다. 불러온 데이터셋은 data 라는 변수에 담아주었다. 아래 Shape 을 확인 해 보면 (344, 7) 의 형태임을 확인 할 수 있다. 원하는 컬럼 추출 이 데이터프레임에서 bill_length_mm, bill_depth_mm, flipper_length_mm, body_mass_g 컬럼 만 추출 해 보자. data1 =..
-
데이터 시각화 ( Data_Visualization ) matplotlib카테고리 없음 2022. 4. 12. 01:58
데이터 생성 먼저 임의의 데이터프레임을 생성하겠다. import pandas as pd ex = pd.DataFrame({ "과목":['수학', '과학', '영어', '사회'], "점수":[95, 90, 25, 70] }) ex matplotlib 위 데이터를 가지고 데이터 시각화를 진행하기 앞서 먼저 matplotlib 를 불러와야 한다. import matplotlib.pyplot as plt # 경고 메시지 숨기기 import warnings 그래프를 나타내었을때 한글이 깨져 출력된다면 아래 명령어를 실행해보자 본인은 윈도우를 사용하기에 주석을 풀었고, 맥을 사용한다면 아래 명령어의 주석을 풀어서 실행하면 된다. # Window 의 한글 폰트 설정 plt.rc('font',family='Malgun..