Data Analysis & EDA
-
원하는 행 지우기 (.drop 컬럼명)Data Analysis & EDA 2022. 4. 28. 02:46
앞선 포스팅에서 .drop 메소드를 이용해 행을 지우는 실습을 해 보았다. df1.drop(df1.index[0]) 위와 같은 형태로 인덱스 번호를 지정해 행을 삭제하는 방법을 사용했는데, 이번엔 조금 더 직관적으로 제거하고 싶은 컬럼명을 지정해 제거하는 방법에 대해 알아보도록 하자. df.head() 데이터프레임에서 .head() 메소드를 사용해 5개의 행 만을 뽑아왔다. 숫자형으로 이루어진 데이터프레임에서 문자로 이루어진 diagnosis 컬럼을 제거 해 보도록 하자. df = df.drop(['diagnosis'], axis=1) df.head() 말 그대로 .drop 메소드를 사용하는데 그 안에 컬럼명만 지정 해 주면 된다. 매개변수인 axis=1 의 의미는 컬럼(열)을 지칭하며, axis=0 은..
-
데이터 시각화 ( Data_Visualization ) matplotlib_Line Plot_2Data Analysis & EDA 2022. 4. 18. 02:05
Maplotlib 중 Line Plot 을 이어서 실습 해 보자. Line Plot 축 이름 지정하기 # 사용방법 x축 이름 : plt.xlabel(x축 이름) y축 이름 : plt.ylabel(y축 이름) 그래프 제목 : plt.title(그래프 제목) a = np.arange(1, 10) b = a+5 plt.plot(a, b) plt.xlabel('a Label') plt.ylabel('b Label') plt.title('a, b Label Test') plt.show() x 축 이름에 'a Label' 을 y 축 이름에 'b Label' 을 그래프 제목에 'a, b Label Test' 를 추가 한 것을 확인할 수 있다. 그래프 사이즈 지정하기 # 사용방법 plt.figure(figsize=(가..
-
데이터 시각화 ( Data_Visualization ) matplotlib_Line Plot_1Data Analysis & EDA 2022. 4. 17. 02:36
Matplotlib 를 학습하기에 앞서 가장 간단한 그래프 부터 그려보는 연습을 해 보자. 원래 가장 쉬운것부터 시작해 재미를 붙여나가는것이 학습에 큰 도움이 된다고 생각하는 바 이다. Line Plot 가장 간단한 데이터시각화는 선을 그리는 라인 플롯 (Line Plot) 이다. 라인 플롯은 데이터가 시간, 순서 등에 따라 어떻게 변화하는지 보여주기 위해 사용한다. # 사용방법 plt.plot(x데이터, y데이터) 하나의 인자만 주어졌을때, a = np.arange(1, 10) plt.plot(a) plt.show() x 축은 0, 1, 2, 3 으로 순차적으로 자동 지정되고 인자로 받은 데이터는 x 축에 대응하는 y 값이 된다. 두개의 인자가 주어졌을때, a = np.arange(1, 10) b = ..
-
데이터 시각화 ( Data_Visualization ) matplotlib_2Data Analysis & EDA 2022. 4. 17. 01:26
지난 포스팅에 이어서 matplotlib 에 대해 학습해보자. 시각화를 해야하는 이유 데이터를 한 눈에 파악할 수 있다. 도메인 지식이 부족한 사람도 시각화된 데이터를 통해 데이터를 쉽게 이해할 수 있다. 데이터 전처리 단계에서 발생한 이슈에 대해 빠르게 파악할 수 있다. 데이터 기반의 효율적인 의사소통이 가능하다. 등... Matplotilb 란? 파이썬의 대표적인 데이터 시각화 라이브러리. 핵심적인 시각화 기법을 대다수 적용 가능하다. 라이브러리 불러오기 import pandas as pd # 판다스 라이브러리 import import numpy as np # numpy 라이브러리 import import matplotlib as mpl # matplotlib 라이브러리 import import ma..
-
데이터프레임 합치기 (.merge)Data Analysis & EDA 2022. 4. 15. 02:13
데이터프레임 생성 임의의 두 데이터프레임을 생성해주겠다. df = pd.DataFrame({'Test':[1, 2, 3], 'Test1':['4', '5', '6'], 'Test2':['7', '8', '9']}) df1 = pd.DataFrame({'Test':[1, 2, 3], 'Test3':['10', '11', '12'], 'Test4':['13', '14', '15']}) 조건으로는 두 변수에 담긴 데이터프레임의 첫번째 행의 값이 같게 만들어 주었다. 데이터프레임 합치기 임의로 생성한 두개의 데이터프레임을 merge 를 이용해 합쳐보자. merge는 concat과 다르게 공통된 부분을 기반으로 합치기가 주된 용도이다. df = df.merge(df1, how = 'inner', on = 'Tes..
-
데이터프레임 합치기 (.concat)Data Analysis & EDA 2022. 4. 15. 01:42
데이터프레임 생성 임의의 데이터프레임을 변수 df, df1 에 담아 생성 해 주자. df = pd.DataFrame({'Test':[1, 2, 3], 'Test1':['4', '5', '6'], 'Test2':['7', '8', '9']}) df1 = pd.DataFrame({'Test3':[10, 11, 12], 'Test4':['13', '14', '15'], 'Test5':['16', '17', '18']}) 데이터프레임 합치기 임의로 만든 두개의 데이터프레임을 .concat 함수를 이용해 하나로 합쳐보자. pd.concat([df, df1]) 두개의 데이터프레임이 합쳐졌다. 여기서 알 수 있는점은 concat 의 defalut 값은 열 기준으로 합쳐진다는 것을 알 수 있다. 이를 행 기준으로 합쳐..
-
데이터프레임 타입 변경하기 (.astype)Data Analysis & EDA 2022. 4. 15. 00:59
데이터셋 불러오기 이전 데이터를 이어서 사용하겠다. 이번 실습에서의 차이는 데이터를 불러올때 천 단위의 숫자에 있는 ' , ' (콤마) 를 제거 하고 불러오는 것이다. import pandas as pd url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url) import pandas as pd url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url, thousands = ',') 숫자로 이루어진 데이터의 컬럼만 추출하고, 컬럼명까지 바..
-
데이터프레임의 열 이름 / 컬럼명 변경하기 (.rename)Data Analysis & EDA 2022. 4. 14. 01:50
데이터셋 준비하기 데이터셋을 불러오는 과정이 햇갈린다면 아래 글을 참고하기 바란다. https://battlecoding.tistory.com/10 데이터셋 불러오기 (cvs, xlsx 등) 데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다. 뭐가 있어야 이래저래 갖고놀지.. 개발환경 실습에 앞서 개발환경은 구글 코랩을 사용한다. - 코랩이란? battlecoding.tistory.com url = ('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv') df = pd.read_csv(url) url 에 담긴 데이터의 원본은 네이버 금융을 통해서 확인할 수 있다. 데이터프레임 위에 컬럼이..