-
데이터셋 불러오기 (cvs, xlsx 등)Data Analysis & EDA 2022. 4. 10. 01:39
데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다.
뭐가 있어야 이래저래 갖고놀지..
개발환경
- 실습에 앞서 개발환경은 구글 코랩을 사용한다.
- 코랩이란?
[https://colab.research.google.com]
구글에서 만든 연구용 서비스 제품이며, Jupyter를 기반으로 만들어진 웹용 서비스이다.
대체적으로 기본적인 라이브러리가 내장되어있어 사용하기 간편하다는 장점을 갖고있다.데이터셋 불러오기
실습에 사용된 데이터는 공공데이터를 위주로 사용할것이다.
가장먼저 코랩에 내장되어있는 라이브러리인 판다스를 사용하기위해 선언을 해주어야한다.
import pandas as pd
이 의미는 pandas 를 불러오는데 이를 축약하여 pd 라고 칭하겠다는 의미이다.
pd.read_csv('/content/규모별_미분양현황_20220405003451.csv', encoding='cp949')
csv 파일을 불러오기에 가장 간단한 방법은 코랩에 파일업로드를 하여 read_csv 를 통해 불러오는것이다.
뒤에 encoding='cp949' 를 붙여준 이유는
공공데이터들을 한글로 작성된 파일로 불러들이는데 있어 오류가 있어 변환을 해주어야 한다고 하는데
이 부분에 대해서는 추후에 자세히 알아보도록 하겠다.
위 명령어를 실행시키게 되면 아래와 같이 데이터를 불러올 수 있을것이다.
위에서는 파일이 들어있는 경로를 괄호 안에 넣어주었지만,
이를 먼저 변수에 담아주어 간단하게 작성하는 방법도 있다.
이 방법은 여러 데이터파일을 불러올때 사용하면 좋을것 같다.
'Data Analysis & EDA' 카테고리의 다른 글
loc 와 iloc 의 차이 (첫 번째 행을 컬럼(column)으로 지정하기) (0) 2022.04.11 데이터 행 열 위치 바꾸기 (Feat.변수 선언하기) (0) 2022.04.10 Pandas) 데이터프레임에 리스트(변수(행)) 추가하기 (0) 2022.03.29 Pandas 헤더를 맨 위 행으로 바꾸기 (0) 2022.03.28 결측치란? (Feat.Pandas) (0) 2022.03.25