Pandas
-
loc 와 iloc 의 차이 (첫 번째 행을 컬럼(column)으로 지정하기)Data Analysis & EDA 2022. 4. 11. 01:31
데이터프레임을 다루다 보면 수많은 열과 행이 존재한다. 그 중 내가 원하는 데이터만 선택하고 싶은데 어떻게 해야할까? loc 와 iloc 의 차이 정리가 잘 되어있는 자료를 찾았다. 아래 코드를 코랩을 통해 실행시켜보자. loc : label을 통해서 값을 찾는다. name_index = ['하나의 row 이름', 'row 이름의 리스트', 'row 이름의 리스트 슬라이싱', '하나의 column 이름', 'column 이름의 리스트', 'column 이름의 리스트 슬라이싱' ] shape = ['df.loc["row4"]', 'df.loc[["row4,"row5,"row3"]]', 'df.loc["row2":"row5"]', 'df.loc[:,"col1"]', 'df.loc[:,["col4","col6..
-
데이터 행 열 위치 바꾸기 (Feat.변수 선언하기)Data Analysis & EDA 2022. 4. 10. 02:03
앞선 데이터를 가지고 이어서 진행하겠다. 불러온 데이터를 보면 행과 열이 존재한다. 이를 데이터프레임 이라고 칭한다. 변수 선언하기 df = pd.read_csv(csv, encoding='cp949') read_csv 를 통해 불러온 데이터를 df 라는 변수에 담아주었다. 변수는 한 번 지정해 주면 언제든 재사용이 가능하기에 정말 편한 방법이다. 변수에 담긴 데이터를 불러오려면 df # 만 입력해주면 데이터를 확인할 수 있다. .head(5) 를 통해 0번 인덱스 부터 4번까지의 데이터를 확인할 수 있다. 인덱스는 0 부터 시작한다. df.head(5) 데이터 행 열 위치 바꾸기 위의 데이터를 보면 가로로 시도(1) 총합 공공부문 공공부문 공공부문 민간부문 . . . 으로 나열되어있는걸 행(row) 라..
-
데이터셋 불러오기 (cvs, xlsx 등)Data Analysis & EDA 2022. 4. 10. 01:39
데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다. 뭐가 있어야 이래저래 갖고놀지.. 개발환경 실습에 앞서 개발환경은 구글 코랩을 사용한다. - 코랩이란? [https://colab.research.google.com] 구글에서 만든 연구용 서비스 제품이며, Jupyter를 기반으로 만들어진 웹용 서비스이다. 대체적으로 기본적인 라이브러리가 내장되어있어 사용하기 간편하다는 장점을 갖고있다. 데이터셋 불러오기 실습에 사용된 데이터는 공공데이터를 위주로 사용할것이다. 가장먼저 코랩에 내장되어있는 라이브러리인 판다스를 사용하기위해 선언을 해주어야한다. import pandas as pd 이 의미는 pandas 를 불러오는데 이를 축약하여 pd 라고 칭하겠다는 의미이다. pd.r..
-
Pandas) 데이터프레임에 리스트(변수(행)) 추가하기Data Analysis & EDA 2022. 3. 29. 13:37
데이터를 전처리하는 과정에서 데이터프레임을 먼저 불러왔다. url 이라는 변수에 csv 파일을 담아주었다. 다음으로, headers 라는 변수에 분기, 매출액, 영업이익 등 리스트 형태의 값을 담아주었다. 제일 처음 난관에 부딫혔던게, 아래 출력되어있는값을 보면 데이터프레임안에 들어가야할 값이 프레임 밖의 행으로 출력되어있다 문제는 저 행을 프레임 안으로 넣어야하는데, 제일 처음 csv 파일을 url 변수에 담아줄때 headers 라는 변수에 리스트를 담아준 값을 호출하면 될것같다. df 라는 변수안에 csv 파일을 read 할 파일과 헤더를 같이 불러온다 다음과 같이 리스트로 만들어진 값이 데이터프레임 위에 들어간 것을 볼 수 있다.
-
Pandas 헤더를 맨 위 행으로 바꾸기Data Analysis & EDA 2022. 3. 28. 19:25
https://bigdaheta.tistory.com/42 [pandas] 2-2. loc와 iloc 차이와 사용방법 🖇 이전 글 [pandas] 2-1. loc와 iloc 차이와 사용방법 파이썬 기초 문법을 공부할 때 인덱싱(indexing) 개념에 대해 배웠을 것이다. '인덱싱'에 대해 잘 모른다면 (클릭). 인덱싱은 데이터 프레임에도 적 bigdaheta.tistory.com https://lemontia.tistory.com/897 [pandas] 첫번째 행을 columns 으로 지정 다음과 같은 형태의 데이터를 변형한다 1. 행 열 전환 2. 첫번째 행을 columns 으로 지정 데이터 형식은 다음과 같다(csv 파일) 가맹점명,1일,2일,3일,4일,5일 서울점,98400,53200,6330..
-
결측치란? (Feat.Pandas)Data Analysis & EDA 2022. 3. 25. 23:06
공공데이터를 가져와 실습하는 도중 항상 결측치를 확인하는 과정을 거치곤 했다. 결측치란? 데이터에 값이 없는 것을 뜻한다. 줄여서 NaN 라고도 하고, Null 이라는 표현도 쓴다. 우선 isnull 이라는 함수로 데이터를 확인해보자. 위와 같이 isnull 만 실행시켰을때의 값은 True 또는 False를 출력하기 때문에 결측치가 없다면 모든 값이 False, 결측치가 존재한다면 True 라고 한다. 중간에 ... 으로 생략된 부분도 확인이 필요하기에 전체 데이터에서 결측치의 개수를 확인하는 sum 함수로 개수를 확인한다. 구한 결측치의 값은 위와 같았다. 44, 447 은 무엇이며 나머지는 왜 0 인지 궁금해졌다. 이는 말 그대로 0 인 부분은 결측치가 없는 것이고, 숫자가 있는 품목 이름과 비고는 ..
-
데이터 로드 중 인코딩 관련 에러Data Analysis & EDA 2022. 3. 24. 20:29
공공데이터를 불러오는 과정에서 아래와 같은 오류가 발생했다. ParserEroor: Error tokenlzing data. C error: Expected 14 fields in line 1273, saw 15 구글링을 해 보니 몇번째 열, 행 에서 오류가 발생한 듯 했다. 데이터가 그리 크지 않아 직접 실행하여 눈으로 확인해봐야겠다. 한글이 깨져서 오류가 발생한듯 했다. 한글이 깨졌을 경우 파일을 유니코드(UTF-8) 로 다시 저장하여 인코딩을 해 주면 된다고 한다. 위의 과정은 https://m.blog.naver.com/PostView.nhn?blogId=rbamtori&logNo=220744768992&proxyReferer=https:%2F%2Fwww.google.com%2F Excel(엑셀)..