Data Analysis & EDA
-
결측치란? (Feat.Pandas)Data Analysis & EDA 2022. 3. 25. 23:06
공공데이터를 가져와 실습하는 도중 항상 결측치를 확인하는 과정을 거치곤 했다. 결측치란? 데이터에 값이 없는 것을 뜻한다. 줄여서 NaN 라고도 하고, Null 이라는 표현도 쓴다. 우선 isnull 이라는 함수로 데이터를 확인해보자. 위와 같이 isnull 만 실행시켰을때의 값은 True 또는 False를 출력하기 때문에 결측치가 없다면 모든 값이 False, 결측치가 존재한다면 True 라고 한다. 중간에 ... 으로 생략된 부분도 확인이 필요하기에 전체 데이터에서 결측치의 개수를 확인하는 sum 함수로 개수를 확인한다. 구한 결측치의 값은 위와 같았다. 44, 447 은 무엇이며 나머지는 왜 0 인지 궁금해졌다. 이는 말 그대로 0 인 부분은 결측치가 없는 것이고, 숫자가 있는 품목 이름과 비고는 ..
-
데이터 로드 중 인코딩 관련 에러Data Analysis & EDA 2022. 3. 24. 20:29
공공데이터를 불러오는 과정에서 아래와 같은 오류가 발생했다. ParserEroor: Error tokenlzing data. C error: Expected 14 fields in line 1273, saw 15 구글링을 해 보니 몇번째 열, 행 에서 오류가 발생한 듯 했다. 데이터가 그리 크지 않아 직접 실행하여 눈으로 확인해봐야겠다. 한글이 깨져서 오류가 발생한듯 했다. 한글이 깨졌을 경우 파일을 유니코드(UTF-8) 로 다시 저장하여 인코딩을 해 주면 된다고 한다. 위의 과정은 https://m.blog.naver.com/PostView.nhn?blogId=rbamtori&logNo=220744768992&proxyReferer=https:%2F%2Fwww.google.com%2F Excel(엑셀)..