-
결측치란? (Feat.Pandas)Data Analysis & EDA 2022. 3. 25. 23:06
공공데이터를 가져와 실습하는 도중
항상 결측치를 확인하는 과정을 거치곤 했다.
결측치란?
데이터에 값이 없는 것을 뜻한다.
줄여서 NaN 라고도 하고, Null 이라는 표현도 쓴다.
우선 isnull 이라는 함수로 데이터를 확인해보자.
위와 같이 isnull 만 실행시켰을때의 값은
True 또는 False를 출력하기 때문에 결측치가 없다면 모든 값이 False,
결측치가 존재한다면 True 라고 한다.
중간에 ... 으로 생략된 부분도 확인이 필요하기에
전체 데이터에서 결측치의 개수를 확인하는 sum 함수로 개수를 확인한다.
구한 결측치의 값은 위와 같았다.
44, 447 은 무엇이며 나머지는 왜 0 인지 궁금해졌다.
이는 말 그대로
0 인 부분은 결측치가 없는 것이고,
숫자가 있는 품목 이름과 비고는 해당하는 수 만큼의 결측치가 있는것이다.
결측치가 있는 상태로 분석을 하게된다면 큰 오류가 발생한다고 한다.
그렇다면 이를 처리해야하는데,
결측치는 언제 어디서든 생성될 수 있으므로 데이터의 손실을 최소화하는 방향으로 결측치 처리를 해야한다.
결측치를 자세하게 처리하기 위해서 많은 시간을 투자해야 한다고 한다.
자신의 주관적인 생각이 아닌, 데이터에 기반한 결측치 처리가 진행되어야 분석을 정확하게 할 수 있다고 한다.
제거하는 방법 및 처리하는 방법에 대해서는 다음 포스팅에서 정리해야겠다.
'Data Analysis & EDA' 카테고리의 다른 글
데이터 행 열 위치 바꾸기 (Feat.변수 선언하기) (0) 2022.04.10 데이터셋 불러오기 (cvs, xlsx 등) (0) 2022.04.10 Pandas) 데이터프레임에 리스트(변수(행)) 추가하기 (0) 2022.03.29 Pandas 헤더를 맨 위 행으로 바꾸기 (0) 2022.03.28 데이터 로드 중 인코딩 관련 에러 (0) 2022.03.24