Data Analysis & EDA

데이터프레임 합치기 (.concat)

심전코 2022. 4. 15. 01:42

 

데이터프레임 생성

임의의 데이터프레임을 변수 df, df1 에 담아 생성 해 주자.

df = pd.DataFrame({'Test':[1, 2, 3],
                    'Test1':['4', '5', '6'],
                    'Test2':['7', '8', '9']})
df1 = pd.DataFrame({'Test3':[10, 11, 12],
                    'Test4':['13', '14', '15'],
                    'Test5':['16', '17', '18']})

데이터프레임 합치기

임의로 만든 두개의 데이터프레임을 .concat 함수를 이용해 하나로 합쳐보자.

pd.concat([df, df1])

두개의 데이터프레임이 합쳐졌다.

여기서 알 수 있는점은 concat 의 defalut 값은 열 기준으로 합쳐진다는 것을 알 수 있다.

이를 행 기준으로 합쳐주기 위해선 axis=1 을 써 주면 된다.

pd.concat([df, df1], axis = 1)

 

결측치

concat 의 defalut 메소드로 있는 열 기준 합치기를 했을때,

데이터프레임에 결측치(NaN) 이 들어있음을 확인 할 수있다.

 

이는,

데이터프레임을 더할 때 일반적으로는 더해지는 행, 열의 이름이나 인덱스 값이 일치해야 한다.

그렇지 않은 경우, 비어있는 부분에 대해서는 NaN(비어있는) 값으로 채워진다.

 

https://battlecoding.tistory.com/15

 

결측치 다루기 (Feat. 결측치를 임의의 숫자로 대체하기)

데이터 확인을 했다면 그 안에는 알수없는 내용이 포함되어있을것이다. 예를들면 NaN 이라던지 Na 으로 칭하며 다른언어에서는 Null 이라고도 하는데, 이를 '결측치' 라고 부른다. Missing feature, NA (

battlecoding.tistory.com