분류 전체보기
-
데이터 시각화 (Data Visualization) 워드클라우드 기법Data Analysis & EDA 2022. 4. 12. 00:28
데이터 시각화란 너무 많은 데이터가 있을때 데이터로부터 유용한 정보를 얻기가 어렵다. 이를 해결하기 위해 데이터 시각화를 하게되면 세분화된 데이터를 쉽게 이해하며 시각적으로 설득력 있고 유용한 비즈니스 정보로 전환할 수 있다. 가장 쉬운 예로 주식 그래프를 살펴보자. 주식을 하다 보면 위와 같은 차트를 쉽게 볼 수 있다. 하지만, 초 단위로 빠르게 이루어지는 거래를 매번 숫자로 표시가 된다면 한 눈에 파악하기가 불편할 것이다. 그렇기에 우리는 조금더 빠르고 간결하게 파악하기 위해 시각화를 이용하는겁니다. 워드클라우드 워드 클라우드란 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각화하는 기법이다. 직접 실습을 통해 확인을 할테지만, 보다싶이 제일 크게 확인할 수 있는 단어가 몇가지 보인다..
-
결측치 다루기 (Feat. 결측치를 임의의 숫자로 대체하기)카테고리 없음 2022. 4. 11. 02:18
데이터 확인을 했다면 그 안에는 알수없는 내용이 포함되어있을것이다. 예를들면 NaN 이라던지 Na 으로 칭하며 다른언어에서는 Null 이라고도 하는데, 이를 '결측치' 라고 부른다. Missing feature, NA (Not Available) : '결측치'라고 하며 값이 표기되지 않은 값 먼저, 데이터프레임에서 결측치가 있는지부터 확인 해 보자. # isnull 로 결측치를 데이터로 확인 df2.isnull() 위와 같은 결과가 출력되었다. False는 값이 들어있다는 말이고, 반대로 True 는 값이 없는상태, 즉 결측치 임을 나타낸다. 결측치의 여부를 데이터프레임으로 확인하였으니 간단하게 어느 위치에 몇개나 있는지 확인을 해 보자. # .sum 으로 개수를 확인 df2.isnull().sum() ..
-
loc 와 iloc 의 차이 (첫 번째 행을 컬럼(column)으로 지정하기)Data Analysis & EDA 2022. 4. 11. 01:31
데이터프레임을 다루다 보면 수많은 열과 행이 존재한다. 그 중 내가 원하는 데이터만 선택하고 싶은데 어떻게 해야할까? loc 와 iloc 의 차이 정리가 잘 되어있는 자료를 찾았다. 아래 코드를 코랩을 통해 실행시켜보자. loc : label을 통해서 값을 찾는다. name_index = ['하나의 row 이름', 'row 이름의 리스트', 'row 이름의 리스트 슬라이싱', '하나의 column 이름', 'column 이름의 리스트', 'column 이름의 리스트 슬라이싱' ] shape = ['df.loc["row4"]', 'df.loc[["row4,"row5,"row3"]]', 'df.loc["row2":"row5"]', 'df.loc[:,"col1"]', 'df.loc[:,["col4","col6..
-
데이터 행 열 위치 바꾸기 (Feat.변수 선언하기)Data Analysis & EDA 2022. 4. 10. 02:03
앞선 데이터를 가지고 이어서 진행하겠다. 불러온 데이터를 보면 행과 열이 존재한다. 이를 데이터프레임 이라고 칭한다. 변수 선언하기 df = pd.read_csv(csv, encoding='cp949') read_csv 를 통해 불러온 데이터를 df 라는 변수에 담아주었다. 변수는 한 번 지정해 주면 언제든 재사용이 가능하기에 정말 편한 방법이다. 변수에 담긴 데이터를 불러오려면 df # 만 입력해주면 데이터를 확인할 수 있다. .head(5) 를 통해 0번 인덱스 부터 4번까지의 데이터를 확인할 수 있다. 인덱스는 0 부터 시작한다. df.head(5) 데이터 행 열 위치 바꾸기 위의 데이터를 보면 가로로 시도(1) 총합 공공부문 공공부문 공공부문 민간부문 . . . 으로 나열되어있는걸 행(row) 라..
-
데이터셋 불러오기 (cvs, xlsx 등)Data Analysis & EDA 2022. 4. 10. 01:39
데이터 분야를 공부한다면 제일 처음 해야하는게 데이터를 불러오는게 아닐까 생각된다. 뭐가 있어야 이래저래 갖고놀지.. 개발환경 실습에 앞서 개발환경은 구글 코랩을 사용한다. - 코랩이란? [https://colab.research.google.com] 구글에서 만든 연구용 서비스 제품이며, Jupyter를 기반으로 만들어진 웹용 서비스이다. 대체적으로 기본적인 라이브러리가 내장되어있어 사용하기 간편하다는 장점을 갖고있다. 데이터셋 불러오기 실습에 사용된 데이터는 공공데이터를 위주로 사용할것이다. 가장먼저 코랩에 내장되어있는 라이브러리인 판다스를 사용하기위해 선언을 해주어야한다. import pandas as pd 이 의미는 pandas 를 불러오는데 이를 축약하여 pd 라고 칭하겠다는 의미이다. pd.r..
-
4일차 어서오고코드스테이츠/daily 2022. 3. 31. 01:21
Session1 을 시작한지 오늘로 자정이 지낫으니 4일차 되는 날 이다. 솔직히 Note1 부터 어려움에 부딫혔다. 모든 정신과 극 소수의 사전지식들을 영끌해 구글링 등 참고자료를 동반해 어찌어찌 과제를 제출했다. 그런데 이게 뭐람, 이제 겨우 하루밖에 안지났네. ㅋㅋ 4일차가 시작되었다. 미분을 한다. 미분이 뭐냐 ㅋㅋ 방정식도 기억이 나지 않는 현재 눈이 뽑힐것같은 느낌으로 오늘도 컴퓨터를 바라보고있다. 시간으로 계산해보니 평균 12시간정도 컴퓨터에 앉아있는것같다. 지금까지의 느낀점은 내가 할 수 있을까? 인데 이 느낌은 부트캠프를 시작하기 전에도 느꼈던 똑같은 느낌이다. 디스코드 채팅을 통해 13기 동기들의 이야기를 보았다. 나만 어려운줄 알았는데, 다들 똑같은 상황인것같다. 괜찮다 1, 2, 3..