데이터
-
Tabular Data 란?Machine Learning (ML) 2022. 10. 27. 03:11
Tabular Data 란? 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 데이터를 말한다. 크게 두 가지로 분류 할 수 있는데, 1. 정형 데이터 (Tabular) 2. 비정형 데이터 (이미지, 텍스트, 음성...) 정형 데이터란? 우리가 흔히 보는 데이터 베이스에 table 형태의 행과 열로 표현되는 데이터를 말한다. 분야를 막론하고 많은 데이터가 정형 데이터로 존재하기에 필수적인 데이터라고도 할 수 있다. tabular data의 유명한 예제 데이터로는 타이타닉 데이터셋이나 iris 붓꽃 데이터 등 이 있다. Tabular Data 의 특징을 세 부분으로 나누면? 1. 관측치 2. 변수 3. 관계
-
머신러닝을 사용하는 이유?Machine Learning (ML) 2022. 10. 26. 19:43
당신은 무한도전을 아는가 ? 초창기 무한도전에서는 무모한 도전이라는 컨텐츠로 기계 vs 인간의 대결 구도를 실험했었다. 당연히 결과는 매번 기계의 승리로 끝이 났다. 머신러닝에 대해 시작하기 전, 인간은 왜 기계를 이길 수 없을까? 라는 질문에 대한 답을 할 수 있는가? 답은 정말 쉽다. 나는 인간은 한계가 정해져 있기 때문에 라고 생각한다. 다만, 멍청한 컴퓨터와 사람이 협업을 한다면 그에따른 기대효과는 얼마나 성장할까? 여기서 부터, 머신러닝을 사용하는 이유에 대해 알 수 있다. 1. 컴퓨터는 인간보다 많은 데이터를 보고 예측할 수 있기 때문에 -> 시간 단축, 비용 절감의 효과 2. 새로운 데이터를 기반으로 예측을 스스로 개선할 수 있기 때문에 -> 새로운 데이터가 추가 될 때, 기존의 방법이라면 ..
-
Pandas) 데이터프레임에 리스트(변수(행)) 추가하기Data Analysis & EDA 2022. 3. 29. 13:37
데이터를 전처리하는 과정에서 데이터프레임을 먼저 불러왔다. url 이라는 변수에 csv 파일을 담아주었다. 다음으로, headers 라는 변수에 분기, 매출액, 영업이익 등 리스트 형태의 값을 담아주었다. 제일 처음 난관에 부딫혔던게, 아래 출력되어있는값을 보면 데이터프레임안에 들어가야할 값이 프레임 밖의 행으로 출력되어있다 문제는 저 행을 프레임 안으로 넣어야하는데, 제일 처음 csv 파일을 url 변수에 담아줄때 headers 라는 변수에 리스트를 담아준 값을 호출하면 될것같다. df 라는 변수안에 csv 파일을 read 할 파일과 헤더를 같이 불러온다 다음과 같이 리스트로 만들어진 값이 데이터프레임 위에 들어간 것을 볼 수 있다.
-
시작코드스테이츠/daily 2022. 3. 28. 13:17
디스코드를 통해 모든 소통이 이루어진다. 개강 전날인 일요일부터 휴대폰 알림이 오기시작하니 드디어 개강이 다가오고있구나 라고 느꼇다. 월요일 새벽부터 디스코드 알림이 울렸다. 강의자료가 올라오는 '유어클래스' 에 로그인이 06:00 부터 가능하다 하였는데, 로그인 시 카카오톡 로그인완료 알림(출석체크)을 위한 인증 관련 오류관련 질문이었다. 코드스테이츠는 서버문제로 인한 오류라며 곧바로 대처해주었다. 출석체크는 10:00 까지로 인정을 해주는것같았다. 캘린더의 예정대로 09:00 부터 10:00 까지 Zoom 을 통해 사전에 유어클래스로 봤던 자료를 통해 OT 를 진행하였고, 현재는 곧바로 다음 시간인 유어클래스로 Session 강의를 시정하고 있다. 과정은 '구름' 과 비슷한것 같다. 이론 글을 먼저 ..
-
결측치란? (Feat.Pandas)Data Analysis & EDA 2022. 3. 25. 23:06
공공데이터를 가져와 실습하는 도중 항상 결측치를 확인하는 과정을 거치곤 했다. 결측치란? 데이터에 값이 없는 것을 뜻한다. 줄여서 NaN 라고도 하고, Null 이라는 표현도 쓴다. 우선 isnull 이라는 함수로 데이터를 확인해보자. 위와 같이 isnull 만 실행시켰을때의 값은 True 또는 False를 출력하기 때문에 결측치가 없다면 모든 값이 False, 결측치가 존재한다면 True 라고 한다. 중간에 ... 으로 생략된 부분도 확인이 필요하기에 전체 데이터에서 결측치의 개수를 확인하는 sum 함수로 개수를 확인한다. 구한 결측치의 값은 위와 같았다. 44, 447 은 무엇이며 나머지는 왜 0 인지 궁금해졌다. 이는 말 그대로 0 인 부분은 결측치가 없는 것이고, 숫자가 있는 품목 이름과 비고는 ..
-
데이터 로드 중 인코딩 관련 에러Data Analysis & EDA 2022. 3. 24. 20:29
공공데이터를 불러오는 과정에서 아래와 같은 오류가 발생했다. ParserEroor: Error tokenlzing data. C error: Expected 14 fields in line 1273, saw 15 구글링을 해 보니 몇번째 열, 행 에서 오류가 발생한 듯 했다. 데이터가 그리 크지 않아 직접 실행하여 눈으로 확인해봐야겠다. 한글이 깨져서 오류가 발생한듯 했다. 한글이 깨졌을 경우 파일을 유니코드(UTF-8) 로 다시 저장하여 인코딩을 해 주면 된다고 한다. 위의 과정은 https://m.blog.naver.com/PostView.nhn?blogId=rbamtori&logNo=220744768992&proxyReferer=https:%2F%2Fwww.google.com%2F Excel(엑셀)..