둘째마당 5

[둘째마당_본격실습! 데이터 갖고 놀기] 08 그래프 만들기

데이터를 그래프로 표현하면 특징을 쉽게 이해할 수 있음. 이 장에서는 그래프를 만드는 방법을 익힘.08-1 파이썬으로 만들 수 있는 그래프 살펴보기데이터를 보기 쉽게 그림으로 표현한 것을 그래프(graph)라고 함. 데이터 원자료나 통계표는 수많은 숫자와 문자로 구성되어 있어 내용을 파악하기 어려움. 데이터를 그래프로 표현하면 추세와 경향성이 드러나기 때문에 특징을 쉽게 이해할 수 있고, 그래프를 만드는 과정에서 새로운 패턴을 발견하기도 함. 특히 분석 결과를 발표할 때 그래프를 활용하면 데이터의 특징을 잘 전달할 수 있음. 파이썬으로 어떤 그래프를 만들 수 있을까?파이썬을 이용하면 다양한 그래프를 만들 수 있음. 파이썬에는 2차원 그래프뿐만 아니라 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에..

[둘째마당_본격실습! 데이터 갖고 놀기] 07 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기

현장에서 만들어진 실제 데이터는 오류를 포함하고 있기 때문에 분석하기 전에 수정부터 해야 함. 이 장에서는 데이터의 오류를 찾아 정제하는 방법을 익힘.07-1 빠진 데이터를 찾아라! - 결측치 정제하기결측치(missing value)는 누락된 값, 비어 있는 값을 의미함. 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류 때문에 결측치가 포함되어 있을 때가 많음. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생함. 앞에서 사용한 예제 데이터들은 결측치가 없기 때문에 바로 분석했지만 실제 데이터를 분석할 때는 결측치가 있는지 확인해 제거하는 정제 과정을 거친 다음 분석해야 함. [Do it! 실습] 결측치 찾기결측치를 제거하는 방법을 알아보겠음. 먼저 결측치가 포함된 데이..

[둘째마당_본격실습! 데이터 갖고 놀기] 06 자유자재로 데이터 가공하기

데이터를 분석하려면 데이터를 자유자재로 다룰 수 있어야 함. 이 장에서는 데이터를 추줄하거나 여러 데이터를 합치는 등 데이터를 가공하는 방법을 익힘.06-1 데이터 전처리 - 원하는 형태로 데이터 가공하기주어진 데이터를 그대로 사용하기보다 원하는 형태로 변형해 분석할 때가 많음. 분석에 적합하게 데이터를 가공하는 작업을 데이터 전처리(data preprocessing)라고 함. 일부를 추출하거나 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있음.Tip) 데이터 가공(data manipulation), 데이터 핸들링(data handling), 데이터 랭글링(data wrangling), 데이터 먼징(data munging) 등의 용어도 데이터 전..

[둘째마당_본격실습! 데이터 갖고 놀기] 05 데이터 분석 기초! - 데이터파악하기, 다루기 쉽게 수정하기

분석할 데이터를 확보하면 가장 먼저 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 해야 함.이 장에서는 데이터를 다루는 기초적인 방법을 익힘.05-1 데이터 파악하기데이터가 주어졌을 때 가장 먼저 하는 일은 데이터의 전반적인 구조를 파악하는 것임.어떤 변수들이 있는지, 몇 행으로 구성되는 지 구조를 살펴보면서 데이터의 특징이 어떠한지 감을 잡음.이 과정에서 분석 방향의 힌트를 얻게 됨. 데이터를 파악할 때 사용하는 명령어데이터를 파악할 때는 기본적으로 다음 여섯 가지 명령어를 사용함.함수기능head()앞부분 출력tail()뒷부분 출력shape행, 열 개수 출력info()변수 속성 출력describe()요약 통계량 출력4장에서 사용한 exam.csv파일을 활용해 데이터를 파악하는 방법을 알아보겠음...

[둘째마당_본격실습! 데이터 갖고 놀기] 04 데이터 프레임의 세계로

이 장에서는 가장 많이 사용하는 데이터 형태인 ‘데이터 프레임’을 살펴봄. 데이터 프레임을 만들고, 저장하고, 외부에서 생성된 데이터를 불러와 데이터 프레임으로 변환하는 방법을 익혀 보겠음.04-1 데이터 프레임 이해하기 – 데이터는 어떻게 생겼나?데이터 프레임(data frame)은 데이터를 다룰 때 가장 많이 사용하는 데이터 형태로, 행과 열로 구성된 사각형 모양의 표처럼 생겼음. 어떤 기업에서 연봉에 영향을 미치는 요인을 파악하기 위해 직원을 대상으로 조사했다고 가정해 보겠음. 조사 결과를 다음처럼 표로 정리했음이 표는 열 4개와 행 3개로 구성된 데이터 프레임임. 열은 성별, 연령, 학점, 연봉의 4가지 속성으로 되어 있음. 행은 3개이므로 3명의 정보가 정보를 담고 있음. 이 표는 ‘4개으이 속..