데이터프레임 3

[둘째마당_본격실습! 데이터 갖고 놀기] 06 자유자재로 데이터 가공하기

데이터를 분석하려면 데이터를 자유자재로 다룰 수 있어야 함. 이 장에서는 데이터를 추줄하거나 여러 데이터를 합치는 등 데이터를 가공하는 방법을 익힘.06-1 데이터 전처리 - 원하는 형태로 데이터 가공하기주어진 데이터를 그대로 사용하기보다 원하는 형태로 변형해 분석할 때가 많음. 분석에 적합하게 데이터를 가공하는 작업을 데이터 전처리(data preprocessing)라고 함. 일부를 추출하거나 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있음.Tip) 데이터 가공(data manipulation), 데이터 핸들링(data handling), 데이터 랭글링(data wrangling), 데이터 먼징(data munging) 등의 용어도 데이터 전..

[둘째마당_본격실습! 데이터 갖고 놀기] 05 데이터 분석 기초! - 데이터파악하기, 다루기 쉽게 수정하기

분석할 데이터를 확보하면 가장 먼저 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 해야 함.이 장에서는 데이터를 다루는 기초적인 방법을 익힘.05-1 데이터 파악하기데이터가 주어졌을 때 가장 먼저 하는 일은 데이터의 전반적인 구조를 파악하는 것임.어떤 변수들이 있는지, 몇 행으로 구성되는 지 구조를 살펴보면서 데이터의 특징이 어떠한지 감을 잡음.이 과정에서 분석 방향의 힌트를 얻게 됨. 데이터를 파악할 때 사용하는 명령어데이터를 파악할 때는 기본적으로 다음 여섯 가지 명령어를 사용함.함수기능head()앞부분 출력tail()뒷부분 출력shape행, 열 개수 출력info()변수 속성 출력describe()요약 통계량 출력4장에서 사용한 exam.csv파일을 활용해 데이터를 파악하는 방법을 알아보겠음...

[둘째마당_본격실습! 데이터 갖고 놀기] 04 데이터 프레임의 세계로

이 장에서는 가장 많이 사용하는 데이터 형태인 ‘데이터 프레임’을 살펴봄. 데이터 프레임을 만들고, 저장하고, 외부에서 생성된 데이터를 불러와 데이터 프레임으로 변환하는 방법을 익혀 보겠음.04-1 데이터 프레임 이해하기 – 데이터는 어떻게 생겼나?데이터 프레임(data frame)은 데이터를 다룰 때 가장 많이 사용하는 데이터 형태로, 행과 열로 구성된 사각형 모양의 표처럼 생겼음. 어떤 기업에서 연봉에 영향을 미치는 요인을 파악하기 위해 직원을 대상으로 조사했다고 가정해 보겠음. 조사 결과를 다음처럼 표로 정리했음이 표는 열 4개와 행 3개로 구성된 데이터 프레임임. 열은 성별, 연령, 학점, 연봉의 4가지 속성으로 되어 있음. 행은 3개이므로 3명의 정보가 정보를 담고 있음. 이 표는 ‘4개으이 속..