데이터분석 10

[넷째마당_다양한 데이터 분석의 세계] 11 지도 시각화

지역별 특징을 지도에 색깔로 표현한 단계 구분도를 만드는 방법을 알아봄.11-1 시군구별 인구 단계 구분도 만들기지역별 통계치를 색깔 차이로 표현한 지도를 단계 구분도(choropleth map)라고 함. 단계 구분도를 만들면 인구나 소득 같은 통계치가 지역별로 어떻게 다른지 쉽게 이해할 수 있음. 시군구별 인구 데이터를 이용해 단계 구분도를 만들어 보겠음.import jsongeo = json.load(open('SIG.geojson', encoding = 'UTF-8'))tip) json.load()로 GeoJSON 파일을 불러오려면 open()을 이용해 파일을 열어야 함.tip) GeoJSON은 위치 정보를 JSON 포맷으로 저장한 표준 지리 정보 데이터 포맷임. 지리 정보 데이터를 다루는 대부분의..

[넷째마당_다양한 데이터 분석의 세계] 10 텍스트 마이닝

문자로 된 데이터에서 가치 있는 정보를 얻어 내는 텍스트 마이닝을 알아보자.10-1 대통령 연설문 텍스트 마이닝문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법을 텍스트 마이닝(text mining)이라고 함. 텍스트 마이닝을 할 때 가장 먼저 하는 작업은 문장을 구성하는 어절들이 어떤 품사인지 파악하는 형태소 분석(morphology analysis)임. 형태소 분석으로 어절의 품사를 파악한 다음 명사, 동사, 형태소 등 의미를 지닌 품사를 추출해 어떤 단어가 얼마나 많이 사용됐는지 확인함. 텍스트 마이닝을 이용해 SNS나 웹 사이트에 올라온 글을 분석하는 사람들이 어떤 이야기를 나누고 있는지 파악할 수 있음.문재인 대통령의 출마 선언문을 이용해 텍스트 마이닝을 하는 방법을 알아보겠음. 대통..

[셋째마당_실전! 데이터 분석 프로젝트] 09 데이터 분석 프로젝트 - 한국인의 삶을 파악하라!

대한민국 사람들은 어떻게 살아가고 있을까? 데이터를 분석해 낱낱이 파헤쳐보자.09-1 '한국복지패널 데이터' 분석 준비하기분석 기술을 익혔으니 실제 데이터 분석해 보겠음. 실습에는 '한국복지패널 데이터'를 이용하겠음.한국복지패널 데이터는 한국보건사회연구원에서 우리나라 가구의 경제활동을 연구해 복지 정책에 반영할 목적으로 발간하는 조사 자료임. 전국에서 7,000여 가구를 선정해 2006년부터 매년 추적 조사한 자료로, 경제활동, 생활상태, 복지욕구 등 천여 개 변수로 구성되어 있음. 다양한 분야의 연구자와 정책전문자들이 복지패널 데이터를 활용해 논문과 연구보고서를 발표하고 있음.복지패널 데이터는 엄밀한 절차를 따라 수집되었고 다양한 변수를 담고 있으므로 데이터 분석 기술을 연습하는데 훌륭한 재료임. 데이..

[둘째마당_본격실습! 데이터 갖고 놀기] 08 그래프 만들기

데이터를 그래프로 표현하면 특징을 쉽게 이해할 수 있음. 이 장에서는 그래프를 만드는 방법을 익힘.08-1 파이썬으로 만들 수 있는 그래프 살펴보기데이터를 보기 쉽게 그림으로 표현한 것을 그래프(graph)라고 함. 데이터 원자료나 통계표는 수많은 숫자와 문자로 구성되어 있어 내용을 파악하기 어려움. 데이터를 그래프로 표현하면 추세와 경향성이 드러나기 때문에 특징을 쉽게 이해할 수 있고, 그래프를 만드는 과정에서 새로운 패턴을 발견하기도 함. 특히 분석 결과를 발표할 때 그래프를 활용하면 데이터의 특징을 잘 전달할 수 있음. 파이썬으로 어떤 그래프를 만들 수 있을까?파이썬을 이용하면 다양한 그래프를 만들 수 있음. 파이썬에는 2차원 그래프뿐만 아니라 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에..

[둘째마당_본격실습! 데이터 갖고 놀기] 07 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기

현장에서 만들어진 실제 데이터는 오류를 포함하고 있기 때문에 분석하기 전에 수정부터 해야 함. 이 장에서는 데이터의 오류를 찾아 정제하는 방법을 익힘.07-1 빠진 데이터를 찾아라! - 결측치 정제하기결측치(missing value)는 누락된 값, 비어 있는 값을 의미함. 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류 때문에 결측치가 포함되어 있을 때가 많음. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생함. 앞에서 사용한 예제 데이터들은 결측치가 없기 때문에 바로 분석했지만 실제 데이터를 분석할 때는 결측치가 있는지 확인해 제거하는 정제 과정을 거친 다음 분석해야 함. [Do it! 실습] 결측치 찾기결측치를 제거하는 방법을 알아보겠음. 먼저 결측치가 포함된 데이..

[둘째마당_본격실습! 데이터 갖고 놀기] 06 자유자재로 데이터 가공하기

데이터를 분석하려면 데이터를 자유자재로 다룰 수 있어야 함. 이 장에서는 데이터를 추줄하거나 여러 데이터를 합치는 등 데이터를 가공하는 방법을 익힘.06-1 데이터 전처리 - 원하는 형태로 데이터 가공하기주어진 데이터를 그대로 사용하기보다 원하는 형태로 변형해 분석할 때가 많음. 분석에 적합하게 데이터를 가공하는 작업을 데이터 전처리(data preprocessing)라고 함. 일부를 추출하거나 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있음.Tip) 데이터 가공(data manipulation), 데이터 핸들링(data handling), 데이터 랭글링(data wrangling), 데이터 먼징(data munging) 등의 용어도 데이터 전..

[둘째마당_본격실습! 데이터 갖고 놀기] 05 데이터 분석 기초! - 데이터파악하기, 다루기 쉽게 수정하기

분석할 데이터를 확보하면 가장 먼저 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 해야 함.이 장에서는 데이터를 다루는 기초적인 방법을 익힘.05-1 데이터 파악하기데이터가 주어졌을 때 가장 먼저 하는 일은 데이터의 전반적인 구조를 파악하는 것임.어떤 변수들이 있는지, 몇 행으로 구성되는 지 구조를 살펴보면서 데이터의 특징이 어떠한지 감을 잡음.이 과정에서 분석 방향의 힌트를 얻게 됨. 데이터를 파악할 때 사용하는 명령어데이터를 파악할 때는 기본적으로 다음 여섯 가지 명령어를 사용함.함수기능head()앞부분 출력tail()뒷부분 출력shape행, 열 개수 출력info()변수 속성 출력describe()요약 통계량 출력4장에서 사용한 exam.csv파일을 활용해 데이터를 파악하는 방법을 알아보겠음...

[둘째마당_본격실습! 데이터 갖고 놀기] 04 데이터 프레임의 세계로

이 장에서는 가장 많이 사용하는 데이터 형태인 ‘데이터 프레임’을 살펴봄. 데이터 프레임을 만들고, 저장하고, 외부에서 생성된 데이터를 불러와 데이터 프레임으로 변환하는 방법을 익혀 보겠음.04-1 데이터 프레임 이해하기 – 데이터는 어떻게 생겼나?데이터 프레임(data frame)은 데이터를 다룰 때 가장 많이 사용하는 데이터 형태로, 행과 열로 구성된 사각형 모양의 표처럼 생겼음. 어떤 기업에서 연봉에 영향을 미치는 요인을 파악하기 위해 직원을 대상으로 조사했다고 가정해 보겠음. 조사 결과를 다음처럼 표로 정리했음이 표는 열 4개와 행 3개로 구성된 데이터 프레임임. 열은 성별, 연령, 학점, 연봉의 4가지 속성으로 되어 있음. 행은 3개이므로 3명의 정보가 정보를 담고 있음. 이 표는 ‘4개으이 속..

[첫째마당_파이썬이랑 친해지기] 03 데이터 분석에 필요한 연장 챙기기

03-1 변하는 수, ‘변수’ 이해하기변수상수소득성별학점국적1,000만 원남자3.8대한민국2,000만 원남자4.2대한민국3,000만 원여자2.6대한민국4,000만 원여자4.5대한민국 변수는 ‘변하는 수’다변수 : 다양한 값을 지닌 하나의 속성데이터: 변수들의 덩어리 변수는 데이터 분석의 대상데이터 분석: 변수간에 어떤 관계가 있는지 파악하는 작업데이터를 이용하면 성별에 따라 소득과 학점에 차이가 있는지, 학점과 소득은 어떤 관계가 있는지 분석할 수 있음 상수는 분석할 게 없다상수: 하나의 값으로만 되어 있는 속성ex) 국적은 다른 속성과 달리 ‘대한민국’이라는 고정된 값을 지님상수는 변수와 달리 분석 대상이 될 수 없음(이 데이터는 모든 사람의 국적이 같으므로 국적에 따른 소득 차이나 남녀 비율을 분석할..

[첫째마당_파이썬이랑 친해지기] 01 안녕, 파이썬?

01-1 데이터 분석과 파이썬 데이터 분석 분야에서 인기 있는 파이썬 파이썬은 데이터를 분석하는데 많이 사용되는 프로그래밍 언어기업. 학계, 언론 등 다양한 분야의 데이터 분석가들이 파이썬을 사용하고 있고, 이제 막 데이터 분석 공부를 시작한 입문자들도 파이썬을 익히고 있음파이썬은 수많은 데이터 분석 도구들 사이에서 큰 인기를 끌고 있으며 점유율도 계속 늘고 있음 파이썬은 어디에 쓰나요?많은 사람이 파이썬을 사용하는 가장 큰 이유는 파이썬으로 할 수 있는 일이 매우 다양하기 때문파이썬은 범용 도구이기 때문에 파이썬 하나만 잘 다뤄도 어떤 형태의 데이터든 자유롭게 분석할 수 있음 통계 분석데이터의 특징을 살펴보는 기초 통계 분석부터 가설 검증을 하는데 사용하는 고급 통계 분석 기법에 이르기까지 다양한 통계..