Numpy 3

[다섯째마당_데이터 과학의 세계] 14 통계 분석 기법을 이용한 가설 검정

통계 분석 기법을 이용해 가설을 검정하는 방법을 알아봄.14-1 가설 검정이란?기술 통계와 추론 통계통계 분석은 기술 통계와 추론 통계로 나눌 수 있음. 데이터를 요약해 설명하는 통계 분석 기법을 기술 통계(descriptive statistics)라고 함. 예를 들어 사람들이 받는 월급을 집계해 전체 월급 평균을 구한다면 이는 '기술 통계 분석'임.추론 통계(inferential statistics)는 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 분석 기법임. 예를 들어 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런 차이가 우연히 발생할 확률을 계산함. 만약 이런 차이가 우연히 나타날 확률이 작다면 성별에 따른 월급 차이가 통계적으로 유의하다(stat..

[넷째마당_다양한 데이터 분석의 세계] 10 텍스트 마이닝

문자로 된 데이터에서 가치 있는 정보를 얻어 내는 텍스트 마이닝을 알아보자.10-1 대통령 연설문 텍스트 마이닝문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법을 텍스트 마이닝(text mining)이라고 함. 텍스트 마이닝을 할 때 가장 먼저 하는 작업은 문장을 구성하는 어절들이 어떤 품사인지 파악하는 형태소 분석(morphology analysis)임. 형태소 분석으로 어절의 품사를 파악한 다음 명사, 동사, 형태소 등 의미를 지닌 품사를 추출해 어떤 단어가 얼마나 많이 사용됐는지 확인함. 텍스트 마이닝을 이용해 SNS나 웹 사이트에 올라온 글을 분석하는 사람들이 어떤 이야기를 나누고 있는지 파악할 수 있음.문재인 대통령의 출마 선언문을 이용해 텍스트 마이닝을 하는 방법을 알아보겠음. 대통..

[둘째마당_본격실습! 데이터 갖고 놀기] 07 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기

현장에서 만들어진 실제 데이터는 오류를 포함하고 있기 때문에 분석하기 전에 수정부터 해야 함. 이 장에서는 데이터의 오류를 찾아 정제하는 방법을 익힘.07-1 빠진 데이터를 찾아라! - 결측치 정제하기결측치(missing value)는 누락된 값, 비어 있는 값을 의미함. 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류 때문에 결측치가 포함되어 있을 때가 많음. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생함. 앞에서 사용한 예제 데이터들은 결측치가 없기 때문에 바로 분석했지만 실제 데이터를 분석할 때는 결측치가 있는지 확인해 제거하는 정제 과정을 거친 다음 분석해야 함. [Do it! 실습] 결측치 찾기결측치를 제거하는 방법을 알아보겠음. 먼저 결측치가 포함된 데이..