본문 바로가기

공부/데이터 마이닝 및 분석

1. INTRODUCTION

데이터 마이닝이란?

         큰 데이터에서 숨겨진 패턴이나 , 지식을 찾는 과정.

 

데이터 마이닝의 4가지 주요기능

         -classification (모델찾기)

         -association analysis (연관성, 빈발패턴 찾기)

         -clustering (그룹화)

         -anomaly detection (이상한 놈 찾기)

 

※하지만 모든 정보찾기 기술을 datamining이라고 하지는 않는다. >> 데이터마이닝은 고수준의 지식찾기, 지식발견

 

데이터 마이닝은 KDD(Knowledge discovery in database)의 과정 중 필수 부분이다.

 

KDD의 process :

 

data preprocessing 이란 : raw input을 분석하기 적적한 포맷으로 변환 (ex: 데이터 fusing, cleaning data, 데이터마이닝과 무관한 것 제외하기) //KDD에서 가장 힘들고 오래걸림.

 

postprocessing 이란? : 데이터마이닝 까지 끝난 정리된 결과를 유용한 것만 보여준다.(ex: 시각화, 가설검증)

 

 

데이터 마이닝을 왜 해야 하는가? 

         1. scalability(확장성) // massive data set

         2. high dimensionality(높은 차원 ->차원의 저주 피하기 위해)

         3. heterogeneous data(이종 데이터) // 데이터의 포맷이 다 다르기 때문에

         4. data distribution // 데이터를 다양한 경로로 분배하기 위해

(데이터가 너무 커서 기존 방식으로는 어렵다)

 

+데이터 마이닝은 다양한 분야에서 적용되고 있다.

 

데이터 사이언스와 데이터 마이닝의 차이점 (data science vs data mining)

         -DS :  computer science + domain knowledge + math and statistics의 교집합.

         -DM : Dataset에서 useful한 패천 찾기.

 

데이터마이닝의 2개의 큰 카테고리 & 4개의 core tasks

 

  • predictive task. (기존 attribute의 값으로 특정 attribute의 값 예측) 기존값으로 예측

         -1.classfication (모델만들기) 주어진 데이터가 어느 class인가?

         -2.anomaly detection (주변얘들이랑 유난히 다른 값 고르기) 모든 점들과의 거리가 멀거나, 주변밀도가 낮은얘.

  • descriptive tasks. (데이터에 놓여진 관계를 요약한 패턴찾기) 데이터를 이해 , 묘사

         -2.anomaly detection (predictive 이면서 동시에 descriptive)

         -3.association analysis (데이터내에서 강하가 연관된 item 들의 패턴 찾기)

         -4.cluster analysis (비슷한 얘들끼리 묶어, 다른 얘들끼리는 밀어내)

 

※anomaly detection과 cluster analysis는 분명히 다르다.