1. INTRODUCTION

데이터 마이닝이란?

큰 데이터에서 숨겨진 패턴이나 , 지식을 찾는 과정.

데이터 마이닝의 4가지 주요기능

-classification (모델찾기)

-association analysis (연관성, 빈발패턴 찾기)

-clustering (그룹화)

-anomaly detection (이상한 놈 찾기)

※하지만 모든 정보찾기 기술을 datamining이라고 하지는 않는다. >> 데이터마이닝은 고수준의 지식찾기, 지식발견

데이터 마이닝은 KDD(Knowledge discovery in database)의 과정 중 필수 부분이다.

KDD의 process :

data preprocessing 이란 : raw input을 분석하기 적적한 포맷으로 변환 (ex: 데이터 fusing, cleaning data, 데이터마이닝과 무관한 것 제외하기) //KDD에서 가장 힘들고 오래걸림.

postprocessing 이란? : 데이터마이닝 까지 끝난 정리된 결과를 유용한 것만 보여준다.(ex: 시각화, 가설검증)

데이터 마이닝을 왜 해야 하는가?

1. scalability(확장성) // massive data set

2. high dimensionality(높은 차원 ->차원의 저주 피하기 위해)

3. heterogeneous data(이종 데이터) // 데이터의 포맷이 다 다르기 때문에

4. data distribution // 데이터를 다양한 경로로 분배하기 위해

※(데이터가 너무 커서 기존 방식으로는 어렵다)

+데이터 마이닝은 다양한 분야에서 적용되고 있다.

데이터 사이언스와 데이터 마이닝의 차이점 (data science vs data mining)

-DS : computer science + domain knowledge + math and statistics의 교집합.

-DM : Dataset에서 useful한 패천 찾기.

데이터마이닝의 2개의 큰 카테고리 & 4개의 core tasks

-1.classfication (모델만들기) 주어진 데이터가 어느 class인가?

-2.anomaly detection (주변얘들이랑 유난히 다른 값 고르기) 모든 점들과의 거리가 멀거나, 주변밀도가 낮은얘.

-2.anomaly detection (predictive 이면서 동시에 descriptive)

-3.association analysis (데이터내에서 강하가 연관된 item 들의 패턴 찾기)

-4.cluster analysis (비슷한 얘들끼리 묶어, 다른 얘들끼리는 밀어내)

※anomaly detection과 cluster analysis는 분명히 다르다.

Hello_Worldcup