데이터 마이닝이란?
큰 데이터에서 숨겨진 패턴이나 , 지식을 찾는 과정.
데이터 마이닝의 4가지 주요기능
-classification (모델찾기)
-association analysis (연관성, 빈발패턴 찾기)
-clustering (그룹화)
-anomaly detection (이상한 놈 찾기)
※하지만 모든 정보찾기 기술을 datamining이라고 하지는 않는다. >> 데이터마이닝은 고수준의 지식찾기, 지식발견
데이터 마이닝은 KDD(Knowledge discovery in database)의 과정 중 필수 부분이다.
KDD의 process :
data preprocessing 이란 : raw input을 분석하기 적적한 포맷으로 변환 (ex: 데이터 fusing, cleaning data, 데이터마이닝과 무관한 것 제외하기) //KDD에서 가장 힘들고 오래걸림.
postprocessing 이란? : 데이터마이닝 까지 끝난 정리된 결과를 유용한 것만 보여준다.(ex: 시각화, 가설검증)
데이터 마이닝을 왜 해야 하는가?
1. scalability(확장성) // massive data set
2. high dimensionality(높은 차원 ->차원의 저주 피하기 위해)
3. heterogeneous data(이종 데이터) // 데이터의 포맷이 다 다르기 때문에
4. data distribution // 데이터를 다양한 경로로 분배하기 위해
※(데이터가 너무 커서 기존 방식으로는 어렵다)
+데이터 마이닝은 다양한 분야에서 적용되고 있다.
데이터 사이언스와 데이터 마이닝의 차이점 (data science vs data mining)
-DS : computer science + domain knowledge + math and statistics의 교집합.
-DM : Dataset에서 useful한 패천 찾기.
데이터마이닝의 2개의 큰 카테고리 & 4개의 core tasks
- predictive task. (기존 attribute의 값으로 특정 attribute의 값 예측) 기존값으로 예측
-1.classfication (모델만들기) 주어진 데이터가 어느 class인가?
-2.anomaly detection (주변얘들이랑 유난히 다른 값 고르기) 모든 점들과의 거리가 멀거나, 주변밀도가 낮은얘.
- descriptive tasks. (데이터에 놓여진 관계를 요약한 패턴찾기) 데이터를 이해 , 묘사
-2.anomaly detection (predictive 이면서 동시에 descriptive)
-3.association analysis (데이터내에서 강하가 연관된 item 들의 패턴 찾기)
-4.cluster analysis (비슷한 얘들끼리 묶어, 다른 얘들끼리는 밀어내)
※anomaly detection과 cluster analysis는 분명히 다르다.