본문 바로가기
프로그래밍/하루하루

빅데이터 4

by Luhie 2017. 7. 27.

3등석의 어른은 죽었다 그래서 3등석의 어린이는 살았다? 


절대 흑백논리로 보이지 않는 것을 예측 분석하면 안된다.


타이타닉 분석








EBS 자본주의 꼭 볼것 !


ctree rpart 는 중심값을 가지고 분류

The k-Nearest Neighbor Algorithm

입력이 특징 공간 내 k개의 가장 가까운 훈련 데이터로 구성데이터를 분류하는데 유용하게 사용하는 알고리즘

주어진 훈련 집합의 레코드와 비교하여 가장 밀접한 k개의 레코드를 기반으로 새로운 데이터를 분류하는 알고리즘

밀접한 정도는 Euclidean distance를 사용하여 계산


장점

높은 정확도, 오류 데이터(outlier)에 둔감,  데이터에 대한 가정이 없음

단점

계산 비용이 높음, 많은 메모리 요구


군집에서는 


3명 | 2명

|

정 가운데 서있다면, 3명에 포함된다 하지만 2명에 0.1이라도 움직인다면 2명에 포함된다. 알고리즘!!!!!!!!!!!!


마케팅 -타겟 마케팅-> 군집


'프로그래밍 > 하루하루' 카테고리의 다른 글

빅데이터 5  (0) 2017.07.28
빅데이터 3  (0) 2017.07.26
빅데이터 2  (2) 2017.07.25