BigData.7z



영화 마이너리티 리포트 한번보기!


분류 Classfication


데이터분석은 인문학적 소양이 매우 필요하다.

기술로만은 불가능 하다. 

암이었다가 암이 아닌 모델이 훨씬 더 좋은 모델이라고 한다. 


1. 각 데이터의 표준화 필요

2. 분류의 결과가 악성이나 양성

id값이 필요한 이유 A란 사람의 생활패턴이 필요




2~4 = 1~ 10


0.2 -0.2 0.4-0.2 0.4-0.3

------ 0 ------ 1 ------ 0.5

0.4-0.2 0.4-0.2 0.4-0.2



최대값 -a a - 최대값

--------- 현 위치 ---------

최대값-최소값 최대값 - 최소값


2 - 5 -3 5-1 4

---- ---- ---- ---

2 - 1    1 2-1 1



0.4-0.3 0.1 0.3-0.2 -0.2

--- -- ------ ----

0.4-0.2 0.2 0.4-0.2 0.2



(max(x) -min(x)) - (max(x)-x)

-------------------------

max(x) - min(x)



군집 분석 (Cluster Analysis)

그룹으로 묶어서 

다수의 대상(소비자, 제품, 기타)들 그들이 소유하는 특성을 토대로 유사한 대상들끼리 그룹핑

군집내의 구성원들은 가그벅 유사하게, 군집들간에는 가그벅 상이하게 대상을 그룹핑


시장세분화, 유사브랜드 그룹핑 -> 어느 브랜드와 직접적 경쟁관계에 있는지 알 수 있음


k-means 군집화

--

--



저작자 표시 비영리 변경 금지
신고

'프로그래밍 > 하루하루' 카테고리의 다른 글

빅데이터 5  (0) 2017.07.28
빅데이터 4  (0) 2017.07.27
빅데이터 3  (0) 2017.07.26
빅데이터 2  (2) 2017.07.25
블로그 이미지

enujo

그냥저냥.

댓글

3등석의 어른은 죽었다 그래서 3등석의 어린이는 살았다? 


절대 흑백논리로 보이지 않는 것을 예측 분석하면 안된다.


타이타닉 분석








EBS 자본주의 꼭 볼것 !


ctree rpart 는 중심값을 가지고 분류

The k-Nearest Neighbor Algorithm

입력이 특징 공간 내 k개의 가장 가까운 훈련 데이터로 구성데이터를 분류하는데 유용하게 사용하는 알고리즘

주어진 훈련 집합의 레코드와 비교하여 가장 밀접한 k개의 레코드를 기반으로 새로운 데이터를 분류하는 알고리즘

밀접한 정도는 Euclidean distance를 사용하여 계산


장점

높은 정확도, 오류 데이터(outlier)에 둔감,  데이터에 대한 가정이 없음

단점

계산 비용이 높음, 많은 메모리 요구


군집에서는 


3명 | 2명

|

정 가운데 서있다면, 3명에 포함된다 하지만 2명에 0.1이라도 움직인다면 2명에 포함된다. 알고리즘!!!!!!!!!!!!


마케팅 -타겟 마케팅-> 군집


저작자 표시 비영리 변경 금지
신고

'프로그래밍 > 하루하루' 카테고리의 다른 글

빅데이터 5  (0) 2017.07.28
빅데이터 4  (0) 2017.07.27
빅데이터 3  (0) 2017.07.26
빅데이터 2  (2) 2017.07.25
블로그 이미지

enujo

그냥저냥.

댓글

하삼각 / 상삼각 행렬들 예

빅데이터에 꼭 필요한것 정수론 


apply()군 함수


리스트

서로 다른 데이터 형의 집합을 정의할 필요가 있을 때 사용할 수 있는 데이터 객체

벡터가 서로 같은 데이터 형으로 구성된다면, 리스트는 서로다른 데이터 형으로 구성된 객체


unlist()

lapply()

sapply()



데이터 프레임


데이터마이닝 ? 통계에서는 기본적으로 유의미한 시점을 지나가면 데이터를 버린다

데이터 에선 버리지 않는다 하지만 관련된 의미가 없으면 그때 버리지 미리 버리진 않는다


연관규칙(Association Rule)

임의 데이터에서 어떤 데이터의 발생을 예측하는 규칙

데이터 간의 연관성 및 상관관계를 표한하는 규칙

A -> B (A와 B는 데이터의 부분집합)

A를  left-hand-side, B를 right-hand-side라 지칭

적용분야

백화점이나 수퍼마켓에서의 소비자 구매 행태 분석

관계형 데이터베이스 시스템에서 연관 규칙 탐사

WWW등에서 사용자 접근 패턴 분석




support A와 B를 모두 포함하는 경우의 확률

Confidence A를 포함하는 경우에 B를 포함한 경우의 확률

데이터 마이닝을 태동시켰다 -> 없었으면 분석이 어렵다. 왜 ? 통계는 반복 (버려지는게 없다) 

마이닝 툴을 사용하면 내가 원하는 것만 컨트롤 할 수 있다.

토정비결은 -> 통계적 수치 순수하게!

연관규칙을 사람에 붙이면 ~~? 좋아하는 스타일이 항상 같다 


연관규칙 : 연관검색어/무언가 있으면 비가온다/옆사람의 이름이 기억안나면 옆사람을 연관하여/송준기 -> 송혜교/송혜교->


송준기


연관검색으로 가장 피해보는사람 -> 연예인?


csv csv 각각의 컴마로 구조화 되어있는 파일 txt파일은 구조화 X


데이터 분석

read.transaction()

파일로부터 트랜잭션 형태로 로딩하는 함수

read.transaction(file="파일명", format="basket | single", seq="구분자"

Arules 패키지 내에서 데이터는 트랜잭션으로 처리하는데 read.transaction()을 사용하여 파일로부터 트랜잭션 형태로 데이터를 로딩

Inspect()

트랜잭션 데이터의 내용을 출력하는 함수

apriori()



분석 !!!!!!!!!


저작자 표시 비영리 변경 금지
신고

'프로그래밍 > 하루하루' 카테고리의 다른 글

빅데이터 4  (0) 2017.07.27
빅데이터 3  (0) 2017.07.26
빅데이터 2  (2) 2017.07.25
데이터베이스 1  (0) 2017.07.24
블로그 이미지

enujo

그냥저냥.

댓글

티스토리 툴바