경영에 붇이면 경영 빅데이터 의료에 붙이면 의료빅데이터
데이터를 이해하는 능력
데이터를 처리하는 능력
데이터에서 가치를 뽑아내는 능력(타고나는 것 같다)
데이터를 시각화하는 능력
데이터를 잘 전달하는 능력
데이터 사이언티스트
위키피디아
- 데이터 사이언스는 데이터 엔지리어링, 과학적 방법론, 수학, 통게학, 고급커퓨팅, 비주얼 라이제이션, 해커적 사
고방식, 영역별 전문지식을 종합한 학문
- 데이터 사이언티스트는 이러한 수행이 가능한자
가트너
- 분석, 다양한 경험, 팀 차원의 협력 등 그역할이 다양하고 복합적
NIA
- 데이터의 다각적 분석을 통해 조직의 전략방향을 제시하는 기획자이자 전략가
빅데이터 정의
데이터 규모 : 데이터 수집, 저장, ,관리 분석할 수 있는 역량을 넘어서는 규모의 데이터
업무 기술 : 다양한 종류의 대규모 데이ㅓ로부터 저렴한 비용으로 가치를 추출
인재,조직/ 데이터처리,축적,분석 기술 / 데이터 (정형데이터- 고객 데이터, 거래 데이터, 비정형 데이터 - 텍스트,
동영상, 음성)
공일공 - 거래는 없는데 거래를 하게되면 대부분 반품은 없다
빅데이터 요소
Volume(규모) 기업의 의사결정 능력을 향상시키는데 활용하는 데이터의 크기
Variety(다양성) 정형, 반정형, 비정형 데이터등의 다양한 종류의 데이터
Velocity(속도)
Veracity(정확성)
Value(가치)
처리 속도를 기술적으로 해결을 하겠다는것 -> 빅데이터
게임/가상화폐 ???
빅데이터를 어떻게 사용하지????
기획
- 데이터분석을 위한 창의적 사고와 분석적 마인드
- 탐색적 자료분석
분석
- 통계적 문제해결
-R 프로그램
- 데이터 마이닝 분석기술을 한 빅데이터 분석
기술
- 빅데이터 기반 플랫폼 : Hadoop
- 빅데이터 수집 : Stome & Spark
- 빅데이터 저장 및 관리 : NoSQL (MongoDb, Hbase, 카산드라)
월마트 귀저기 !
빅데이터로 가면서 데이터의 증가량을 컨트롤 할수 없다.
r이 실시간
정형데이터가 가장 좋다 의미가 정확하니깐
게임은 비정형 데이터가 좋다 /농업도 마찬가지
가장 좋은 정보는 36도 습도 몇이고 정확하게 쓰는것보단 느낌이 이정도라고 썻을땐 이정도의 온도 습도를 저장이 분석할때 좋
다
텍스트 마이닝
오피니언 마이닝 : 선호도 조사, 소셜미디어에 있는 긍정 부정 중립을 선호도를 판별 대표적으로 영화 선호도 하지만 한국은 정확
한 표현이 없어 사용하기 어렵다.
소셜 네트워크 분석 : 헤어짐 ..
분류분석
클러스터 분석
리얼리티 마이닝 : 기기를 사용하여 인간관계와 행동양태등을 추론하는 것, 통신사 통화량을 이용하는 것
감성 분석 : 128개 ? 외국에서 분석 -> 한국은 훨씬 많다.
R 프로그래밍
로스 이하카(Ross Ihaka(와 로버트 젠틀맨(Robert Gentlenman)
통계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경
객체지향 언어나 함서형 프로그래밍 언어에서 볼 수 있는 특징을 포함
spss 마이닝 툴은 가격 비쌈
spss 비쌈
그래픽 지원 비쌈
R이 그래픽을 지원
연산자 + - * / %% < > = 같다 치환(x <- 3)
비주얼 베이직은 1부터시작 R 도 1부터 시작된다 모든 인덱스는
벡터데이터 형식
행렬데이터 형식 (매트릭스)
R의 데이터 타입
벡터(Vector)
행렬과 배열
리스트
데이터 프레임
R의 데이터 Classes
Character 'a','good'숫자로
Numeric 12.3, 4, 199, 2017
Integer 2L, 12L
Complex 3+2i
Logical TRUE or FALSE
Raw 'a' 아스키코드
벡터, 행렬, 데이터프레임, 배열, 요인, 시게열, 리스트
# 현재 작업공간 위치확인 | |
# getwd() | |
# 작업공간 변경 | |
# setwd("D:\\BigData\\Source") | |
# for(i in 1:10){ print(i) } | |
# ------------------------------------------------------- | |
# 벡터데이터 형식 | |
# <- : 치환연산자 (값을 할당하는 기호) | |
# c() : 벡터 즉 데이터를 연결하여 벡터형데이터를 생성하는 함수 | |
# x 변수에 1,2,3의값을 갖는 벡터데이터 생성 | |
x <- c(1,2,3) | |
# x변수값 출력 | |
x | |
# y변수에 x변수값과 3으로 구성된 벡터데이터 생성 | |
y <- c(x,3) | |
# y변수값 출력 | |
y | |
# 행렬데이터 형식 | |
# matData변수에 1,2,3,4,5,6데이터를 요소로 갖고 행이 3개인 행렬을 생성 | |
matData <- matrix(c(1,2,3,4,5,6), nrow=3) | |
matData | |
# 콘솔창에서 데이터를 입력 받아서 벡터데이터 생성 : scan() | |
consoleData <- scan() | |
consoleData <- scan(what=character(0)) | |
# 출력결과를 지정한 파일에 출력하는 함수 | |
sink("D:\\BigData\\Source\\sinkOut.txt") | |
x | |
y | |
consoleData | |
matData | |
# 지정한 파일에 출력하는 것을 종료 sink() 호출 전까지 파일로 | |
sink() | |
x | |
y | |
consoleData | |
matData | |
벡터 관련 함수 알아보기 !
# getwd() | |
# setwd("E:\\BigData\\Source") | |
# 벡터 : R 에서 가장 기본 데이터형 | |
# 숫자형 벡터 생성 | |
numVec <- c(1,2,3,1:5) | |
# R에서 변수 값을 출력할때는 변수명만 쓰고 실행 | |
numVec | |
# 문자형 벡터 생성 | |
charVec <- c("a","b","c") | |
charVec | |
# height 변수는 사람의 키 값을 갖는 벡터 | |
height <- c(168, 158, 178) | |
height | |
# people변수는 사람 이름을 갖는 벡터 | |
people <- c("김은성","이정아","김찬영") | |
people | |
# 키 값에 사람이름으로 인덱스(구분)를 생성 | |
# names() : 벡터의 원소 각 값에 이름(구분자)을 생성하는 함수 | |
names(height) <- people | |
height | |
# 김은성 이정아 김찬영 | |
# 168 158 178 | |
height["김은성"] | |
height[1] | |
# 벡터 데이터형의 함수들 | |
# 테스트 데이터 x와 y | |
x<-c(1:10) # x는 1부터 10까지의 값 | |
x | |
y<-c(11:20) # y는 11부터 20까지의 값 | |
y | |
# rep() : Replicate를 의미 | |
# rep(값,반복회수) | |
z <- rep(c(1,2,3),3) # 123123123 | |
z | |
z <- rep(c(1,2,3),each=3) # 각각 3 111222333 | |
z | |
# seq : 데이터의 값을 조건에 따라 생성하는 함수 | |
# seq(시작값, by=증분값, (조건-마지막값), length=벡터데이터의 길이) for문 생각하면됨 | |
z <- seq(1,by=3, 7) | |
z <- seq(1,7,2) # 1에서 7까지 2씩 자동으로? | |
z <- seq(1,7,length=5) # 데이터의 구간을 정해준다. 1부터7까지 5등분 1.0 2.5 4.0 5.5 7.0 | |
z | |
# z 벡터의 요소의 개수는 6개 | |
# z의 값에서 2번째 3번째 값을 출력 | |
z[c(2,3)] | |
# z값에서 2번째 3번째 값을 제외하고 출력 | |
z[c(-2,-3)] | |
# z갑에서 4보다 큰 요소값을 출력 | |
z[z>4] | |
# z값에서 3번째 요소를 12로 변경 | |
z[3] <- 12 | |
z |
출력될때 맨앞의 index가 나온다 index는 1부터 시작
'프로그래밍 > 하루하루' 카테고리의 다른 글
빅데이터 2 (2) | 2017.07.25 |
---|---|
UX/UI (2) | 2017.07.20 |
[ANDROID] 2 (0) | 2017.07.16 |