빅데이터 분석 처리흐름
주제설정 - 데이터 수집(colletiong) - 데이터 전처리(Processing) - 분석(Analysis) - 정보 표현(Visulization)
데이터수집
- 실시간 대용량 데이터 자동 수집
- Data Warehousing
- 실시간(주가, 메신저내용) 혹은 저장된 데이터(통계청 마이크로데이터)가 제공되고 있음.
데이터 전처리
분석
- 데이터 간의 관계를 파악
- 파악된 관계를 사용하여 우리가 원하는 새로운 데이터를 만들어내는 과정
- 빅데이터 통계 소프트웨어 활용 : R, SAS
정보 표현
- 결과 출력 및 시각화 (Visualization)
- Unspuervised Learning
- Social Media analysis
- Predictiove modeling
- Visualization
- Simulation
파이썬 라이브러리 - numpy
- numpy 개요
- numpy는 수치 해석용 파이선 패키지로 numerical python의 줄임말
- 다차원의 배열 자료구조 클래스인 ndarray 클래스 지원
- 벡터와 행렬을 사용하는 선형대수 계산 사용
- 2005, Travis Ollphant 개발