HOME 자유게시판

자유게시판

자유게시판 More information
빅데이터 처리에 대한 잡설

onionmixer 2018-08-17 22:44:10 9497

요즘은.. 빅데이터...라는 키워드가 꽤 인기입니다. 아무래도.. 데이터를 활용한다는 측면에서는 슬슬.. 대세가 될때가 됐죠.

일단 제일 유명한건 R 입니다. 오픈소스이기도 하고.... 데이터를 시각화 시키는 알고리즘이라는 측면에서는.. 최고의 트렌드라고 할 수 있습니다.

이런식으로 빅데이터는 몇개의 개념을 기준으로 하위분류를 생각해볼 수 있습니다.


첫번째로 생각해볼건 데이터 저장 / nosql 및 시계열 DB 입니다.

nosql 의 열풍에서 에서 시작된 빅데이터의 처리는 mongoDB 를 넘어서 time series Database 라는 시계열 DB 에까지 이르르게 됩니다. 최근에 있어서 시계열DB 는 elastic search 와 influxData 의 influxDB 까지 이어지고 있습니다.

hadoop 와 HDFS(Hadoop Distrubuted File System), 그리고 이어지는 데이터 모델 데이터베이스인 HBase 역시 분산처리 데이터분석 영역에서 확고한 위치를 차지하고 있습니다.

이렇게 데이터의 저장에 대해 저장 포맷에 대한 연구도 이루어지고 있는데, 이중에 유명한것은 HDF5 라고 합니다. HDF5 자체는 일종의 데이터포맷이라서 해당되는 format 을 해석할 수 있는 툴을 만들면 될일이기는 합니다. 굳이 데이터베이스 엔진을 거치지 않기 때문에 local 에서 대용량 데이터를 분석하기에는 꽤 괜찮은 방법일수도 있겠습니다.


두번째로 생각할건 데이터를 꺼내서 분석하는 분석솔루션입니다.

hadoop, R, 등이 일단 있고.. 요즘 유명한건 AI 를 결합하시는 tensorflow 도 있습니다. kibana 도 조금...은 이 범주에 속하지 않나 싶기도 하구요... influxdata 의 kapacitor 이 이 part 에 속합니다. CERN 에서 시작됐다는 root 라는 데이터분석 프레임웍도 있는데, 내부에서 데이터를 객체로 처리한다고 하는군요. root 의 경우는 R 및 Spark 도 지원하는듯 합니다. 이런 ROOT 를 지원하기 위한 XrootD 라는 프로젝트도 있습니다. 물론 splunk 는 당연히 절대적인 위치를 차지한다고 볼 수 있죠.


세번째로 생각해볼건 데이터의 시각화입니다.

일반적으로 dashboard 의 영역이라고 볼 수도 있겠습니다. elastic search 와 splunk 외라면.. influxdata 의 chronograf 가 있고, 요즘 매우 핫한걸로는 Grafana 가 있다고 합니다. Grafana 의 경우는 influxDB 및 mongoDB 등도 지원한다고 합니다.


근래에 모으고 공부한걸 정리한다는 개념으로 좀 정리해봤습니다. 혹시 관심있으신 분들께 도움이 되었으면 하네요 :D



====참고문서====

* https://community.hortonworks.com/articles/14508/b...
* https://datascienceschool.net/view-notebook/f1c286...
* https://root.cern.ch
* http://xrootd.org
* https://grafana.com/
* https://www.influxdata.com/time-series-platform/
* http://hadoop.apache.org/
* https://www.ibm.com/support/knowledgecenter/ko/SSP...
* http://hochul.net/blog/about-hbase/
* https://docs.splunk.com/Documentation/Splunk/7.1.2...
* http://alicematters.web.cern.ch/?q=content%2Fnode%...

댓글 0개

Previous / Next
Previous 개발자가 읽어볼만한 내용 - 20180824
Next 한국에서 개발자의 현실