DB/Data Base
-
[Spark] 빅데이터 처리 기술 Spark, KMOOCDB/Data Base 2022. 8. 20. 16:45
해당 게시글은 비전공자이자 초보 개발자 지망생이 작성한 글로 정확하지 않을 수 있으니 참고해주시길 바랍니다! 피드백과 정보 정정 댓글은 환영입니다 :) Hadoop은 대용량의 데이터가 디스크에 저장되어 있고, 대용량의 데이터를 디스크(하드드라이브, HDD)에서 읽고 쓰기 때문에 처리 시간이 오래 걸린다. 또한, 아래 그림과 같이 하둡은 맵리듀스 과정에서 나온 중간 결과를 모두 디스크에 저장하고 이를 재사용하여 처리 시간이 오래 걸리고 디스크 사용량이 늘어나게 된다. 이러한 단점을 개선한 것이 Spark이다. - Spark란 ? Spark는 인메모리 기반의 대용량 데이터를 분산처리할 수 있는 고속 처리 엔진이다. RDD(Resilient Distributed Dataset) 방식의 인메모리형 자료 구조를 ..
-
[Flume] Docker 를 통한 아파치 플룸 설치, KMOOCDB/Data Base 2022. 8. 9. 21:24
해당 게시글은 비전공자이자 초보 개발자 지망생이 작성한 글로 정확하지 않을 수 있으니 참고해주시길 바랍니다! 피드백과 정보 정정 댓글은 환영입니다 :) http://www.kmooc.kr/courses/course-v1:MA_CUK+MATCHUP_CUK08+2022_1/course/ 강좌 | MATCHUP_CUK08 | K-MOOC www.kmooc.kr 1주차에는 빅데이터 프레임워크에 대한 전반적인 이해를, 2주차에는 리눅스 사용 방법과 도커에 대한 기본적인 개념에 대해 알아보았다. 3주차에는 도커를 활용하여 Flume을 실행하고 이를 통해 기본 문법(?) 및 명령어에 대해 알아보았다. 이 과정에서 새롭게 알게 된 내용이 많아 정리해보고자 한다. 1. 아파치 플룸이란, 그리고 특징들 아파치 플룸은 데이..