반응형

개요

hadoop을 배우게 되면 HDFS라는 개념을 가장먼저 배우게 되는데 데이터를 블록단위로 저장하는 분산저장시스템입니다. 그렇다면 하둡의 HDFS가 있는데 HBase를 사용하는 이유는 무엇일까요? 

 

다시 정리하자면, HDFS는 분산형 파일 시스템으로 대규모 데이터를 저장하기 위한 것이고, HBase는 분산형 NoSQL 데이터베이스로 대규모 데이터를 저장하고 실시간으로 읽고 쓰기 위한 것입니다.

 

여기서 HBase는 실시간으로 읽고 쓰기 위한 것에 초점을 맞췄습니다. HDFS는 데이터를 단순히 저장하기만 하지만, HBase는 데이터를 저장하는 동시에 실시간으로 조회하고 처리할 수 있습니다. 따라서 HBase는 Hadoop 기반의 분산 시스템에서 대규모 데이터를 저장하고 처리하는 데 사용됩니다.

 

 

HDFS / HBase 차이점

데이터 모델

  • HDFS  - HDFS는 분산형 파일 시스템으로 데이터를 파일 단위로 저장합니다. 파일은 블록으로 분할되고, 이 블록들은 클러스터의 여러 노드에 저장됩니다. 
  • HBase - HBase는 분산형 NoSQL 데이터베이스로, 데이터를 행 단위로 저장하며, 각 행은 키-값 쌍의 집합으로 구성됩니다.

데이터의 읽기 쓰기 방식

  • HDFS  - HDFS는 데이터를 일괄적으로 쓰고 읽는 데 특화되어 있습니다. 일관성이 중요하지 않은 대용량 파일의 저장과 처리에 적합합니다.
  • HBase - HBase는 실시간으로 읽고 쓰는 데 특화되어 있으며, 빠른 응답 속도와 일관성이 필요한 애플리케이션에 적합합니다.

데이터 처리

  • HDFS  - HDFS는 대규모 데이터 처리를 위해 MapReduce와 같은 분산 처리 프레임워크를 사용합니다. 
  • HBase - HBase는 Hadoop 에코시스템의 다른 도구와 함께 사용하여 데이터 처리를 할 수 있습니다.

 

 

반응형

+ Recent posts