[hadoop] hbase와 hive란?

2023. 3. 26. 21:16

hive / hbase

하둡을 처음 공부하면서 hbase와 hive에 혼동이 생겨 정리하고자 포스팅합니다. 앞에 h가 붙어 뭔가 연결되어 있는 느낌이 있습니다. 결론적으로 hive가 hbase에 있는 데이터를 사용하여 데이터를 집계할 수 있지만 두개의 프로젝트가 긴밀한 연관이 있는 것은 아닙니다.

Hive와 HBase는 둘 다 Apache 소프트웨어 재단에서 개발된 분산 데이터 저장 및 처리 시스템입니다. 하지만 Hive는 데이터 웨어하우스 시스템이고 HBase는 분산형 NoSQL 데이터베이스 시스템입니다. 그러므로 Hive와 HBase는 목적과 사용 사례가 다릅니다.

hive란?

Apache Hive는 Hadoop 기반의 대규모 분산 데이터 처리 시스템에서 SQL 쿼리를 실행하기 위한 데이터 웨어하우스 솔루션입니다. Hive는 구조화된 데이터를 처리하는 데 적합하며, SQL 쿼리를 사용하여 데이터를 조회, 분석, 변환, 저장 등 다양한 작업을 수행할 수 있습니다.

Hive는 Hadoop 클러스터의 분산 파일 시스템(HDFS) 및 Hbase에 저장된 데이터를 처리하며, MapReduce를 사용하여 데이터를 분산 처리합니다. HiveQL이라는 SQL 언어를 사용하여 데이터를 쿼리질의 합니다.

또한, 데이터를 압축하고 파티셔닝하고 인덱싱하는 기능을 제공합니다. 또한 데이터베이스 테이블과 유사한 개념인 Hive 테이블(Metastore)을 사용하여 데이터를 구조화하고 관리할 수 있습니다.

hbase란?

Apache HBase는 Apache Hadoop 기반의 분산형 NoSQL 데이터베이스 시스템으로, 대규모 데이터를 실시간으로 읽고 쓸 수 있는 고성능 데이터 저장소입니다. HBase는 Google의 Bigtable 논문에서 영감을 받아 개발된 오픈 소스 프로젝트로, 구글의 Bigtable과 유사한 데이터 모델을 사용합니다.

HBase는 대규모 데이터 집합을 처리하고 저장하는 데 사용되며, Hadoop Distributed File System(HDFS) 상에서 동작합니다. 데이터를 행 단위로 저장하며, 각 행은 키-값 쌍의 집합으로 구성됩니다.

HBase는 대규모 웹 애플리케이션에서 사용자 프로필과 같은 대규모 데이터 집합을 저장하고 관리하는 데 이용됩니다. 또한, HBase는 인터넷 로그 데이터를 저장하고 분석하는 데 사용됩니다.

저작자표시 비영리 변경금지 (새창열림)

'데이터엔지니어 > hadoop' 카테고리의 다른 글

[hdfs] ha관련 기록 nn02가 active일 때 nn01 네임노드 실행시 자동으로 nn01이 active되는 현상 (0)	2023.04.25
[hdfs] ha 중 fuser -v -k -n tcp 8020 via ssh: bash: fuser: command not found 경고 (0)	2023.04.07
[hdfs] ha 중 org.apache.hadoop.ha.SshFenceByTcpPort: Unable 에러 (0)	2023.04.07
[zookeeper] Exception when following the leader (0)	2023.04.05
[hadoop] HDFS가 있는데 HBase를 사용하는 이유는 무엇일까? (0)	2023.03.26

Taegu