1. Altibase 하둡 커넥터 소개#
이 장은 Altibase 하둡 커넥터가 무엇인지 소개하고 배경 지식을 설명한다.
배경 지식#
이 절은 스쿱을 사용하여 Altibase와 하둡간에 데이터를 이동하는 방법을 설명하기 위한 기본 개념을 설명한다.
하둡(Hadoop)#
하둡(Hadoop)은 대용량 데이터의 관리와 분석에 적합한 시스템이다. '빅 데이터'에 대한 관리와 데이터웨어하우스의 병렬 처리에 대한 요구가 증가하고 클라우드와 분산 컴퓨팅이 유행하면서 가장 많이 언급되고 있는 솔루션이다.
하둡은 여러 컴퓨터로 구성된 클러스터에 걸쳐 있는 대용량 데이터를 분산 처리하기 위한 프레임워크로써 자바 기반의 오픈소스 소프트웨어이다. 하둡은 크게 하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System)과 맵리듀스(MapReduce)로 구성된다.
스쿱 (Sqoop)#
스쿱(Sqoop)은 하둡과 관계형 데이터베이스 간의 데이터 전송을 위한 도구로써, 오픈소스 소프트웨어이다. 사용자는 스쿱을 사용하여 관계형 데이터베이스 시스템(RDBMS)에서 하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System)으로 데이터를 가져오고(import) 다시 RDBMS로 내보낼(export) 수 있다.
스쿱은 가져올 데이터를 스키마로 표현하기 위해 데이터베이스에 의존하여 이 과정의 대부분을 자동화한다. 스쿱은 데이터 import와 export를 위해 맵리듀스를 사용한다. 맵리듀스는 장애 내구성(Fault Tolerance)과 병렬 작업(Parallel Operation)을 제공한다.
Altibase 하둡 커넥터란?#
Altibase 하둡 커넥터(Altibase-Hadoop Connector)는 하둡과 Altibase 서버 사이의 효율적인 데이터 전송을 용이하게 하며, 운영 데이터는 Altibase에서, 데이터 분석은 하둡에서 처리할 수 있도록 해 준다. 즉, Altibase 하둡 커넥터는 하둡에서의 데이터 처리를 위해 사용자가 Altibase 서버에 접속하여 데이터를 HDFS 또는 Hive로 내보내도록 해 준다.
Altibase 하둡 커넥터는 스쿱 기반으로 동작하며 스쿱이 제공하는 거의 모든 기능을 지원한다. 또한, 스쿱과 유사한 커맨드 라인 인자 구조를 사용하기 때문에, 이전에 스쿱을 사용한 경험이 있는 사용자들은 수월하게 사용할 수 있을 것이다.