Cloudera Impala

De Wikipedia, la enciclopedia libre
Cloudera Impala
Información general
Tipo de programa relational Hadoop-Analytics
Licencia Apache License 2.0
Estado actual Activo
Información técnica
Programado en C++
Plataformas admitidas máquina virtual Java
Versiones
Última versión estable 2.0.0 ()
Enlaces

Cloudera Impala es un motor de consultas SQL open source de Cloudera para el procesamiento masivo en paralelo (MPP) de los datos almacenados en un clúster de computadoras corriendo Apache Hadoop.[1]

Descripción[editar]

Cloudera Impala es un motor de consulta que corre en Apache Hadoop. El proyecto fue anunciado en octubre de 2012 con una distribución pública beta[2][3]​ y se encuentra disponible para el público en general desde mayo de 2013.[4]

El proyecto Impala con licencia Apache lleva la tecnología de base de datos escalable en paralelo a Hadoop, permitiendo a los usuarios realizar consultas SQL de baja latencia a los datos almacenados en HDFS y Apache HBase sin necesidad de movimiento o transformación de los datos. Impala está integrada con Hadoop para utilizar los mismos archivos y formato de datos, metadatos, seguridad y frameworks de gestión de recursos utilizados por MapReduce, Apache Hive, Apache Pig y otro software de Hadoop.

Impala está dirigido a los analistas y científicos de datos para realizar análisis en los datos almacenados en Hadoop a través de herramientas de SQL o business intelligence. El resultado es que el procesamiento de datos a gran escala (a través de MapReduce) y las consultas interactivas se pueden hacer en el mismo sistema utilizando los mismos datos y metadatos - eliminando la necesidad de migrar los conjuntos de datos a sistemas especializados y/o formatos propietarios solo para realizar el análisis.

Las características incluyen:

  • Soporte de HDFS y almacenamiento Apache HBase
  • Lee formatos de archivos de Hadoop, incluyendo texto, LZO, SequenceFile, Avro, RCFile, y Parquet
  • Soporta seguridad Hadoop (autenticación Kerberos)
  • Autorización fine-grained, basada en roles con Sentry[5]
  • Utiliza metadata, controlador ODBC, y sintaxis SQL de Apache Hive

A principios de 2013, un formato de archivo orientado a columnas llamado Parquet se anunció para arquitecturas incluyendo entre ellas a Impala.[6]​ En diciembre de 2013, Amazon Web Services anunció soporte para Impala.[7]​ A principios de 2014, MapR agregó soporte para Impala.[8]

Referencias[editar]

  1. «Cloudera Impala». Consultado el 14 de marzo de 2014. 
  2. Larry Digna (24 de octubre de 2012). «Cloudera aims to bring real-time queries to Hadoop, big data». Between the lines blog. ZDNet. Consultado el 20 de enero de 2014. 
  3. Andrew Brust (25 de octubre de 2012). «Cloudera’s Impala brings Hadoop to SQL and BI». ZDNet. Consultado el 20 de enero de 2014. 
  4. Marcel Kornacker, Justin Erickson (1 de mayo de 2013). «Cloudera Impala 1.0: It’s Here, It’s Real, It’s Already the Standard for SQL on Hadoop». Archivado desde el original el 13 de abril de 2014. Consultado el 10 de abril de 2014. 
  5. Sentry
  6. «Parquet: Columnar Storage for Hadoop». Project web site. 2013. Consultado el 20 de enero de 2014. 
  7. «Announcing Support for Impala with Amazon Elastic MapReduce». Amazon.com. 12 de diciembre de 2013. Consultado el 20 de enero de 2014. 
  8. «Impala for MapR». MapR.com. 2 de febrero de 2014. Consultado el 10 de abril de 2014. 

Enlaces externos[editar]