Apache Hive

De Wikipedia, la enciclopedia libre
Esta es una versión antigua de esta página, editada a las 20:02 15 oct 2020 por Renamed user 23o2iqy4ewqoiudh (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.
Apache Hive
Información general
Tipo de programa gestión de datos
Desarrollador Apache Software Foundation
Lanzamiento inicial 9 de noviembre de 2011
Licencia Apache License 2.0
Estado actual Activo
Información técnica
Programado en Java
Plataformas admitidas máquina virtual Java
Versiones
Última versión estable 2.0.1 ( 25 de mayo de 2016 (7 años, 11 meses y 9 días))
Enlaces

Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos.[1]​ Inicialmente desarrollado por Facebook, Apache Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory Authority (FINRA).[2][3]​ Amazon mantiene una derivación de software de Apache Hive incluida en Amazon Elastic MapReduce en sus servicios Amazon Web Services.[4]

Características

Apache Hive soporta el análisis de grandes conjuntos de datos almacenados bajo HDFS de Hadoop y en sistemas compatibles como el sistema de archivos Amazon S3. Ofrece un lenguaje de consultas basado en SQL llamado HiveQL[5]​ con esquemas para leer y convertir consultas de forma transparente en MapReduce, Apache Tez[6]​ y tareas Spark. Los tres motores de ejecución pueden correr bajo YARN. Para acelerar las consultas, Hive provee índices, que incluyen índices de bitmaps.[7]​ Otras características de Hive incluyen:

  • Indexación para proporcionar aceleración, tipo de índice que incluye compactación e índices de bitmaps. Otros tipos de índices serán incluidos en futuras versiones.
  • Diferentes tipos de almacenamiento como texto, RCFile, HBase, ORC, y otros.
  • Almacenamiento de metadatos en bases de datos relacionales, lo que permite reducir el tiempo para realizar verificaciones semánticas durante la ejecución de consultas.
  • Operaciones sobre datos comprimidos almacenados en el ecosistema Hadoop usando algoritmos que incluyen DEFLATE, BWT, snappy, etc.
  • Funciones definidas por el usuario (en inglés, user-defined function, UDF) para manipular fechas, textos, y otras herramientas de minería de datos. Hive soporta la extensión de las funciones definidas por el usuario de manera de tratar casos no contemplados.
  • Consultas estilo SQL (HiveQL), las cuales son convertidas automáticamente a MapReduce o Tez, o tareas Spark.

Por defecto, Hive almacena sus metadatos en una base de datos apache Derby, pero puede ser configurado para usar MySQL.[8]

Véase también

Referencias

  1. Venner, Jason (2009). Pro Hadoop. Apress. ISBN 978-1-4302-1942-2. 
  2. «Use Case Study of Hive/Hadoop». Consultado el 8 de junio de 2016. 
  3. «OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"». YouTube. Consultado el 8 de junio de 2016. 
  4. Amazon Elastic MapReduce Developer Guide
  5. «HiveQL Language Manual». 
  6. «Apache Tez». Consultado el 8 de junio de 2016. 
  7. «Working with Students to Improve Indexing in Apache Hive». Consultado el 8 de junio de 2016. 
  8. Lam, Chuck (2010). Hadoop in Action. Manning Publications. ISBN 1-935182-19-6.