Hive - это система хранилища данных для Hadoop, которая облегчает легкое обобщение данных, специальные запросы и анализ больших наборов данных, хранящихся в файловых системах, совместимых с Hadoop. Hive предоставляет механизм структуры проекта на эти данные и запрашивает данные с использованием языка SQL, подобного HiveQL.

Apache Hive - это инфраструктура хранилища данных, построенная поверх Hadoop, которая обеспечивает следующее:

Инструменты для легкого обобщения данных (ETL). Специальные запросы и анализ данных больших массивов данных хранится в файловой системе Hadoop (HDFS) Механизм размещения структуры по этим данным Простой язык запросов, называемый Hive QL, который основан на SQL и который позволяет пользователям, знакомым с SQL, запрашивать эти данные.

В то же время, этот язык также позволяет традиционным программистам карт / сокращать возможность подключения своих настраиваемых карт и редукторов для выполнения более сложного анализа, который может не поддерживаться встроенными возможностями языка .

Поскольку Hive основан на Hadoop, он не дает и не может обещать низкие задержки по запросам. Парадигма здесь заключается в том, чтобы отправлять задания и получать уведомления, когда задания заполняются в противоположность запросам в реальном времени. В отличие от таких систем, как Oracle, где анализ выполняется на значительно меньшем количестве данных, но анализ идет гораздо более итеративно, когда время отклика между итерациями составляет менее нескольких минут, время ответа на запросы Hive для даже самых маленьких заданий может быть порядка нескольких минут.

Подводя итог, в то время как низкая производительность латентности не является приоритетом принципов дизайна Hive, следующие: Hive's Ключевые возможности:

Инструменты для облегчения суммирования данных (ETL) Расширяемость (с картой map / reduce и UDF / UDAF / UDTF) Специальные запросы и анализ данные больших массивов данных, хранящиеся в файловой системе Hadoop (HDFS) Свободная связь с ее входными форматами

Hive

Расширяемость (с

Полезные ссылки:

Wiki Свободная связь с ее входными форматами Механизм размещения структуры этих данных User FAQ Простой язык запросов, называемый Hive QL, который основан на SQL и который позволяет пользователям, знакомым с SQL, запрашивать эти данные.