Hadoop - это проект с открытым исходным кодом Apache, который обеспечивает программное обеспечение для надежных и масштабируемых распределенных вычислений. Сам проект включает в себя множество других дополнительных дополнений.

Проект Apache ™ Hadoop ™ разрабатывает программное обеспечение с открытым исходным кодом для надежных, масштабируемых распределенных вычислений.

" Apache ™ Hadoop ™ " обычно относится к программное обеспечение в проекте, которое реализует структуру анализа данных с уменьшением масштаба карты, а также распределенную файловую систему (HDFS), которая лежит в основе этого.

Узел имен, обычно у вас есть хотя бы один узел имен, но обычно у вас более одного для избыточности. И этот Node будет принимать запросы, поступающие из клиентских приложений, для выполнения некоторой обработки, и затем он будет использовать некоторые Узлы данных, и обычно у нас есть много Узлов Данных, которые будут совместно использовать обработку между ними. И так они все имеют доступ к общей файловой системе, которая обычно называется распределенной файловой системой Hadoop или HDFS.

map-reduce

Apache Hadoop также работает с другими файловыми системами, специфичной для платформы «локальной» файловой системой, Blobstores, такими как Amazon S3 и Azure, а также альтернативными распределенными файловыми системами. См .: Совместимость файловой системы с Apache Hadoop.

Начиная с версии 0.23, Hadoop располагает автономным менеджером ресурсов: Совместимость файловой системы с Apache Hadoop .

Этот менеджер ресурсов упрощает использование других модулей наряду с механизмом MapReduce, например:

Accumulo - сортированное, распределенное хранилище ключей / значений, которое обеспечивает надежное масштабируемое хранение и извлечение данных. Ambari, веб-инструмент для обеспечения, управления и мониторинга кластеров Apache Hadoop, который включает поддержку Hadoop HDFS, Hadoop MapReduce, Hive, HCкаталог, HBase, ZooKeeper, Oozie, Pig и Sqoop. Ambari также предоставляет панель мониторинга состояния кластера, такую ​​как карты тепла, а также возможность визуально просматривать приложения MapReduce, Pig и Hive вместе с функциями для диагностики их характеристик производительности в удобной для пользователя форме. Avro, система сериализации данных на основе схем JSON. Cassandra, реплицированная, отказоустойчивая, децентрализованная и масштабируемая система баз данных. Chukwa: система сбора данных для управления большими распределенными системами. Каскадирование: Cascading - это уровень абстракции программного обеспечения для apache hadoop и в основном предназначен для разработчиков Java. Структура была разработана для снижения усилий по написанию кода шаблона программистами mapreduce, которые хорошо подходят для Java Flink, быстрого и надежного крупномасштабного механизма обработки данных. Giraph - это итеративная структура обработки графов, построенная поверх Apache Hadoop HBase, масштабируемой распределенной базы данных, которая поддерживает структурированное хранение данных для больших таблиц. Hive, инфраструктура хранилища данных, которая обеспечивает сводку данных и специальные запросы. Mahout, библиотека алгоритмов машинного обучения, совместимая с парадигмой M / R. Оози, система планировщика рабочих процессов для управления рабочими местами Apache Hadoop. Pig, язык платформы / программирования для разработки параллелизуемых заданий Spark, быстрый и общий механизм для крупномасштабной обработки данных. Storm, система для обработки в реальном времени и потока Tez - расширяемая структура для создания высокопроизводительных пакетных и интерактивных приложений обработки данных, координируемых YARN. ZooKeeper, система для координации распределенных узлов, похожая на Google Chubby

Ссылки

Accumulo - сортированное распределенное хранилище ключей / значений, которое обеспечивает надежное масштабируемое хранение и извлечение данных

Связанные теги: bigtable, bigtop, hive, hdfs, mapreduce, oozie, pig, spark sqoop, zookeeper, пряжа, тез, giraph, accumulo, hbase.

] Коммерческая поддержка доступна из .