arenadata hadoop что это

Дистрибутив Arenadata Hadoop¶

Arenadata Hadoop (ADH) – это интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа включает в себя все необходимые компоненты для работы с данными: управление, доступ, анализ, интеграция, безопасность и администрирование.

Основная идея дистрибутива заключается в обеспечении возможности работы с любыми типами и форматами данных путем комбинированного использования различных технологических решений и архитектур обработки данных.

В настоящий момент все компоненты платформы оркестрируются через единую систему управления Arenadata Cluster Manager.

В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – крупнейшее мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation: подробнее.

Текущий релиз версии 2.1.2 был выпущен в первом квартале 2020 года. В состав версии входят следующие компоненты: HDFS, YARN, Zookeeper, Tez, Hive, HBase, Phoenix, Spark, Zeppelin, Solr, Airflow, Flink.

В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:

Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на “голом железе”, так и на виртуальных машинах (в “облаке”). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы.

Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop. Инструкция может быть полезна администраторам, программистам, разработчикам и сотрудникам подразделений информационных технологий, осуществляющих внедрение и сопровождение кластеров Arenadata.

Далее в документации приведена инструкция по планированию и установке ADH, руководство администратора по работе с кластером, с HDFS, с YARN и с Hive, настройка авторизации и безопасности, а так же Release Notes.

Источник

Новый релиз Arenadata Hadoop: NameNode High Availability и отдельная версия Enterprise

Arenadata Hadoop — это полноценный open-source дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования и предназначенный для хранения и обработки как структурированных, так и неструктурированных данных. Единственный бесплатный дистрибутив в мире.

Преимущества Arenadata Hadoop версии 2.1.2.4

Ранее в случае падения мастер-сервера с NameNode требовалось вручную восстановить файловую систему с SecondaryNamenode, чтобы вернуть доступ к кластеру и сервисам. Теперь все действия по фейловеру производятся автоматически, а обслуживание не прерывается. Во время, пока производятся эти действия, кластер и сервисы были недоступны.

«HighAvaliability для HDFS Namenode — важное требование для многих наших заказчиков. Наличие высокой доступности ключевого компонента системы позволит им перейти на более современную версию Hadoop 3.x, которая снижает накладные расходы на хранилище на 50–200% и предоставляет хранение с использованием кодов избыточности для обеспечения отказоустойчивости. Именно на версии Hadoop 3.x — сконцентрировано внимание сообщества, и все большие разработки от глобальных IT-вендоров идут в этой версии экосистемы. При этом сам продукт Arenadata Hadoop стал удобнее в обслуживании — для восстановления работоспособности в случае сбоев срочное вмешательство администратора больше не требуется.»

Читайте также:  Что значит цвет буйков

Apache Ranger

До конца 2020 года планируется внедрение компонента Apache Ranger, который будет отвечать за импорт пользователей и групп из внешних источников и авторизацию во всех компонентах дистрибутива Hadoop. Это позволит создать единую точку авторизации пользователей, контролировать доступ к данным и проводить аудит доступа.

Источник

Импортозамещённый дистрибутив Hadoop

Недавно посматривая реестр отечественного ПО, нашёл российскую сборку Hadoop, чему был изрядно удивлён.
Причём, регистрация прошла аж в 2017 году. (ссылка для интересующихся) и с тех пор на хабре ни строчки об этом.
Итак, встречайте — Arenadata Hadoop (ADH)!

Первые впечатления:
Перешёл на сайт и… Последний раз такую комбинацию озадаченности и недоумения испытал в 2014, когда встретил в магазине белорусских устриц.

Судите сами:
вот сайт Arenadata

вот сайт Hortonworks

Основные цвета — зелёный и серый.
Оба дистрибутива используют Ambari для управления кластером, только у ADP есть надпись Arenadata, а у Horton — нет:

После этого перешёл в раздел Roadmap, посмотреть версии компонентов и первая реакция была «зачем нужно было транспонировать таблицу?»:
Вариант от Horton:

И версия Arenadata:

После этого стало немного грустно и решил было, что «импортозамещение» закончилось переклееной этикеткой, особенно заметив Greenplum в качестве Arenadata DB и Arenadata Grid в списке продуктов, но потом внимательно вгляделся в версии пакетов и понял, что основа взята у Hortonworks, а наполнение своё, и это радует.

Небольшое лирическое отступление: да, я знаю, что Hortonworks и Cloudera слились, но компания ещё 3 года будут выпускать дистрибутивы под прежними торговыми марками, поэтому я не называю Hortonworks Clouder’ой, хотя мог бы.

Из плюсов — есть русскоязычная документация и поддержка ( новички и те, кто работал с поддержкой в виде индусов в Америке — должен оценить), правда, поддержка по подписке, а форума, где можно бесплатно задать вопросы о наболевшем как у Cloudera/Horton я не нашёл.

А теперь немного странностей: на сайте прописаны 2 версии: Enterprise и Platform, причем Enterprise изрядно непонятный — без Spark, Zeppelin и Ranger, а для скачки доступна только одна версия и та без права выбора.
Впрочем, судя по наличию Ranger, доступна наиболее полная сборка Arenadata Hadoop Platform.

Читайте также:  что делать если болят мышцы бедра спереди после тренировки

Но это так, мелочи.
Интересны лишь 2 вещи: когда выйдет в релиз ADP 2.0 с Hadoop 3 под капотом — даёшь Yarn-on-GPU, способный конкурировать с релизами от Cloudera и качество поддержки — способна ли она раскопать и решить низкоуровневый баг или будет заведен тикет в Apache Foundation и нужно будет ждать ответ.

PS: не стал скачивать и локально ставить дистрибутив по одной простой причине: привык работать с многонодовыми кластерами, а после локальной установки (читаем — никаких тысяч ядер и терабайтов RAM) впечатление было бы изрядно испорчено.

Источник

Универсальная платформа данных¶

Arenadata Enterprise Data Platform (EDP) – универсальная платформа данных – это интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа включает в себя все необходимые компоненты для работы с данными: управление, доступ, анализ, интеграция, безопасность и администрирование.

Основная идея универсальной платформы заключается в обеспечении возможности работы с любыми типами и форматами данных путем комбинированного использования различных технологических решений и архитектур обработки данных.

В настоящий момент полностью реализован уровень хранения и обработки слабоструктурированных и неструктурированных данных – Arenadata Hadoop (ADH). Это полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.

В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – крупнейшее мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation: подробнее.

Текущий релиз версии 1.6.1 вышел во втором квартале 2018 года. В состав версии входят следующие компоненты: Ambari, HDFS, YARN, Zookeeper, Tez, Hive, HBase, Phoenix, Pig, Sqoop, Flume, Oozie, Atlas, NiFi, Apex, Flink, Kafka, LogSearch, Knox, Mahout, Ranger, Ranger KMS, Solr, Spark, Zeppelin, Giraph.

В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:

Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на “голом железе”, так и на виртуальных машинах (в “облаке”). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления, например, Microsoft System Center и Teradata ViewPoint.

Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop. Инструкция может быть полезна администраторам, программистам, разработчикам и сотрудникам подразделений информационных технологий, осуществляющих внедрение и сопровождение кластеров Arenadata.

Читайте также:  какой массаж эффективнее ручной или lpg

Далее в документации приведена инструкция по планированию и установке ADH, руководство администратора по работе с кластером, с HDFS, с Apache Ranger и с Knox Gateway, настройка авторизации и безопасности, описание использования Ambari View и Release Notes.

Источник

Arenadata Hadoop

В этой статье мы коротко расскажем про дистрибутив Arenadata Hadoop. Он заслуживает внимание благодаря своей доступности, а также тем, что является импортозамещенным дистрибутивом Hadoop.

По сути, перед нами относительно новый дистрибутив отечественной разработки. Разработчики утверждают, что это полноценный дистрибутив, созданный на базе Apache Hadoop, который: — адаптирован для корпоративного использования, — предназначен для хранения и обработки слабоструктурированных и неструктурированных данных.

Предыстория вопроса

Появление Arenadata связано, как известно, с приобретением Hortonworks компанией Cloudera. В результате прекратилась поддержка бесплатной версии системы управления Ambari, а пользователям предложили перейти на коммерческий продукт Cloudera Data Platform.

Естественно, возникли желающие остаться на открытой версии Hadoop. Но выбор был невелик: — пользоваться текущей бесплатной версией (она поддерживается незначительным числом энтузиастов); — мигрировать на закрытую систему управления, предложенную Cloudera.

В этом плане разработчики Arenadata создали третий путь. По большему счету, они предложили универсальный оркестратор гибридного ландшафта — собственную систему управления ADCM (Arenadata Cluster Manager). Эта система позволяет устанавливать Hadoop-сервисы, управлять ими и on-premise, и в облаке.

В состав дистрибутива ADH включены последние актуальные версии самых популярных инструментов. Многие из них доработаны, причем значительно — заявляется, что это обеспечивает: — минимум ошибок ПО, — наибольшую полноту существующего функционала, — корректную интеграцию компонентов друг с другом.

Несколько слов об ADCM

Итак, Arenadata Hadoop имеет свою систему управления, развертывания и мониторинга — это Arenadata Cluster Manager. ADCM распространяется бесплатно, функционал расширяется благодаря добавлению в него бандлов, представляющих собой набор ansible-playbooks. Бандлы делятся на 2 вида: enterprise и community, причем последние можно бесплатно загрузить с веб-сайта Arenadata. Плюс ко всему, присутствует возможность разработать собственный бандл и потом подключить его к ADCM.

В общих чертах можно сказать, что дистрибутив выглядит весьма неплохо.

Плюсы и минусы

Какие ключевые преимущества заявляют разработчики:

Состав компонентов нынешней и будущей версий следующий:

Что касается минусов, то они такие же, как и для остальных дистрибутивов Hadoop: • «vendor lock-in». Всегда существует вероятность изменения политики компании. Далеко ходить не надо: достаточно вспомнить пример Cloudera и Hortonworks; • наблюдается существенное отставание от апстрима Apache.

Источник

Сказочный портал