Дистрибутив Arenadata Hadoop¶
Arenadata Hadoop (ADH) – это интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа включает в себя все необходимые компоненты для работы с данными: управление, доступ, анализ, интеграция, безопасность и администрирование.
Основная идея дистрибутива заключается в обеспечении возможности работы с любыми типами и форматами данных путем комбинированного использования различных технологических решений и архитектур обработки данных.
В настоящий момент все компоненты платформы оркестрируются через единую систему управления Arenadata Cluster Manager.
В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – крупнейшее мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation: подробнее.
Текущий релиз версии 2.1.2 был выпущен в первом квартале 2020 года. В состав версии входят следующие компоненты: HDFS, YARN, Zookeeper, Tez, Hive, HBase, Phoenix, Spark, Zeppelin, Solr, Airflow, Flink.
В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:
Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на “голом железе”, так и на виртуальных машинах (в “облаке”). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы.
Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop. Инструкция может быть полезна администраторам, программистам, разработчикам и сотрудникам подразделений информационных технологий, осуществляющих внедрение и сопровождение кластеров Arenadata.
Далее в документации приведена инструкция по планированию и установке ADH, руководство администратора по работе с кластером, с HDFS, с YARN и с Hive, настройка авторизации и безопасности, а так же Release Notes.
Новый релиз Arenadata Hadoop: NameNode High Availability и отдельная версия Enterprise
Arenadata Hadoop — это полноценный open-source дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования и предназначенный для хранения и обработки как структурированных, так и неструктурированных данных. Единственный бесплатный дистрибутив в мире.
Преимущества Arenadata Hadoop версии 2.1.2.4
Ранее в случае падения мастер-сервера с NameNode требовалось вручную восстановить файловую систему с SecondaryNamenode, чтобы вернуть доступ к кластеру и сервисам. Теперь все действия по фейловеру производятся автоматически, а обслуживание не прерывается. Во время, пока производятся эти действия, кластер и сервисы были недоступны.
«HighAvaliability для HDFS Namenode — важное требование для многих наших заказчиков. Наличие высокой доступности ключевого компонента системы позволит им перейти на более современную версию Hadoop 3.x, которая снижает накладные расходы на хранилище на 50–200% и предоставляет хранение с использованием кодов избыточности для обеспечения отказоустойчивости. Именно на версии Hadoop 3.x — сконцентрировано внимание сообщества, и все большие разработки от глобальных IT-вендоров идут в этой версии экосистемы. При этом сам продукт Arenadata Hadoop стал удобнее в обслуживании — для восстановления работоспособности в случае сбоев срочное вмешательство администратора больше не требуется.»
Apache Ranger
До конца 2020 года планируется внедрение компонента Apache Ranger, который будет отвечать за импорт пользователей и групп из внешних источников и авторизацию во всех компонентах дистрибутива Hadoop. Это позволит создать единую точку авторизации пользователей, контролировать доступ к данным и проводить аудит доступа.
Импортозамещённый дистрибутив Hadoop
Недавно посматривая реестр отечественного ПО, нашёл российскую сборку Hadoop, чему был изрядно удивлён.
Причём, регистрация прошла аж в 2017 году. (ссылка для интересующихся) и с тех пор на хабре ни строчки об этом.
Итак, встречайте — Arenadata Hadoop (ADH)!
Первые впечатления:
Перешёл на сайт и… Последний раз такую комбинацию озадаченности и недоумения испытал в 2014, когда встретил в магазине белорусских устриц.
Судите сами:
вот сайт Arenadata
вот сайт Hortonworks
Основные цвета — зелёный и серый.
Оба дистрибутива используют Ambari для управления кластером, только у ADP есть надпись Arenadata, а у Horton — нет: 
После этого перешёл в раздел Roadmap, посмотреть версии компонентов и первая реакция была «зачем нужно было транспонировать таблицу?»:
Вариант от Horton:
И версия Arenadata:
После этого стало немного грустно и решил было, что «импортозамещение» закончилось переклееной этикеткой, особенно заметив Greenplum в качестве Arenadata DB и Arenadata Grid в списке продуктов, но потом внимательно вгляделся в версии пакетов и понял, что основа взята у Hortonworks, а наполнение своё, и это радует.
Небольшое лирическое отступление: да, я знаю, что Hortonworks и Cloudera слились, но компания ещё 3 года будут выпускать дистрибутивы под прежними торговыми марками, поэтому я не называю Hortonworks Clouder’ой, хотя мог бы.
Из плюсов — есть русскоязычная документация и поддержка ( новички и те, кто работал с поддержкой в виде индусов в Америке — должен оценить), правда, поддержка по подписке, а форума, где можно бесплатно задать вопросы о наболевшем как у Cloudera/Horton я не нашёл.
А теперь немного странностей: на сайте прописаны 2 версии: Enterprise и Platform, причем Enterprise изрядно непонятный — без Spark, Zeppelin и Ranger, а для скачки доступна только одна версия и та без права выбора.
Впрочем, судя по наличию Ranger, доступна наиболее полная сборка Arenadata Hadoop Platform.
Но это так, мелочи.
Интересны лишь 2 вещи: когда выйдет в релиз ADP 2.0 с Hadoop 3 под капотом — даёшь Yarn-on-GPU, способный конкурировать с релизами от Cloudera и качество поддержки — способна ли она раскопать и решить низкоуровневый баг или будет заведен тикет в Apache Foundation и нужно будет ждать ответ.
PS: не стал скачивать и локально ставить дистрибутив по одной простой причине: привык работать с многонодовыми кластерами, а после локальной установки (читаем — никаких тысяч ядер и терабайтов RAM) впечатление было бы изрядно испорчено.
Универсальная платформа данных¶
Arenadata Enterprise Data Platform (EDP) – универсальная платформа данных – это интегрированный набор компонентов корпоративного уровня на базе решений с открытым исходным кодом. Платформа включает в себя все необходимые компоненты для работы с данными: управление, доступ, анализ, интеграция, безопасность и администрирование.
Основная идея универсальной платформы заключается в обеспечении возможности работы с любыми типами и форматами данных путем комбинированного использования различных технологических решений и архитектур обработки данных.
В настоящий момент полностью реализован уровень хранения и обработки слабоструктурированных и неструктурированных данных – Arenadata Hadoop (ADH). Это полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.
В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – крупнейшее мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation: подробнее.
Текущий релиз версии 1.6.1 вышел во втором квартале 2018 года. В состав версии входят следующие компоненты: Ambari, HDFS, YARN, Zookeeper, Tez, Hive, HBase, Phoenix, Pig, Sqoop, Flume, Oozie, Atlas, NiFi, Apex, Flink, Kafka, LogSearch, Knox, Mahout, Ranger, Ranger KMS, Solr, Spark, Zeppelin, Giraph.
В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:
Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на “голом железе”, так и на виртуальных машинах (в “облаке”). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления, например, Microsoft System Center и Teradata ViewPoint.
Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop. Инструкция может быть полезна администраторам, программистам, разработчикам и сотрудникам подразделений информационных технологий, осуществляющих внедрение и сопровождение кластеров Arenadata.
Далее в документации приведена инструкция по планированию и установке ADH, руководство администратора по работе с кластером, с HDFS, с Apache Ranger и с Knox Gateway, настройка авторизации и безопасности, описание использования Ambari View и Release Notes.
Arenadata Hadoop
В этой статье мы коротко расскажем про дистрибутив Arenadata Hadoop. Он заслуживает внимание благодаря своей доступности, а также тем, что является импортозамещенным дистрибутивом Hadoop.
По сути, перед нами относительно новый дистрибутив отечественной разработки. Разработчики утверждают, что это полноценный дистрибутив, созданный на базе Apache Hadoop, который: — адаптирован для корпоративного использования, — предназначен для хранения и обработки слабоструктурированных и неструктурированных данных.
Предыстория вопроса
Появление Arenadata связано, как известно, с приобретением Hortonworks компанией Cloudera. В результате прекратилась поддержка бесплатной версии системы управления Ambari, а пользователям предложили перейти на коммерческий продукт Cloudera Data Platform.
Естественно, возникли желающие остаться на открытой версии Hadoop. Но выбор был невелик: — пользоваться текущей бесплатной версией (она поддерживается незначительным числом энтузиастов); — мигрировать на закрытую систему управления, предложенную Cloudera.
В этом плане разработчики Arenadata создали третий путь. По большему счету, они предложили универсальный оркестратор гибридного ландшафта — собственную систему управления ADCM (Arenadata Cluster Manager). Эта система позволяет устанавливать Hadoop-сервисы, управлять ими и on-premise, и в облаке.
В состав дистрибутива ADH включены последние актуальные версии самых популярных инструментов. Многие из них доработаны, причем значительно — заявляется, что это обеспечивает: — минимум ошибок ПО, — наибольшую полноту существующего функционала, — корректную интеграцию компонентов друг с другом.
Несколько слов об ADCM
Итак, Arenadata Hadoop имеет свою систему управления, развертывания и мониторинга — это Arenadata Cluster Manager. ADCM распространяется бесплатно, функционал расширяется благодаря добавлению в него бандлов, представляющих собой набор ansible-playbooks. Бандлы делятся на 2 вида: enterprise и community, причем последние можно бесплатно загрузить с веб-сайта Arenadata. Плюс ко всему, присутствует возможность разработать собственный бандл и потом подключить его к ADCM.
В общих чертах можно сказать, что дистрибутив выглядит весьма неплохо.
Плюсы и минусы
Какие ключевые преимущества заявляют разработчики:
Состав компонентов нынешней и будущей версий следующий:
Что касается минусов, то они такие же, как и для остальных дистрибутивов Hadoop: • «vendor lock-in». Всегда существует вероятность изменения политики компании. Далеко ходить не надо: достаточно вспомнить пример Cloudera и Hortonworks; • наблюдается существенное отставание от апстрима Apache.














