data engineer что за профессия

Кто такой Data Engineer и как им стать

Сделали адаптированный перевод статьи Oleksii Kharkovyna о том, кто такие инженеры данных и что нужно знать новичкам, чтобы освоить профессию.

Инженер данных — смесь аналитика данных и дата-сайентиста. Он отвечает за извлечение, преобразование, загрузку данных и их обработку. Профессия востребована в первую очередь благодаря высоким зарплатам и спросу среди работодателей. Дальше расскажу, какие задачи выполняют инженеры данных, чем отличаются от дата-сайентистов и что нужно знать тем, кто хочет освоить специальность.

Что такое инженерия данных

«Учёный может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру», — Гордон Линдсей Глегг

Из названия специальности следует, что она связана с данными: их доставкой, хранением и обработкой. Главная задача инженера — подготовить надёжную инфраструктуру для данных. В ИИ-иерархии потребностей инженерия данных занимает первые две-три ступени: сбор, перемещение и хранение, подготовка данных.

Что делает инженер данных

С появлением Big Data сфера ответственности специалистов по обработке данных изменилась. Если раньше инженеры писали большие SQL-запросы и обрабатывали данные с помощью таких инструментов, как Informatica ETL, Pentaho ETL, Talend, то теперь от них ждут большего. Специалисту нужно отлично знать SQL и Python, желательно — Java/Scala, иметь опыт работы с облачными платформами, в частности Amazon Web Services.

И это только самое необходимое. Логично предположить, что инженеры должны разбираться в разработке программного обеспечения и серверной разработке. В компании, которая генерирует большой объем данных из разных источников, задача инженера — организовать сбор информации, её обработку и хранение.

Инструменты могут отличаться — всё зависит от объема данных, их скорости поступления и неоднородности. Многие компании вообще не работают с большими данными, поэтому в качестве централизованного хранилища используют базу SQL (PostgreSQL, MySQL) с небольшим количеством скриптов, которые направляют данные в репозиторий.

У IT-гигантов вроде Google, Amazon, Facebook или Dropbox требования к кандидатам выше:

Основной упор в технологиях Big Data сейчас делают на их обработку в условиях высокой нагрузки. Поэтому компании повысили требования к отказоустойчивости системы.

Источник

Самые востребованные навыки в профессии data engineer

Согласно статистике 2019 года, data engineer на данный момент является профессией, спрос на которую растет быстрее всех прочих. Data engineer играет в организации критически важную роль – создает и поддерживает в рабочем состоянии пайплайны и базы данных, которые используются для обработки, трансформации и хранения данных. Какие навыки нужны представителям этой профессии в первую очередь? Отличается ли список от того, что требуется от data scientists? Обо всем этом вы узнаете из моей статьи.

Я проанализировал вакансии на позицию data engineer в том виде, в котором они пребывают в январе 2020 года, чтобы понять, какие умения в области технологий пользуются наибольшей популярностью. Затем я сравнил полученные результаты со статистикой по вакансиям на позиции data scientist – при этом вскрылись некоторые занятные различия.

Обойдемся без долгих предисловий – вот топ-десять технологий, которые упоминаются в текстах вакансий чаще всего:

Упоминания технологий в вакансиях на позицию data engineer в 2020 году

Обязанности data engineer

На сегодняшний день работа, которую выполняют data engineers, имеет огромное значение для организаций – именно эти люди отвечают за хранение информации и приводят ее в такой вид, чтобы с другие сотрудники могли с ней работать. Data engineers выстраивают пайплайны, чтобы наладить получение данных, потоком или пакетами, из множества источников. Далее пайплайны производят операции по извлечению, трансформации и загрузке (иными словами, ETL-процессы), делая данные более пригодными для дальнейшего использования. После этого данные предаются аналитикам и data scientists для более глубокой обработки. Наконец, данные заканчивают свое путешествие на информационных панелях, в отчетах и моделях для машинного обучения.

Я искал информацию, которая позволила бы сделать вывод о том, какие технологии наиболее востребованы в работе data engineer на текущий момент.

Методы

Я собирал информацию с трех сайтов для поиска работы — SimplyHired, Indeed и Monster и смотрел, какие ключевые слова попадаются в связке с «data engineer» в текстах вакансий, рассчитанных на жителей США. Для этой задачи я применял две библиотеки Python — Requests и Beautiful Soup. В число ключевых слов я включал как те, которые входили в предыдущий список для анализа вакансий на позицию data scientist, так и те, которые вручную отобрал, читая предложения о работе для data engineers. LinkedIn в число источников не вошел, так как меня там забанили после прошлой попытки собрать данные.

Для каждого ключевого слова я подсчитал процент попаданий от общего числа текстов на каждом из сайтов в отдельности, а потом вычислил среднее значение по трем источникам.

Результаты

Ниже представлены тридцать технических терминов из сферы data engineering с самыми высокими показателями по всем трем сайтам вакансий.

А вот те же самые цифры, но оформленные в виде таблицы:

И SQL, и Python фигурируют в более чем двух третях рассмотренных вакансий. Именно эти две технологии имеет смысл изучать в первую очередь. Python – очень популярный язык программирования, применяющийся для работы с данными, создания вебсайтов и написания сценариев. SQL расшифровывается как Structured Query Language (язык структурированных запросов); он предполагает стандарт, реализуемый группой языков, и применяется для извлечения данных из реляционных баз. Он появился уже давно и зарекомендовал себя высокой устойчивостью.

О Spark говорится примерно в половине вакансий. Apache Spark – это «объединенный аналитический движок для обработки больших данных со встроенными модулями для потоковой передачи, SQL, машинного обучения и обработки графов». Он пользуется особой популярностью у тех, кто работает с базами данных больших размеров.

AWS попадает примерно в 45% текстов вакансий. Это облачная вычислительная платформа производства Amazon; ей принадлежит наибольшая доля рынка среди всех облачных платформ.
Следом идут Java и Hadoop – чуть больше 40% на брата. Java – широко распространенный, проверенный в боях язык, который в опросе разработчиков на Stack Overflow 2019 года удостоился десятого места среди языков, вызывающих у программистов ужас. В противоположность ему, Python оказался вторым из языков, пользующихся наибольшей любовью. Языком Java заправляет Oracle, и все, что о нем вообще нужно знать, можно понять вот из этого скриншота официальной страницы от января 2020 года.

Будто на машине времени прокатился
Apache Hadoop использует программную модель MapReduce с кластерами серверов для больших данных. Сейчас от этой модели начинают все чаще отказываться.

Дальше мы видим Hive, Scala, Kafka и NoSQL – каждая из этих технологий упоминается в четверти представленных вакансий. Apache Hive – это программа-хранилище данных, которая «упрощает чтение, написание и управление крупными наборами данных, располагающимися в распределенных хранилищах, при помощи SQL». Scala – язык программирования, активно использующийся при работе с большими данными. В частности, на Scala создавался Spark. В уже упоминавшемся рейтинге наводящих страх языков Scala занимает одиннадцатую строчку. Apache Kafka – распределенная платформа для обработки потоковых сообщений. Очень популярна как средство потоковой передачи данных.

Базы данных NoSQL противопоставляют себя SQL. Они отличаются тем, что не реляционны, не структурированы и обладают горизонтальной масштабируемостью. NoSQL завоевал некоторую популярность, однако лихорадочное увлечение этим подходом, вплоть до пророчеств, что он сменит SQL в качестве доминантной парадигмы хранения, похоже, уже позади.

Читайте также:  россия на олимпиаде в токио 2021 какое место займет

Сравнение с терминами в вакансиях data scientist

Вот тридцать технологических терминов, наиболее распространенных у работодателей в сфере data science. Этот список я получил тем же путем, который описывал выше для data engineering.

Упоминания технологий в вакансиях на позицию data scientist в 2020 году

Если говорить об общем числе, по сравнению с рассмотренным раннее набором, вакансий оказалось больше на 28% (12 013 против 9396). Давайте посмотрим, какие технологии встречаются в вакансиях для data scientists реже, чем для data engineers.

Более популярные в data engineering

Наибольшие различия в частотности ключевых слов у data engineer и data scientist

Самый существенный прирост обнаруживает AWS: в data engineering он появляется на 25% регулярнее, чем в data science (приблизительно 45% и 20% от общего числа вакансий соответственно). Разница ощутимая!

Вот те же данные в немного ином представлении – на графике результаты для одного и того же ключевого слова в вакансиях на позицию data engineer и data scientist расположены бок о бок.

Наибольшие различия в частотности ключевых слов у data engineer и data scientist

Следующий по величине скачок я отметил у Spark – data engineer часто приходится работать с большими данными. Kafka тоже подрос на 20%, то есть почти в четыре раза по сравнению с результатом по вакансиям data scientist. Передача данных – одна из ключевых обязанностей data engineer. Наконец, число упоминаний оказалось на 15% больше в сфере data engineering у Java, NoSQL, Redshift, SQL и Hadoop.

Менее популярные в data engineering

Теперь давайте посмотрим, какие технологии менее популярны в вакансиях для data engineer.
Самый резкий спад по сравнению со сферой data science случился у R: там он фигурировал примерно в 56% вакансий, здесь – только в 17%. Впечатляет. R – язык программирования, который пользуется успехом у ученых и статистиков, а также обладатель восьмого места в рейтинге вызывающих ужас языков.

SAS также встречается в вакансиях на позицию data engineer ощутимо реже – разница составляет 14%. SAS является патентованным языком, рассчитанным на работу со статистикой и данными. Интересный момент: судя по результатам моего исследования вакансий для data scientists, в последнее время он сильно утратил позиции – сильнее, чем любая другая технология.

Востребованные и в data engineering, и в data science

Нужно заметить, что восемь из десяти первых позиций в обоих наборах совпадают. SQL, Python, Spark, AWS, Java, Hadoop, Hive и Scala вошли в десятку как для отрасли data engineering, так и для data science. На графике ниже вы можете увидеть пятнадцать самых популярных технологий у работодателей data engineers, а рядом – их показатель по вакансиям для data scienctists.

Рекомендации

Если вы хотите заниматься data engineering, я бы посоветовал освоить следующие технологии – перечисляю их в порядке приблизительной приоритетности.

Изучите SQL. Я склоняю вас именно к PostgreSQL, потому что у него открытый код, большая популярность в сообществе и он находится в фазе роста. Как пользоваться языком, можно узнать из книги My Memorable SQL – ее пилотная версия доступна здесь.

Освойте Python, пусть не на самом хардкорном уровне. Книга My Memorable Python рассчитана как раз на новичков. Ее можно купить на Amazon, электронную копию или физическую, на ваш выбор, или же скачать в формате pdf или epub на этом сайте.

Как только познакомитесь с Python, переходите к pandas – библиотеке Python, которая применяется при очистке и обработке данных. Если вы нацелены на работу в компании, где требуется умение писать на Python (а таких большинство), можете быть уверены, что знание pandas будет предполагаться по умолчанию. Я сейчас заканчиваю вводное руководство для работы с pandas – можете подписаться, чтобы не пропустить момент выхода.

Освойте AWS. Если хотите стать data engineer, без облачной платформы в загашнике вам не обойтись, а AWS – самая популярная из них. Мне очень помогли курсы Linux Academy, когда я изучал data engineering на Google Cloud, думаю, что и по AWS у них найдутся хорошие материалы.

Если вы уже осилили весь этот список и хотите еще вырасти в глазах работодателей как data engineer, предлагаю добавить Apache Spark для работы с большими данными. Хоть мое исследование по вакансиям data science и показало спад интереса, у data engineer-ов он все-таки мелькает почти в каждой второй вакансии.

Источник

Кто такой дата-инженер?

Эксперт в Data Engineering.

Дата-инженер – это человек, который организует потоки загрузки и обрабатывает данные. Как он это делает, что для этого нужно уметь, и насколько такая деятельность востребована, разбираемся с дата-инженером X5 Retail Group Максимом Кереметом.

Что делает дата-инженер?

Дата-инженер (Data Engineer) участвует в начальной и финальной стадиях анализа данных, обеспечивает их работу на инфраструктуре компании. Он занимается ETL-процессами, то есть обрабатывает данные: достает ( extract) их из сырых источников, трансформирует ( transform) и загружает ( load).

После предварительной обработки, очистки от повторов, ошибок, ненужных уточнений, он автоматизирует выполнение скриптов и, если нужно, настраивает мониторинги, алерты (сигналы о том, что в моделях что-то пошло не так), задает расписание, по которому сервис или программа будут работать с данными (шедуллит).

Задачи в компаниях могут отличаться: где-то инженер только обрабатывает данные, а где-то выполняет и программистскую работу: внедряет новые модели и переучивает старые.

Помимо сбора и обработки дата-инженер организует хранение данных. Для этого он строит архитектуру хранилищ – базы данных с таблицами, в которых они разбиты по смыслу. Дата-сайентистам это облегчает доступ к обработанным наборам данных (признакам), с помощью хранилища проще и быстрее масштабировать модели.

Чем дата-инженер отличается от дата-сайентиста?

Задачи дата-сайентиста и дата-инженера находятся на разных этапах работы с данными. Дата-сайентист – это исследователь, который придумывает, как решить задачу бизнеса. Например, прогнозирует, когда покупатель придет в магазин в следующий раз. Он готовит дата-сет, извлекает признаки, экспериментирует с моделями, делает пилотный запуск модели.

Для того, чтобы дата-сайентисту было с чем экспериментировать, дата-инженер готовит данные. Они обычно скрыты в хранилищах. Когда модель готова, дата-инженер масштабирует успешные решения на гораздо бОльшие объемы чем тренировочный датасет

Модель также нужно периодически обновлять: делать отчеты, чтобы бизнес мог ежедневно использовать этот труд, по мере необходимости обновлять признаки. Этим тоже занимается дата-инженер.

Читайте также: Чем занимается дата-инженер X5 Retail Group?

Где он нужен?

Везде, где работа с данными помогает бизнесу развиваться и зарабатывать.

Дата-инженеры особенно востребованы в телекоме, ритейле, банкинге – здесь генерируют больше всего данных. Конечно же, такие спецы нужны в интернет- и транспортных компаниях, маркетинге.

Часто небольшие компании ищут специалиста, который берет на себя задачи и дата-инженера, и дата-сайентиста. Но с ростом бизнеса обязанности разводятся между разными ролями: аналитиками, сайентистами и инженерами.

Пример задачи дата-инженера:

Коллеге дата-сайентисту нужно узнать, какие действия совершают пользователи, оставляющие больше всего денег в приложении такси. Чтобы дата-сайентист смог проанализировать историю их действий и сделать прогноз, дата-инженеру необходимо собрать нужную информацию из приложения. Для этого он:

Для этого необходимо создать пайплайн (процесс сбора, трансформации и загрузки в базу данных), который в реальном времени сможет собрать логи приложений и сервера, проанализировать их и соотнести с конкретным пользователем. Проанализированные логи дата-инженер собирает в базу данных так, чтобы их можно было без труда запросить по API.

Читайте также:  суккуленты что это такое и как ухаживать

Насколько это востребовано?

Из-за того, что данные растут в геометрической прогрессии, компании придумывают новые, более эффективные способы работы с ними. Для этого им нужны не только мощные платформы для хранения, но и сотрудники, которые оптимизируют процессы, поставляют уже подготовленные данные, ускоряя дальнейшую работу дата-сайентистов. Поэтому спрос на специалистов в этой сфере только увеличивается, а зарплаты в этом направлении – одни из самых высоких в IT.

Согласно отчету DICE о технических вакансиях за 2020 год количество вакансий дата-инженера выросло на 50% по сравнению в 2019 годом. Это самый большой показатель среди других профессий.

Сколько получает дата-инженер?

Зарплаты зависят от уровня: в среднем джуниоры получают 100-150 тыс. руб, миддл-специалисты 150-250 тыс. руб, а синьор-профессионалы 250-300 тыс. руб, основываясь на данных из сообщества ODS.

На июнь 2021 года на hh.ru почти тысяча вакансий по запросу data engineer.

Научитесь собирать данные из разных источников, помогайте аналитикам строить гипотезы и принимать бизнес-решения. Дополнительная скидка 5% по промокоду BLOG.

Что ему нужно знать?

По мнению Максима Керемета, на российском рынке дата-инженер – это человек, который может все по чуть-чуть: и программировать, и работать с базами данных, и провести несложную аналитику (построить дашборд в Power BI или Tableau), и самостоятельно написать приложение, которое может работать.

Традиционно дата-инженер работает с таблицами, поэтому ему необходимо знать, как писать SQL-запросы, разбираться в видах баз данных. В основном он сталкивается с реляционными (наборы данных, связанных между собой по значению) и колоночными (данные связаны не по строкам, а по колонкам) базами данных.

Наиболее популярная система управления реляционной БД – PostgreSQL, для колоночных – ClickHouse, он быстрый и используется для аналитики и логирования событий.

Дата-инженер должен хорошо знать Python: он умеет читать таблицы из источников на компьютере, понимает язык на уровне базовых структур, ООП. Python также нужен для того, чтобы писать веб-сервисы, чтобы в дальнейшем работать с продуктивизацией моделей. Кроме того, с помощью языка можно разрабатывать новые сервисы и модели, которые отслеживают стабильность уже работающих программ.

Плюсом будет знание Scala — язык эффективен в промышленных масштабах, когда становится важна скорость обработки данных. В этом Python уступает.

Нужно владеть инструментами экосистемы Hadoop (система управления базами данных Hive или фреймворк Spark) – они помогают работать с большими данными, которые невозможно обрабатывать на одном локальном компьютере из-за объемов и производительности. Для них используются кластерные машины с более мощными показателями.

Чтобы запускать уже готовые сервисы, не требующие доработки, на разных компьютерах, дата-инженеру нужно уметь использовать Docker. Он «упаковывает» сервис, написанный на локальном компьютере, в контейнер, и его можно воспроизводить на компьютере коллеги или кластерной машине.

А для автоматизации работы в команде дата-инженер использует GitLab.

Откуда приходят в дата-инженеры?

Максим Керемет добавляет: « Можно переквалифицироваться из дата-сайентиста, если хочется больше развиваться с точки зрения программирования и построить какой-то сервис или продукт. Кроме того, если надоело постоянно выполнять разные ситуативные задачи и хочется сконцентрироваться на среднесрочных проектах на несколько месяцев, дата-инженер — хороший вариант».

Плюсы и минусы профессии

Как начать?

Новичкам без бэкграунда в IT попасть в профессию сложно, так как она требует серьезной технической подготовки: нужно писать хотя бы на Python, владеть инструментами автоматизации.

Для специалиста в этой области важны знания алгоритмов и структур данных. Алгоритмические задачи хорошо выстраивают мышление, знание синтаксиса языка и его возможностей. Алгоритмы данных можно изучить на бесплатном курсе на Coursera.

Кроме того, на Coursera можно познакомиться с базовыми понятиями, научиться строить пайплайны (выстраивать весь ETL-процесс переноса данных из одного места в другое), разобраться в том, что такое базы данных и как устроены системы облачных хранилищ.

Можно попробовать самостоятельно определить траекторию обучения, ориентируясь на Road map профессии. C ее помощью удобно систематизировать, какими навыками вы уже овладели, а какие нужно подтянуть или выучить с нуля.

Полезные ссылки:

Либо можно пройти полноценный курс по Data Engineering. На нем есть главное – практика, благодаря которой вы сможете не просто в теории разобраться с программами и продуктами, которыми используют в профессии, но отработать технологии на реальных задачах и применить их в проекте.

Освойте перспективную профессию за 10 недель или усильте ваши навыки дата-инженера.

Источник

3 главных Data-профессии: обзор компетенций и зарплат

Data Science выходит в массы. Настолько, что пора напомнить основы, почти что на пальцах. Скоро вполне может появиться множество вакансий c Data Science в заголовке, явно заниженной зарплатой и требованиями к начинающему аналитику, поэтому давайте внесём ясность.

Если вы слышите о Data Science из каждого мегафона и утюга — и окончательно запутались, гуглите «Data Science в Excel», или всё понимаете и хотите объяснить науку о данных кому-то простыми словами, эта статья тоже для вас. А для продвинутых и знающих людей у нас есть другие материалы о практической стороне вопроса.

Данные в отдельно взятой компании

Знакомьтесь, стартап English 123:

Бизнес стартапа — личные и групповые уроки английского, разговорные клубы. Все данные клиентов хранятся в CRM. Но «аналитика» сводится к просмотру статистики покупок. Решения принимаются интуитивно. Директор считает, что знает свою аудиторию, но рекламные кампании иногда проваливаются с треском.

Однажды провалилась реклама, которая поначалу нравилась всему руководству. В неё вложили ощутимый бюджет, и руководитель схватился за голову: куча денег ушла в никуда. Почему — непонятно. Чтобы разобраться в этом, компания нашла аналитика.

Главная задача аналитика данных — превратить цифры и графики в понятные выводы, чтобы руководитель мог принимать решения. Также он строит предположения и проверяет гипотезы на реальных данных. А ещё аналитик много общается — не меньше, чем работает за компьютером.

Вот что аналитик сделал для школы:

Классифицировал данные из CRM, Яндекс.Метрики, Google Analytics и других информационных систем.

Визуализировал данные и подал их ясным языком, составив портрет целевой аудитории.

Проанализировал результаты событий, интеграций, рекламных кампаний и другой деятельности стартапа.

Опираясь на статистику, рассказал руководству, какие решения были ошибочными.

Предложил, как уменьшить отказы от заказов в сети.

Участвовал в редизайне сайта и калибровке рекламных кампаний по всем каналам. Запускал A/B-тесты, которые показывали реакцию пользователей на какое-то изменение.

Выяснилось, что серия последних интуитивных решений приводила к бесполезным результатам, а школа выживала на рынке благодаря почти случайным удачам. Аналитик прокачал стартап по всем фронтам. Давайте посмотрим, что нужно уметь, чтобы стать аналитиком.

Нужно в совершенстве владеть законами логики и мыслить критически. А ещё уметь и любить общаться с самыми разными людьми. Аналитик — посредник между таблицами цифр и руководителем. Главное в его работе — грамотно показать данные и представить выводы так, чтобы их поняли правильно и однозначно.

Специальность аналитика мы рекомендуем перфекционистам и экстравертам, которые умеют и любят презентовать свою работу другим людям. Она идеально подходит тем, кто стремится всё делать аккуратно и красиво.

Руководитель отдела аналитики в SkillFactory Артём Боровой рассказывает, что аналитика — творческая работа: трудно выделить единый подход к задачам. Каждая требует нового порядка действий, а значит, новых поисков решений.

Если вы решились стать аналитиком, нужно освоить следующие хард-скиллы:

Читайте также:  с какими документами работает нотариус

Статистику, матанализ, теорию вероятностей.

Инструменты визуализации: Tableau, Power BI и другие.

Что вы получите за эту работу?

Зарплата

Мы проанализировали больше 100 вакансий на hh.ru — и вот что увидели:

Junior зарабатывает 60 000–70 000 рублей.

Middle — от 70 000 до 140 000 рублей. Здесь аналитики уже делятся на продуктовых, маркетинговых и бизнес-аналитиков, оплата труда зависит от сложности задач.

Senior и Teamlead в Москве: 140 000–190 000. Чуть меньше сумма в регионах — до 160 000.

При этом аналитик с хорошим бэкграундом часто уходит в Data Engineer и Data Science — там платят намного больше, поэтому чистых Senior Analyst мало.

Стать Data Analyst за 10 месяцев вы сможете на наших курсах. А здесь можно прочитать, как финансист Виктор Коваценко стал Data Scientist и уехал в Германию

Расширение и Data Engineer

Тем временем метрики English 123 опровергли устоявшийся портрет клиента, а недочёты работы в сети компания устранила A/B-тестами. Продажи выросли — расширилась и команда аналитиков.

Спустя 2 года анализ данных стал отнимать в несколько раз больше сил и времени, чем в начале работы команды аналитиков. Почему? Причины простые. Записи CRM дублировались, не было единой системы хранения и обработки данных. Узнав о проблемах, компания нашла человека, который доводит сырые данные до ума, — Data Engineer.

Инженер данных налаживает инфраструктуру и каналы данных от их получения до хранения, организует конвеер данных. Вот что Data Engineer сделал для стартапа:

Очистил данные от повторов, пробелов и прочих ошибок; удобно разделил информацию в таблицах по её смыслу.

Привёл существующие базы к единому виду.

Продумал и реализовал систему автоматического мониторинга и получения данных, а ещё системы их обработки и хранения.

Data Engineer освободил руки аналитиков — и они ускорили развитие компании. Информации стало ещё больше, но благодаря налаженной инфраструктуре аналитические модели работали эффективно.

Чтобы делать свою работу хорошо, Data Engineer должен обладать большим терпением. Работать нужно с цифрами, алгоритмами и кодом в полном беспорядке. Что вчера было чёткой системой, сегодня окажется хаосом — в крупных компаниях так случается часто. Хватает и рутинной работы вроде SQL-запросов.

Нужно видеть всю картину: представлять, как превратить массив данных в удобную и эффективную систему, как с данными будут работать аналитики. Необходимо понимать информационные процессы, то есть проштудировать все нюансы бизнеса.

Инженер данных гораздо ближе к разработчику, чем к аналитику. В небольших компаниях ему необязательно общаться с кем-то, кроме аналитиков. Профессия отлично подойдёт педанту с системным мышлением. Проверьте себя — если в вашем шкафу все вещи разложены по типу и цвету, то лучшей специальности вам просто не найти. Приглашаем вас на курс по Data Engineering.

В работе инженеру данных нужны:

Математика. На уровне выпускника технического вуза нужно знать матанализ, теорию вероятностей и статистику.

Python или R, SQL. Большой плюс — языки Java или Scala.

Hadoop, Kafka, Spark — инструменты работы с по-настоящему большими данными.

MS Azure, Amazon Web Services.

Зарплата Data Engineer

По данным hh.ru, инженер данных неплохо зарабатывает даже в рамках IT-сферы.

Junior может рассчитывать на 70 000–80 000 рублей; в Москве довольно много вакансий с минимальной зарплатой в 100 000.

Middle в среднем зарабатывает от 100 000 до 180 000 рублей. Есть ставки выше, но на таких вакансиях обычно нужны специфические знания или опыт использования не слишком популярных технологий.

Senior московская компания Playkot предлагает до 370 000 рублей. Хорошие инженеры данных очень ценятся, бизнес ими дорожит.

Стать Data Engineer вам поможет наш курс, который займёт 10 недель.

Продолжим историю

Усилиями команды компания выросла в несколько раз, появилось много продуктов: приложение для изучения лексики и отдельные программы подготовки к международным экзаменам. Бизнес вошёл в десятку крупнейших в стране.

Штат аналитиков уже не справлялся. Последней каплей стал провал социальной сети для изучения английского языка, в которую вложили полмиллиона долларов. Традиционный анализ показывал, что проект будет успешным, его оттачивали разными тестами. Но он не взлетел. В чём причина?

Массив данных English 123 превратился в Big Data, а бизнес как будто начинался снова: многое зависело от стечения обстоятельств. Необходим был человек, который поймёт, что творится, и расскажет, что делать. Так в компанию пригласили Data Scientist.

Опираясь на проверенные и новейшие исследования в ИИ, Data Scientist строит нейросети и модели ML. Вначале они могут быть непонятны, но модели работают, решают реальные проблемы. Главное в работе DS — все свои идеи он должен объяснить бизнесу и обосновать их пользу. Вот почему такой специалист стоит очень дорого.

Data Scientist — идеальная работа для новаторов. Работа в науке о данных — это постоянный поиск идей и нестандартных решений. Если вы искали профессию, где слиты воедино творчество и математика, то вы её нашли.

Благодаря Data Scientist высшие руководители отвечают только за долгосрочное планирование, а практические задачи предоставлены менеджерам и аналитикам.

SkillFactory — прежде всего школа Data Science, чтобы быть конкретными, кратко перечислим темы проектов наших студентов:

Система рекомендаций интернет-магазина; Instagram-бот коммерческого аккаунта для поиска, оценки и взаимодействия с лидерами мнений.

Автоматическое составление резюме текста; алгоритм оценки тона сообщений GPT-3 на заданную тему.

Извлечение промокодов из контента соцсетей; робот-предсказатель; прогнозирование задержек авиарейсов; анализ видео из беспилотных автомобилей.

Модель прогнозирования нетарифных барьеров в торговле молочной продукцией и расширение её ассортимента до 6 видов товаров животного и растительного происхождения.

Вот что нужно знать Data Scientist

Понимать математические выкладки — да, но этого мало. Нужно представлять себе, где они выстрелят. Владеть Machine Learning и Deep Learning: линейной и логистической регрессиями, деревьями решений, методами опорных векторов и т. д.

Python и его библиотеки: TensorFlow, Keras, PyTorch, LightGBM, NumPy, SciPy, Pandas, sklearn. Владение C или C++ будет большим преимуществом.

SQL работает большинство проектов. Базы NoSQL нужны реже.

Tableau, Power BI, другие инструменты визуализации Seaborn, Plotly или Matplotlib.

Один из самых важных моментов — что получит специалист за такой труд.

Зарплата Data Science

Посмотрим на последние данные hh.ru за последний месяц:

От 100 000 рублей до 140 000 в месяц может зарабатывать Junior. Но Junior в Data Science очень мало. Почему? Смотрите выше: в DS переходят спецы уже с бэкграундом в разработке или аналитике данных.

До 215 000 рублей — зарплата крепкого Middle.

Senior и Lead Data Scientist могут зарабатывать от 300 000 до 500 000. На вес золота.

Освоить профессию Data Science вы можете на наших курсах за 24 месяца. А вот полная картина востребованности последних лет, по данным Open Data Science:

Наука о данных растёт просто невообразимыми темпами. Количество вакансий по главным специальностям за год увеличилось в 2,2 раза. При этом, по словам Data Scientist в VK Михаила Воловича, требования к DS пока размыты. Но именно эта пластичность даёт разные точки роста разным людям.

Поэтому если вы хотели начать карьеру в IT или перейти в сферу данных из разработки и тестирования, то сделайте это прямо сейчас.

Также вы можете перейти на страницы из каталога, чтобы узнать, как мы готовим специалистов в других направлениях.

Другие профессии и курсы

Data Science и Machine Learning

Источник

Сказочный портал