Data Scientist и Data Engineer: в чем разница?
Развитие науки о данных дало старт нескольким профессиям с префиксом «дата-», которые несложно перепутать. Работа дата-сайентиста и дата-инженера во многом похожа, но эти специалисты не взаимозаменяемы и выполняют разные задачи. Позиция Data Engineer — прикладная, а Data Scientist — более творческая и аналитическая.
Кто такие исследователи данных и дата-инженеры?
Дата-инженер разрабатывает, строит, тестирует и поддерживает архитектуру данных: крупные базы данных, хранилища или системы для обработки информации. Он работает с сырыми данными, перерабатывает их и строит пайплайны (схемы по их обслуживанию) — то есть подготавливает материал для использования дата-сайентистами.
Дата-сайентист использует обработанные дата-инженером данные, чтобы построить прогнозные модели и решить те или иные бизнес-задачи. Такой специалист использует методы описательной статистики для анализа и систематизирования данных и строит модели с помощью алгоритмов машинного обучения, чтобы снабжать бизнес прогнозами и инсайтами.
Что Data Scientist и Data Engineer могут делать в одной компании?
У исследователя данных и дата-инженера обычно разные цели. Первый непосредственно решает запросы бизнеса: для этого он проверяет гипотезы и строит прогнозные модели. Второй отвечает за оптимальное и надежное хранение данных, их преобразование, а также за быстрый и удобный доступ к ним. Это позволяет дата-сайентисту работать с корректными и актуальными данными. Компании, которые хотят использовать Data Science для развития своего бизнеса, могут нанимать и дата-инженера, и дата-сайентиста.
Пример: в онлайн-магазине бытовой техники каждый раз, когда посетитель сайта нажимает на тот или иной товар, создается новый элемент данных.
Дата-инженер может собрать эти данные и сохранить в удобном для доступа формате. Дата-сайентист получает данные о том, какие клиенты купили те или иные товары, и использует эту информацию так, чтобы предсказать вариант идеального предложения для каждого нового посетителя сайта.
Пример: работа в платной онлайн-библиотеке. Если компания хочет узнать, какие пользователи тратят больше денег, им нужны компетенции и дата-сайентиста, и дата-инженера. Инженер соберет информацию из логов сервера и журналов событий сайта и создаст пайплайн, который соотносит данные с конкретным пользователем. Затем инженеру нужно будет обеспечить хранение полученной информации в базе данных так, чтобы ее можно было без труда запросить. После этого дата-сайентист сможет проанализировать действия пользователей сайта и узнать особенности поведения тех, кто тратит больше денег.
Что именно делает исследователь данных, а что — дата-инженер?
Часть навыков этих специалистов пересекается (например, в области доступа к данным или программирования), но специализация у них разная. Дата-инженер — более прикладная позиция, она направлена на кропотливую работу по формированию пайплайнов данных и их дальнейшему поддержанию. Работа дата-сайентиста — более творческая и аналитическая.
Обязанности дата-сайентиста:
Data Science с нуля
Освойте самую востребованную профессию 2021 года! Только реальные знание и навыки, поддержка менторов и помощь в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.
Обязанности инженера данных:
Какую профессию выбрать?
На практике четкая граница между специальностями дата-сайентиста и инженера данных существует только в IT-компаниях и крупных корпорациях с большими IT-отделами. Специалист по Data Science часто сочетает навыки смежных позиций — он должен подстроиться под конкретную задачу и решить ее.
Вход в профессию будет легче, если человек уже обладает частью навыков: умеет программировать, знает математику и статистику. Человек с бэкграундом в IT быстрее поймет принципы работы с данными и сможет выбрать для себя специализацию. Часто разработчики и аналитики переучиваются на дата-сайентистов, продакт-менеджеры — на аналитиков данных, а бухгалтеры и маркетологи — на бизнес-аналитиков.
Изучать науку о данных можно и без технического бэкграунда и умения программировать. Так как позиции дата-аналитика, дата-сайентиста и дата-инженера близки, при необходимости можно будет довольно быстро поменять специализацию.
Помимо этих двух специальностей, есть и другие, связанные с наукой о данных: дата-аналитик, администратор баз данных, менеджер данных, бизнес-аналитик, маркетолог-аналитик, ML-инженер. Все они подразумевают работу с данными и требуют изучения базовых понятий Data Science.
Оптимальный путь для начинающего специалиста — освоить базовые навыки Data Science, а уже затем углубиться в ту область, которая покажется самой интересной.
Дата-аналитик и дата-сайентист — чем отличаются две самые востребованные специальности года
Сергей Кравченко, дата-аналитик, Росгосстрах
Любой бизнес — это данные. Если собрать все денежные транзакции внутри большой компании и создать цифровую бухгалтерскую книгу, получится огромная таблица с миллиардами строк. Обычный человек без инструментов программирования не сможет проанализировать такой массив данных и понять, что происходит в компании, с какими проблемами она столкнулась и как их решить. Тут-то в игру и вступает дата-аналитик.
Я собираю данные, чтобы понять взаимосвязь между ними, использую статистический анализ, визуализирую всю информацию, получаю понятную картину о состоянии компании и выявляю тренды. В результате страшная таблица из миллиардов строк превращается в аккуратные наглядные графики. На основе такой информации принимаются ключевые бизнес-решения.
Данными может быть любая количественная единица. В первую очередь это, конечно, деньги. Например, можно проанализировать денежные транзакции в 100 торговых точках одной компании и узнать, какие из них не достигли показателей плана продаж. Также, например, дата-аналитики исследуют персональные данные сотрудников. Их можно, например, опросить, выяснить, из-за чего у них случается эмоциональное выгорание на работе, и придумать, как избежать этой проблемы. Дата-анализ отвечает и на другие вопросы: какие новые продукты следует разработать, стоит ли выходить на новые рынки, куда инвестировать, как повысить лояльность клиентов. Конечный продукт работы дата-аналитика всегда один — эффективное бизнес-решение.
Я как руководитель вижу нехватку специалистов в дата-аналитике. Чаще всего я принимаю на работу сотрудников с базовым набором знаний и учу их уже на практике. Я сам когда-то после педагогического института ходил по собеседованиям и пытался начать карьеру в дата-аналитике, и мне тоже пришлось «дообучаться». Сейчас мы в компании проводим конференции для дата-аналитиков и видим, что с каждым годом количество специалистов растет. Появляются новые направления дата-анализа, например, развитие подхода Self-Service BI. В отличие от обычных аналитических платформ, эти инструменты намного проще и доступней для неспециалистов. С их помощью любой сотрудник в компании может участвовать в дата-анализе наравне с IT-специалистами и делиться результатами анализа с топ-менеджерами.
Дата-сайентист — еще более молодая специальность, чем дата-аналитик. Если аналитики проявляют свой творческий потенциал в визуализации данных, то сайентисты «креативят» с машинным обучением и создают новые математические модели, которые внедряют в бизнесе и в науке. В отличие от дата-сайентистов, постоянно находящихся в творческом поиске, дата-аналитики должны представлять результаты своей работы регулярно.
Лучший вариант — учиться профессии аналитика данных у тех, кто уже работает в этой области, и перенимать их опыт. Следить за трендами и участвовать в реальных проектах, а не просто штудировать теорию и учебники по математике. Все это можно получить на курсе Data Analyst, где преподают сотрудники Яндекса, OZON и другие представители профессии с многолетним опытом работы.
Дарина Дементьева, дата-сайентист, Skoltech
Каждый раз, выходя в интернет, люди оставляют там какие-то данные, их количество стремительно растет. И вместе с этим растет необходимость в обработке всех этих данных: информации о поведении пользователей, отчетностей по доходам, юридических документов, биржевых котировок и даже картинок с котами.
Иногда нелегко объяснить, что конкретно делает дата-сайентист с массивами данных. Помню, как я рассказала своим родителям, что занимаюсь машинным обучением на заводе. Они подумали, что я учусь работать на станке, и попросили найти нормальную работу. Я с ними отчасти согласна: дата-сайентист — это в хорошем смысле не нормальная работа. С одной стороны, это человек, который, как и дата-аналитики, собирает данные, обрабатывает и строит модели на их основе. С другой стороны, он должен иметь внушительный бэкграунд, чтобы уметь экспериментировать с этими данными и представлять руководству интересные решения, способные позитивно повлиять на будущее компании. Для этого требуются специальные знания о бизнесе, экономике, машинном обучении и конкретном проекте. Это может быть химия, физика, инженерное дело — все, что угодно.
Именно этим мне и нравится специальность дата-сайентиста — разнообразием и широким полем для экспериментов. Можно работать в любой области и использовать, помимо навыков программирования, свою эрудицию. Мне, например, часто приходилось возвращаться к школьным знаниям по химии или университетскому курсу по физике. Сейчас я занимаюсь анализом естественного языка (Natural Language Processing) и наблюдаю, как современные технологии могут схватывать смыслы в текстах и генерировать новые не хуже человека. Возможность создавать такие интересные вещи, потихоньку приближаясь к созданию искусственного интеллекта, безусловно вдохновляет.
Дата-сайентисты на средних позициях получают примерно 150–170 тысяч рублей в месяц. Тут мы немного отличаемся от дата-аналитиков — у них средняя зарплата 100–120 тысяч рублей.
Тем, кто хочет стать дата-сайентистом, я бы посоветовала уделить особое внимание математической базе. Вся математика для работы не нужна, но базовые знания необходимы. Для этого можно пройти специальные курсы. Второй совет — обязательно следить за трендами и новостями индустрии. Наука развивается с невероятной скоростью, и то, что применялось каких-то полгода назад, уже может устареть. Так что надо постоянно быть в теме. И, конечно, нужно развивать в себе главные качества дата-сайентиста — аналитический склад ума, любопытство и усидчивость.
На курсе Data Science в SkillFactory профессии учат с нуля. Студенты осваивают базовые навыки работы с данными и смогут углубить знания в той области, которая покажется самой интересной. Кроме того, студенты сделают десять проектов для портфолио, получат индивидуальную помощь ментора и поучаствуют в нескольких соревнованиях и хакатонах.
Евгений Денисенко, госслужащий, студент SkillFactory по специальности дата-сайентист
Большие данные невозможно обработать вручную. Если у вас есть табличка с данными по товарам, в которой десять колонок и тысяча строк, вы можете героически посидеть неделю и провести ее анализ. Но если это тысяча колонок и 100 тысяч строк, то так вы проанализируете их в лучшем случае за год. К этому времени данные уже наверняка устареют.
Анализ данных применяют не только в частных компаниях. В госорганах дата-аналитики и дата-сайентисты тоже могли бы пригодиться. В основе госслужбы и политики лежат управленческие решения, а в основе принятия оптимальных и обоснованных решений лежит как раз анализ данных. Это так называемый data-driven management. У госорганов есть доступ к большим объемам информации, и в теории они могли бы использовать ее для принятия эффективных управленческих решений.
Моя жена пишет дипломную работу по большим данным, и благодаря ей я тоже немного погрузился в эту тему. Начал читать статьи, разбираться и понял, что специальность дата-сайентиста мне близка и интересна. К тому же она востребована на рынке, и спрос на нее постоянно растет. Поэтому я решил, что нужно учиться именно на дата-сайентиста, и пока о своем решении не пожалел.
Это очень творческая специальность. Изучая данные и применяя навыки программирования, дата-сайентист вместе с тем постоянно экспериментирует и находит креативные решения. Мне запомнился пример одной крупной американской сети магазинов. В начале 2000-х ее специалисты научились с помощью анализа клиентских покупок определять среди потребителей беременных женщин. Благодаря этому они смогли повысить лояльность клиентов, рассылая им предложения о скидках на товары для детей и матерей. Хотя однажды произошел курьез: компания узнала о беременности молодой женщины раньше, чем ее отец. Он догадался о положении дочери, когда увидел присланные ей купоны на детскую одежду.
Это только один пример из индустрии ретейла. Дата-сайентист может работать в разных сферах: планировать поставки товаров, проводить политические кампании, генерировать тексты, обучать автопилоты и даже предсказывать, какая песня станет хитом, а какая нет.
Главное качество дата-сайентиста — умение учиться. В этой специальности обучаться нужно постоянно, поскольку технологии и методы, применяемые в работе, постоянно обновляются.
На курсах Data Science и Data Analyst в SkillFactory вас не только научат работать с большими данными, но и помогут найти работу. Начиная с первых недель обучения, ментор поможет определить карьерные цели и не сойти с намеченного пути, а сотрудники карьерного центра подскажут, как оформить резюме и попасть на собеседования. По промокоду snob онлайн-школа предлагает забронировать место со скидкой 50%. Сделать это можно до 30 сентября.
r_d media
Data scientist, data analyst, data engineer
Кто они и в чем разница.
Некоторые считают, что data scientist, дата-аналитик и дата-инженер занимаются одним и тем же. На самом деле все не так просто. У каждого из них — свои задачи и функции, которые могут пересекаться.
Вместе с Ольгой Матевой, Analyst в Preply, Максимом Натальчишиным, Data Engineer в AutoDoc, и Виталием Радченко, Data Scientist в YouScan, рассказываем, в чем различие позиций и может ли один человек совмещать компетенции.
Кто за что отвечает
Дата-аналитик — позиция для тех, кто хочет начать работать с данными. Технические навыки важны, но главное — знание статистических методов.
Ключевые навыки дата-аналитика:
Data scientist чаще работает с большими массивами данных. Он ищет в них закономерности, строит прогнозные модели, создает рекомендательные алгоритмы. Также data scientist может визуализировать данные.
Виталий: «Data scientist должен подстроиться под определенную задачу и решить ее. Если нужно, он может совмещать и компетенции дата-аналитика, и компетенции дата-инженера. Но это не значит, что data scientist справится лучше дата-инженера с задачей оптимизации пайплайна или найдет аномалии в данных быстрее дата-аналитика.
Сложнее всего для data scientist собрать качественные данные. Почти всегда качество данных — это определяющий критерий, без которого техническая часть не имеет смысла.
Ключевые навыки data scientist’а:
Кроме этого, data scientist должен иметь опыт программирования на Python, уметь работать с SQL, создавать визуализации данных и обладать хотя бы базовыми знаниями в области machine learning.
Дата-инженер обеспечивает сбор данных и готовит их для работы аналитиков и специалистов по data science.
Ольга: «Данные поступают из разных источников. Нужно, чтобы все они загружались, мэтчились между собой, были нормального качества и приходили регулярно. Потом эти данные нужно собирать в базы, с таблицами, понятными связями и нормальной скоростью работы».
Для инженера важна глубокая техническая подготовка — навыки программирования на Python или Java, понимание баз данных. Дата-инженеры разрабатывают программные решения для big data, создают пайплайны, поддерживают архитектуры данных.
Максим: «Дата-инженер занимается проектированием и наполнением хранилищ, а также трансфером данных.
Ключевые навыки дата-инженера — это знания в области баз данных (реляционных/нереляционных, колоночных хранилищ)».
По данным Towards Data Science, чаще всего в требованиях к дата-инженерам в описаниях вакансий упоминается знание языка для управления базами данных SQL, языка программирования Python, фреймворка для обработки данных Spark, облачной платформы AWS.
Источник: Towards Data Science
Смежность профессий
Чем крупнее компания, тем выше вероятность, что там будут работать и инженер, и аналитик, и data scientist. В стартапах компетенции всех трех специалистов может совмещать один человек — собирать данные, строить модели и анализировать их.
Ольга: «Поиск инсайтов в данных можно разбить на подзадачи: сбор данных, проверку, сам анализ и результаты.Часто в маленьких и средних компаниях один аналитик берет на себя все задачи. В крупных работы больше, и задачи распределяются между специалистами разного профиля — аналитиками, data scientist’ами и дата-инженерами».
Виталий: «Разница между профессиями — в приоритетах и специализации: у дата-инженера — сильный уклон в девелоперскую часть, у дата-аналитика — в доменную область и анализ, а data scientist может сочетать навыки инженера и аналитика. Он должен подстроиться под конкретную задачу и решить ее».
Data Engineer и Data Scientist: какая вообще разница?
Профессии Data Scientist и Data Engineer часто путают. У каждой компании своя специфика работы с данными, разные цели их анализа и разное представление, кто из специалистов какой частью работы должен заниматься, поэтому и требования каждый предъявляет свои.
Разбираемся, в чём разница этих специалистов, какие задачи бизнеса они решают, какими навыками обладают и сколько зарабатывают. Материал получился большим, поэтому разделили его на две публикации.
В первой статье Елена Герасимова, руководитель факультета «Data Science и аналитика» в Нетологии, рассказывает, в чём разница между Data Scientist и Data Engineer и с какими инструментами они работают.
Как различаются роли инженеров и сайентистов
Инженер данных — это специалист, который, с одной стороны, разрабатывает, тестирует и поддерживает инфраструктуру работы с данными: базы данных, хранилища и системы массовой обработки. С другой стороны — это тот, кто очищает и «причёсывает» данные для использования аналитиками и дата-сайентистами, то есть создаёт конвейеры обработки данных.
Data Scientist создаёт и обучает предиктивные (и не только) модели с помощью алгоритмов машинного обучения и нейросетей, помогая бизнесу находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые бизнес-процессы.
Главное различие между Data Scientist и Data Engineer состоит в том, что обычно у них разные цели. Оба работают для того, чтобы данные были доступными и качественными. Но Data Scientist находит ответы на свои вопросы и проверяет гипотезы в экосистеме данных (например, на базе Hadoop), а Data Engineer — создаёт пайплайн обслуживания алгоритма машинного обучения, написанного дата-сайентистом, в кластере Spark внутри той же экосистемы.
Инженер данных приносит ценность бизнесу, работая в команде. Его задача — выступить важным звеном между разными участниками: от разработчиков до бизнес-потребителей отчетности, — и повысить продуктивность аналитиков — от маркетинговых и продуктовых до BI.
Data Scientist же, напротив, принимает активное участие в стратегии компании и извлечении инсайтов, принятии решений, внедрении алгоритмов автоматизации, моделирования и генерации ценности из данных.
Работа с данными подчиняется принципу GIGO (garbage in — garbage out): если аналитики и дата-сайентисты имеют дело с неподготовленными и потенциально некорректными данными, то результаты даже с помощью самых изощрённых алгоритмов анализа будут неверны.
Инженеры данных решают эту проблему, выстраивая пайплайны по обработке, очистке и трансформации данных и позволяя дата-сайентисту работать уже с качественными данными.
На рынке много инструментов для работы с данными, которые покрывают каждый из этапов: от появления данных до вывода на дашборд для совета директоров. И важно, чтобы решение об их использовании принималось инженером, — не потому, что это модно, а потому что он действительно поможет в работе остальным участникам процесса.
Условно: если компании нужно подружить BI и ETL — загрузку данных и обновления отчётов, вот типичный legacy-фундамент, с которым придётся иметь дело Data Engineer (хорошо, если в команде кроме него будет ещё и архитектор).
Обязанности Data Engineer
Обязанности Data Scientist
И Data Engineer, и Data Scientist объединяет ощутимый вклад в развитие культуры работы с данными, с помощью которой компания может получать дополнительную прибыль или сокращать издержки.
С какими языками и инструментами работают инженеры и сайентисты
Сегодня ожидания от специалистов по обработке данных изменились. Раньше инженеры собирали большие SQL-запросы, вручную писали MapReduce и обрабатывали данные с помощью таких инструментов, как Informatica ETL, Pentaho ETL, Talend.
В 2020 году специалисту не обойтись без знания Python и современных инструментов проведения вычислений (например Airflow), понимания принципов работы с облачными платформами (использования их для экономии на «железе», при соблюдении принципов безопасности).
SAP, Oracle, MySQL, Redis — это традиционные для инженера данных инструменты в больших компаниях. Они хороши, но стоимость лицензий настолько высока, что учиться работать с ними имеет смысл только в промышленных проектах. При этом есть бесплатная альтернатива в виде Postgres — он бесплатный и подходит не только для обучения.
Исторически часто встречается запрос на Java и Scala, хотя по мере развития технологий и подходов эти языки отходят на второй план.
Тем не менее, хардкорная BigData: Hadoop, Spark и остальной зоопарк — это уже не обязательное условие для инженера данных, а разновидность инструментов для решения задач, которые не решить традиционным ETL.
В тренде — сервисы для использования инструментов без знания языка, на котором они написаны (например, Hadoop без знания Java), а также предоставление готовых сервисов для обработки потоковых данных (распознавание голоса или образов на видео).
Популярны промышленные решения от SAS и SPSS, при этом Tableau, Rapidminer, Stata и Julia также широко используются дата-сайентистами для локальных задач.
Возможность самим строить пайплайны появилась у аналитиков и дата-сайентистов всего пару лет назад: например, уже можно относительно несложными скриптами направлять данные в хранилище на основе PostgreSQL.
Обычно использование конвейеров и интегрированных структур данных остаётся в ведении дата-инженеров. Но сегодня как никогда силён тренд на Т-образных специалистов — с широкими компетенциями в смежных областях, ведь инструменты постоянно упрощаются.
Зачем Data Engineer и Data Scientist работать вместе
Работая в тесном сотрудничестве с инженерами, Data Scientist могут сосредоточиться на исследовательской части, создавая готовые к работе алгоритмы машинного обучения.
А инженеры — сфокусироваться на масштабируемости, повторном использовании данных и гарантировать, что пайплайны ввода и вывода данных в каждом отдельно взятом проекте соответствуют глобальной архитектуре.
Такое разделение обязанностей обеспечивает согласованность действий между группами специалистов, работающими над разными проектами машинного обучения.
Сотрудничество помогает эффективно создавать новые продукты. Скорость и качество достигаются, благодаря балансу между созданием сервиса для всех (глобальное хранилище или интеграция дашбордов) и реализацией каждой конкретной потребности или проекта (узкоспециализированный пайплайн, подключение внешних источников).
Тесная работа с дата-сайентистами и аналитиками помогает инженерам развивать аналитические и исследовательские навыки для написания более качественного кода. Улучшается обмен знаниями между пользователями хранилищ и озёр данных, что делает проекты более гибкими и обеспечивает более устойчивые долгосрочные результаты.
В компаниях, которые ставят своей целью развитие культуры работы с данными и выстраивание бизнес-процессов на их основе, Data Scientist и Data Engineer дополняют друг друга и создают полноценную систему анализа данных.
В следующем материале расскажем о том, какое образование должно быть у Data Engineer и Data Scientists, какие навыки им нужно развивать и как устроен рынок.
От редакции Нетологии
Если присматриваетесь к профессии Data Engineer или Data Scientist, приглашаем изучить программы наших курсов:











