data analysis что это такое

Обзор современных инструментов дата-аналитика

Сразу уточню, что видов аналитиков очень много, так как анализировать можно все что угодно. Это и веб-аналитики, и классические data scientists, и бизнес-аналитики, и финансовые аналитики, а также продуктовые, системные и UX аналитики. Причина такого разнообразия, по-видимому, в том, что в ряде крупных компаний над созданием одной платформы или продукта одновременно могут работать десятки, а то и сотни программистов и аналитиков. В таких условиях происходит сильное сужение специализации.

Все перечисленные виды аналитиков используют свои специфические наборы инструментов. Поэтому сосредоточусь только непосредственно на сфере анализа данных вне контекста происхождения этих самых данных. Таким образом мы исключаем из обзора системы веб-аналитики, CRM, ERP, системы складского учета, управления логистикой и документооборотом.

1. Языки программирования

Не будем касаться исключительных, уникальных или редких случаев. Рассмотрим все только самое популярное. И конечно же, в первую очередь, это язык python.

Python служит главным инструментом в руках data scientists, не имеет строгой типизации и предназначен для быстрой разработки прототипов или написания коротких сценариев или скриптов. Люди разбирающиеся в программировании и computer science его часто критикуют за то, что алгоритмы написанные на чистом python оказываются не оптимальными в отношении своей производительности и требованиям к памяти.

Но тем не менее у данного языка программирования есть много плюсов. Среди них я бы отметил то, что python преподают уже практически везде, в связи с чем сравнительно легко найти аналитика знающего python. Второе преимущество — это библиотеки для работы с данными и машинного обучения, имеющие удобный интерфейс. Например, на основе библиотеки sklearn легко собирать конвейеры предварительной обработки данных и построения моделей. Все алгоритмы и настройки машинного обучения инкапсулированы внутри классов и объектов, что делает код очень простым.

До недавнего времени основным конкурентом python был язык R. Пожелания к знанию R и сейчас изредка встречаются в описаниях вакансий по крайней мере в разделе «преимущества». До середины 2018-го года я и сам программировал на R. И при попытке автоматизировать часть своей работы по машинному обучению чуть не изобрел велосипед, пытаясь на R создать конвейеры подготовки данных и обучения моделей. Чуть позже узнал, что такие конвейеры уже давно существуют в библиотеке sklearn и называются pipeline.

Если существующих библиотек на python недостаточно и требуется реализовать новый алгоритм с высокой производительностью, к вашим услугам компилируемый и статически типизированный язык C++ или похожий на него язык C#.

Язык MatLab встроен в одноименный пакет программ и интерактивную среду инженерных расчетов. Правда предназначен данный язык в большей степени для решения технических задач, а не для выполнения финансового или бизнес-анализа. Например, мне посчастливилось применять MatLab дважды: в процессе исследования сигналов акустической эмиссии в конструкциях, а также при обработке человеческой речи.

Существует ряд библиотек машинного обучения с API для других языков программирования, таких как Java, JavaScript, Scala и т.д. Но останавливаться на них не буду поскольку цель статьи немного иная.

Прошу немного потерпеть. Обо всем вы узнаете в следующих разделах.

2. AutoML и визуальные конструкторы

AutoML согласно своей основной идее резко упрощает задачу исследователя и сводит несколько шагов по изучению и подготовке данных, конструированию признаков, выбору и сравнению алгоритма машинного обучения и настройке гиперпараметров к одному единственному шагу. И этот шаг заключается в выборе и настройке одного большого ящика под названием AutoML. Результатом запуска алгоритма AutoML является сконструированный и соответствующим образом настроенный и обученный pipeline. Остается только брать «сырые» данные, подсовывать их в pipeline и ждать на выходе результат в виде прогнозов.

Ящик под названием «AutoML» выглядит либо как библиотека машинного обучения, либо как веб-сервис куда заливаются данные.

Если это библиотека, то она отличается от sklearn тем, что наш привычный код в 20-30 строк сжимается до 5 строк. Известный пример такой библиотеки H2O.

Другой пример — библиотека MLBox. Про нее в интернете можно найти истории, о том как применение MLBox позволило попасть в топовые 5% на соревнованиях kaggle.

Теперь несколько слов об облачных сервисах AutoML. Во первых, свои технические решения спешат представить все основные цифровые гиганты. Вот некоторые из них: Google AutoML Tables, Azure Machine Learning (Microsoft), SageMaker Autopilot (Amazon). Перечисленные сервисы должны быть интересны в первую очередь тем компаниям, которые разрабатывают аналитические системы на облачных платформах. Очень удобно, когда и инфраструктуру данных, и вычислительные ресурсы, и готовые алгоритмы машинного обучения предоставляет один и тот же провайдер. Интеграция получается поистине бесшовной.

Помимо цифровых гигантов на рынке AutoML появляются и игроки поменьше. Например, непосредственно в настоящий момент в компании Bell Integrator идет активная работа над платформой neuton.ai.

В этом же разделе стоит вспомнить про системы машинного обучения, занимающие промежуточные позиции между непосредственным программированием на R и Python и полностью упакованным в коробку AutoML. Это так называемые конструкторы workflow. Два типичных примера: конструктор машинного обучения Azure от Microsoft и платформа SberDS Сбербанка.

Конструктор представляет собой набор кубиков, из которых можно собрать весь конвейер машинного обучения, включая финальную проверку работоспособности модели. Это несомненно красивое решение для людей с визуальным типом мышления, которым удобно представлять процесс машинного обучения и тестирования моделей в виде схем.

3. Инструменты BI

Здесь бы я хотел рассмотреть несколько BI решений в области аналитики: Power BI, Tableau, Qlik Sense, QlikView и Excel.

Power BI — это набор аналитических инструментов от Microsoft, которые доступны в виде десктопных приложений и облачных сервисов. Существуют корпоративные решения, работающие на закрытой it-инфраструктуре компании. Работа в Power BI Desktop или Power BI Services не требует навыков программирования. Предусмотрена возможность онлайн-интеграции с внешними источниками данных, а также загрузка данных в формате csv.

Power BI способен решать задачи машинного обучения посредством AutoML, то есть для построения модели классификации или регрессии писать программный код как на питоне не придется. Кроме стандартных задач анализа табличных данных в функционал встроены технологии анализа тональности, извлечения ключевых фраз, распознавания языка и добавления тегов к изображению.

Tableau также представляет собой целое семейство онлайн и десктопных приложений, как и Power BI. Данные приложения имеют простой визуальный интерфейс и позволяют работать методом перетаскивания drag-and-drop. Красивые графики строятся буквально за несколько кликов. Также данные можно анализировать в табличном виде и применять к ним различные фильтры.

Tableau позволяет решать и задачи машинного обучения, такие как регрессия, прогнозирование временных рядов, кластерный анализ. А главное, Tableau способен интегрироваться с внешними скриптами на R и Python. Получается легко расширяемый инструмент.

Qlik Sence и QlikView

Qlik Sence и QlikView по позиционированию и интерфейсу отличаются между собой, но по сути и по алгоритмам решения задач построены на одном движке. QlikView — корпоративная платформа, которой управляют it-специалисты, Qlik Sence — инструмент для личного использования без необходимости обращаться за помощью в тех. поддержку.

При первом же знакомстве бросается в глаза «красота» и легкость визуализации. Это тот самый инструмент, если надо построить приятный глазу дашборд для руководства. С моей точки зрения особенно зрелищным выглядит возможность менять масштаб при анализе географических карт и кластеров на двухмерных графиках. Вспоминаются кадры из фильмов, где на фото со спутников пытаются разглядеть номер автомобиля или выделить человека из толпы на площади.

Читайте также:  какой краской можно покрасить стеклянную банку

Еще одна интересная опция — наличие мобильного приложения для выполнения анализа со смартфона. Так и представляется топ-менеджер сети ритейла, спешащий на очередной рейс в аэропорту и получивший неожиданное сообщение в мессенджере со ссылкой на дашборд.
Qlik Sence интегрируется с Python, а следовательно и с машинным обучением.

Вы меня простите, но я не мог пройти мимо Excel. Сколько не смейся, но любой инструмент по своему хорош. Например, в Excel прекрасно строятся сводные таблицы и графики, буквально в несколько кликов. В сочетании с удобным табличным процессором и работой с форматом csv вполне себе хороший инструмент.

4. Изюминка на торте. Автоматическая генерация кода на основе AI

Как-то раз при знакомстве в сети мне задали вопрос «ты программируешь на python?». И когда я ответил «Да», продолжение было совершенно неожиданным.

Речь идет о генеративной текстовой модели от OpenAI, обученной на репозитории GitHub. На конкретных примерах показана способность модели генерировать код на Python на основании заголовка функции и ее краткого описания.

А что будет, если такую модель удастся хорошо обучить на скриптах data scientists? Это вопрос для размышлений…

Источник

Data Analyst или Data Scientist — кем бы вам хотелось быть?

Каково находиться в каждой из этих ролей, рассказывает Matt Przybyla, автор статьи, опубликованной в блоге towardsdatascience.com. Предлагаем вам ее перевод.


Фото с сайта Unsplash. Автор: Christina @ wocintechchat.com

Мне довелось поработать и профессиональным аналитиком данных (Data Analyst), и исследователем данных (Data Scientist). Думаю, было бы полезно поделиться опытом по каждой должности, указывая ключевые различия в повседневных задачах. Я надеюсь, что моя статья поможет определиться, что подходит именно вам. А тем, кто уже работает, возможно, после прочтения захочется изменить свою должность. Некоторые начинают аналитиками данных, а затем переходят в исследователи. Не так популярен, но не менее интересен путь от исследователя на невысоких позициях до аналитика на позиции сеньора. Обе должности имеют свои особенности и требуют определенных умений, о которых необходимо знать, прежде чем сделать следующий большой шаг в профессиональном развитии.

Ниже я, опираясь на свой опыт, расскажу, что такое быть аналитиком данных и исследователем данных, и подробно отвечу на наиболее частые вопросы о каждой позиции.

Data Analyst

Если вы хотите описывать данные за прошедший период или текущий момент и презентовать стейкхолдерам ключевые результаты поиска, полную визуализацию изменений и тенденций, значит, вам подходит позиция аналитика данных. У упомянутых должностей есть общие черты, которые я описывал в другой статье, охватывающей сходства и различия между необходимыми для этих позиций навыками. Сейчас же я хочу показать, как роль аналитика данных в сравнении с ролью исследователя данных ощущается. Очень важно понимать, чего ждать этим специалистам в их повседневной работе. Аналитик будет взаимодействовать с разными людьми, много общаться и поддерживать высокий темп выполнения задач — выше, чем требуется от исследователя данных.

Поэтому впечатления, получаемые на каждой из должностей, могут сильно различаться.

Ниже вы найдете ответы на самые частые вопросы о том, с чем сталкиваются аналитики данных.

Data Scientist

Исследователи данных довольно сильно отличаются от аналитиков данных. Они могут использовать одинаковые инструменты и языки, но исследователю приходится работать с другими людьми, над более крупными проектами (такими как создание и внедрение модели машинного обучения) и тратить на это больше времени. Аналитики данных обычно работают над своими проектами самостоятельно: например, использовать панель Tableau для презентации результатов может и один человек. Исследователи данных вправе привлекать нескольких инженеров и менеджеров по продукту для эффективного выполнения бизнес-задач с использованием правильных инструментов и качественных решений.

Заключение


Фото с сайта Unsplash. Автор: Markus Winkler

Аналитики и исследователи данных пользуются одинаковыми инструментами, такими как Tableau, SQL и даже Python, но профессиональные задачи у них могут быть очень разными. Повседневная деятельность аналитика данных включает больше собраний и личного взаимодействия, требует прокачанных софт-скиллов и быстрого выполнения проектов. Работа исследователя предполагает более долгие процессы, общение с инженерами и менеджерами по продуктам, а также построение прогностических моделей, осмысляющих новые данные или явления в их развитии, тогда как аналитики фокусируются на прошлом и текущем состоянии.

Надеюсь, статья была интересной и полезной. Спасибо за внимание!

Источник

В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Почему все молятся на биг дату

Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

Преимущества больших данных:

Наука о данных

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

Примеры применения науки о данных:

Аналитика

Аналитика — это наука об анализе, применении анализа данных для принятия решений.

Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.

В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.

Анализ данных

Анализ данных — это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.

Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:

Отбор данных

Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.

Читайте также:  funko pop что это такое

Дата майнинг — это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.

Источник

Чем занимаются аналитики данных и как начать работать в этой области?

«Человек, который напрямую влияет на решения бизнеса»

Данные собирают все — от магазинов и ресторанов до компаний-монополистов и приложений с миллионной аудиторией. Аналитик данных помогает сделать так, чтобы собранная информация приносила пользу бизнесу. Мы выяснили, какие задачи вместе с экспертами решает такой специалист и почему ему нужно разбираться в бизнес-процессах не хуже владельца компании.

Кто такой аналитик данных

Аналитик данных (или дата-аналитик) — это специалист, который собирает, обрабатывает, изучает и интерпретирует данные. Его работа помогает принимать решения в бизнесе, управлении и науке. Обычно такие специалисты работают в компаниях, которые практикуют data-driven подход — ориентируются на данные и их анализ при принятии решений. Курс «Аналитик данных» Яндекс.Практикума рассчитан именно на это направление.

«Любой продукт, у которого есть аудитория, собирает данные. Аналитика есть в телекоме, банках, играх, консалтинге. Если сильно обобщить, то можно сказать так: там, где есть возможность сохранять данные о продукте и поведении пользователя, рано или поздно должен появиться аналитик», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных».

Аналитик данных — важный участник бизнеса, потому что обеспечивает уверенность в принятии решений. Создавать новый продукт очень дорого, а ошибка при внедрении новой функции может стоить компании репутации и прибыли. Дата-аналитики проводят А/B-тесты и строят модели, чтобы проверить, как пользователи или клиенты реагируют на нововведения, и оценить перспективы того или иного проекта. Это дешевле и снижает риски бизнеса. Чтобы делать свою работу хорошо, аналитик должен видеть бизнес-процессы. Поэтому важно, чтобы он мог влиять на процесс принятия решения, основываясь на результатах своих исследований. Иначе работа такого специалиста теряет ценность.

Задачи аналитика данных

Хороший аналитик данных — не просто математик с навыками программиста. Он понимает бизнес-процессы и хорошо знает продукт. Такой специалист разбирается, на чем зарабатывает конкретный бизнес. В результате его работы компания может получать больше прибыли и делать своих пользователей счастливее. Сильный аналитик данных прежде чем взяться за работу всегда спрашивает руководителя о том, какую задачу хочет решить бизнес.

Кроме программных инструментов аналитику данных важно развивать — метапрофессиональные умения, которые помогают делать работу лучше. Это способность налаживать общение с коллегами и партнерами, умение решать проблемы и выходить из конфликтных ситуаций с наименьшими потерями, сильный эмоциональный интеллект. Такие навыки больше связаны с личностью человека, чем с его профессиональным уровнем. Но их тоже можно формировать и развивать.

«Важно не путать дата-саентиста и дата-аналитика. Первый — это программист, знающий определенный набор языков и алгоритмов. Он решает поставленную техническую задачу. А дата-аналитик ставит эту задачу и переводит результат на язык бизнеса. Для этого нужно развивать гибкие навыки: работа с требованиями, визуализация данных, переговоры. То есть понимать самому и уметь объяснить, что дает бизнесу ваша аналитика. Изучить программы недостаточно — нужно критически подходить к задаче», — говорит Алексей Колоколов, эксперт по BI и визуализации данных.

Для каждого бизнеса задачи будут свои, а порядок действий общий. Аналитик данных работает так:

Типичные задачи, с которыми приходят к дата-аналитику:

Статистика позволяет сделать общие выводы по конкретному вопросу. А аналитика данных — исследовать тему со всех сторон, сравнить решения, найти аномалии или инсайты, сопоставить события по множеству параметров. Это открывает новые возможности для бизнеса.

Дата-аналитик может исследовать внутренние данные компании или обратиться к внешним источникам. Анализ открытых данных позволяет отслеживать важные социальные и культурные тренды.

«Дата-аналитик может глубже исследовать проблему. Например, в наших данных по ДТП в России есть доля водителей, которые нарушили правила ОСАГО. Зная эту долю и то, как она менялась в разные годы, мы можем делать выводы о социально-экономической ситуации в регионе — видим тенденцию, когда водители перестают покупать полисы, потому что у них нет денег.

Из того же датасета мы вытаскивали информацию про скрывшихся водителей. Оказалось, что в Омской области 20% водителей покидают место ДТП. Получив эту информацию, мы можем задавать дополнительные вопросы: почему так происходит, что это за социальные и культурные процессы», — рассказывает Сергей Устинов, аналитик данных и проджект-менеджер.

Как начать строить карьеру

Стереотипы в сфере аналитики данных не работают — неважно, гуманитарное или техническое образование получил дата-аналитик.

«У меня нет технического образования, я учился на факультете госуправления. А Python изучал на курсе биоинформатики для биологов. На мой взгляд, этот язык больше всего подходит для старта, база навыков работы с ним приобретается за два-три месяца. Затем стоит изучать профильные библиотеки для сбора и анализа данных. Чем больше ты знаешь библиотек, тем более качественная аналитика тебе доступна», — говорит Сергей Устинов.

Компании не рассчитывают, что начинающий аналитик данных будет уметь сразу всё. Они готовы обучать и направлять молодого специалиста. Главное — интерес к решению бизнес-задач. Правильно сформулированный перед исследованием вопрос важнее, чем большой опыт работы с программными инструментами.

«Программирование и математику можно выучить. А софтскиллы — нарабатываются опытом и практикой. Поэтому дата-аналитику полезны хакатоны и чемпионаты с решением практических задач. Он увереннее чувствует себя, прокачивая стиль мышления, ориентированный на решение конкретных бизнес-задач», — говорит Анна Чувилина.

Начинающих специалистов в сфере ИТ охотнее всего берут на позиции, связанные с анализом данных: доля вакансий для кандидатов с опытом работы меньше года здесь на четверть выше, чем в целом по рынку.

Работодатели ждут, что начинающий специалист:

Аналитику данных нужно понимать, что такое статистика и гипотеза. Серьезная математика не пригодится, главное ориентироваться в понятиях. В зависимости от запроса компании могут понадобиться навыки работы с Яндекс.Метрикой или Google Analytics. Опытные программисты с сильной математикой, которые не готовы думать в терминах задач бизнеса, закрывают себе путь в профессию аналитика данных.

«Джуниор вырастает в крутого специалиста, решая реальные кейсы. Потому что насмотренность определяет твой уровень: важно, сколько раз жизнь ставила тебя в ситуацию, когда нужно принимать решение. Развиваться в том, как владеешь инструментами, тоже важно. Но и решение реальных задач помогает аналитику данных расти», — говорит Анна Чувилина.

Источник

Дата-аналитик и дата-сайентист — чем отличаются две самые востребованные специальности года

Сергей Кравченко, дата-аналитик, Росгосстрах

Любой бизнес — это данные. Если собрать все денежные транзакции внутри большой компании и создать цифровую бухгалтерскую книгу, получится огромная таблица с миллиардами строк. Обычный человек без инструментов программирования не сможет проанализировать такой массив данных и понять, что происходит в компании, с какими проблемами она столкнулась и как их решить. Тут-то в игру и вступает дата-аналитик.

Я собираю данные, чтобы понять взаимосвязь между ними, использую статистический анализ, визуализирую всю информацию, получаю понятную картину о состоянии компании и выявляю тренды. В результате страшная таблица из миллиардов строк превращается в аккуратные наглядные графики. На основе такой информации принимаются ключевые бизнес-решения.

Данными может быть любая количественная единица. В первую очередь это, конечно, деньги. Например, можно проанализировать денежные транзакции в 100 торговых точках одной компании и узнать, какие из них не достигли показателей плана продаж. Также, например, дата-аналитики исследуют персональные данные сотрудников. Их можно, например, опросить, выяснить, из-за чего у них случается эмоциональное выгорание на работе, и придумать, как избежать этой проблемы. Дата-анализ отвечает и на другие вопросы: какие новые продукты следует разработать, стоит ли выходить на новые рынки, куда инвестировать, как повысить лояльность клиентов. Конечный продукт работы дата-аналитика всегда один — эффективное бизнес-решение.

Читайте также:  при какой температуре лучше растут огурцы в теплице

Я как руководитель вижу нехватку специалистов в дата-аналитике. Чаще всего я принимаю на работу сотрудников с базовым набором знаний и учу их уже на практике. Я сам когда-то после педагогического института ходил по собеседованиям и пытался начать карьеру в дата-аналитике, и мне тоже пришлось «‎дообучаться».‎ Сейчас мы в компании проводим конференции для дата-аналитиков и видим, что с каждым годом количество специалистов растет. Появляются новые направления дата-анализа, например, развитие подхода Self-Service BI. В отличие от обычных аналитических платформ, эти инструменты намного проще и доступней для неспециалистов. С их помощью любой сотрудник в компании может участвовать в дата-анализе наравне с IT-специалистами и делиться результатами анализа с топ-менеджерами‎.

Дата-сайентист — еще более молодая специальность, чем дата-аналитик. Если аналитики проявляют свой творческий потенциал в визуализации данных, то сайентисты «‎креативят»‎ с машинным обучением и создают новые математические модели, которые внедряют в бизнесе и в науке. В отличие от дата-сайентистов, постоянно находящихся в творческом поиске, дата-аналитики должны представлять результаты своей работы регулярно.

Лучший вариант — учиться профессии аналитика данных у тех, кто уже работает в этой области, и перенимать их опыт. Следить за трендами и участвовать в реальных проектах, а не просто штудировать теорию и учебники по математике. Все это можно получить на курсе Data Analyst, где преподают сотрудники Яндекса, OZON и другие представители профессии с многолетним опытом работы.

Дарина Дементьева, дата-сайентист, Skoltech

Каждый раз, выходя в интернет, люди оставляют там какие-то данные, их количество стремительно растет. И вместе с этим растет необходимость в обработке всех этих данных: информации о поведении пользователей, отчетностей по доходам, юридических документов, биржевых котировок и даже картинок с котами.

Иногда нелегко объяснить, что конкретно делает дата-сайентист с массивами данных. Помню, как я рассказала своим родителям, что занимаюсь машинным обучением на заводе. Они подумали, что я учусь работать на станке, и попросили найти нормальную работу. Я с ними отчасти согласна: дата-сайентист — это в хорошем смысле не нормальная работа. С одной стороны, это человек, который, как и дата-аналитики, собирает данные, обрабатывает и строит модели на их основе. С другой стороны, он должен иметь внушительный бэкграунд, чтобы уметь экспериментировать с этими данными и представлять руководству интересные решения, способные позитивно повлиять на будущее компании. Для этого требуются специальные знания о бизнесе, экономике, машинном обучении и конкретном проекте. Это может быть химия, физика, инженерное дело — все, что угодно.

Именно этим мне и нравится специальность дата-сайентиста — разнообразием и широким полем для экспериментов. Можно работать в любой области и использовать, помимо навыков программирования, свою эрудицию. Мне, например, часто приходилось возвращаться к школьным знаниям по химии или университетскому курсу по физике. Сейчас я занимаюсь анализом естественного языка (Natural Language Processing) и наблюдаю, как современные технологии могут схватывать смыслы в текстах и генерировать новые не хуже человека. Возможность создавать такие интересные вещи, потихоньку приближаясь к созданию искусственного интеллекта, безусловно вдохновляет.

Дата-сайентисты на средних позициях получают примерно 150–170 тысяч рублей в месяц. Тут мы немного отличаемся от дата-аналитиков — у них средняя зарплата 100–120 тысяч рублей.

Тем, кто хочет стать дата-сайентистом, я бы посоветовала уделить особое внимание математической базе. Вся математика для работы не нужна, но базовые знания необходимы. Для этого можно пройти специальные курсы. Второй совет — обязательно следить за трендами и новостями индустрии. Наука развивается с невероятной скоростью, и то, что применялось каких-то полгода назад, уже может устареть. Так что надо постоянно быть в теме. И, конечно, нужно развивать в себе главные качества дата-сайентиста — аналитический склад ума, любопытство и усидчивость.

На курсе Data Science в SkillFactory профессии учат с нуля. Студенты осваивают базовые навыки работы с данными и смогут углубить знания в той области, которая покажется самой интересной. Кроме того, студенты сделают десять проектов для портфолио, получат индивидуальную помощь ментора и поучаствуют в нескольких соревнованиях и хакатонах.

Евгений Денисенко, госслужащий, студент SkillFactory по специальности дата-сайентист

Большие данные невозможно обработать вручную. Если у вас есть табличка с данными по товарам, в которой десять колонок и тысяча строк, вы можете героически посидеть неделю и провести ее анализ. Но если это тысяча колонок и 100 тысяч строк, то так вы проанализируете их в лучшем случае за год. К этому времени данные уже наверняка устареют.

Анализ данных применяют не только в частных компаниях. В госорганах дата-аналитики и дата-сайентисты тоже могли бы пригодиться. В основе госслужбы и политики лежат управленческие решения, а в основе принятия оптимальных и обоснованных решений лежит как раз анализ данных. Это так называемый data-driven management. У госорганов есть доступ к большим объемам информации, и в теории они могли бы использовать ее для принятия эффективных управленческих решений.

Моя жена пишет дипломную работу по большим данным, и благодаря ей я тоже немного погрузился в эту тему. Начал читать статьи, разбираться и понял, что специальность дата-сайентиста мне близка и интересна. К тому же она востребована на рынке, и спрос на нее постоянно растет. Поэтому я решил, что нужно учиться именно на дата-сайентиста, и пока о своем решении не пожалел.

Это очень творческая специальность. Изучая данные и применяя навыки программирования, дата-сайентист вместе с тем постоянно экспериментирует и находит креативные решения. Мне запомнился пример одной крупной американской сети магазинов. В начале 2000-х ее специалисты научились с помощью анализа клиентских покупок определять среди потребителей беременных женщин. Благодаря этому они смогли повысить лояльность клиентов, рассылая им предложения о скидках на товары для детей и матерей. Хотя однажды произошел курьез: компания узнала о беременности молодой женщины раньше, чем ее отец. Он догадался о положении дочери, когда увидел присланные ей купоны на детскую одежду.

Это только один пример из индустрии ретейла. Дата-сайентист может работать в разных сферах: планировать поставки товаров, проводить политические кампании, генерировать тексты, обучать автопилоты и даже предсказывать, какая песня станет хитом, а какая нет.

Главное качество дата-сайентиста — умение учиться. В этой специальности обучаться нужно постоянно, поскольку технологии и методы, применяемые в работе, постоянно обновляются.

На курсах Data Science и Data Analyst в SkillFactory вас не только научат работать с большими данными, но и помогут найти работу. Начиная с первых недель обучения, ментор поможет определить карьерные цели и не сойти с намеченного пути, а сотрудники карьерного центра подскажут, как оформить резюме и попасть на собеседования. По промокоду snob онлайн-школа предлагает забронировать место со скидкой 50%. Сделать это можно до 30 сентября.

Источник

Сказочный портал