data saints что это

Кто такой Data Scientist?

Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Вместе с автором кейсов для курса по Data Science Глебом Синяковым разбираемся, почему в современном мире всем так нужны дата-сайентисты.

Чем занимается Data Scientist?

Data Scientist применяет методы науки о данных (Data Science) для обработки больших объемов информации. Он строит и тестирует математические модели поведения данных. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по данным о спросе на товары в прошлом, дата-сайентист поможет компании спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.

Где нужен и какие задачи решает Data Scientist?

Дата-сайентисты работают везде, где есть большие объемы информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы работы с данными универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.

В крупных компаниях дата-сайентист — это человек, который нужен всем отделам:

В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD, который купил Facebook, — технологии по распознаванию лица и искусственный интеллект.

Пример задачи:

Если дата-сайентисту нужно спрогнозировать спрос на новую коллекцию кроссовок, то он:

Что ему нужно знать?

Дата-сайентист должен хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти в данных закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками (ПО, объединяющее готовые компоненты большого программного проекта) для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач дата-сайентистам нужен язык С или C++.

Результаты анализа данных нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.

Источник

Обзор профессии Data Scientist

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.


Данные PayScale

В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.

Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».

Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.

Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».

Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:

Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.

Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.

Источник

Что такое Data Science и кто такой Data Scientist

Что делает Data Scientist, сколько получает и как им стать, даже если вы не программист. Объясняем и делимся полезными ссылками.

Что такое Data Science?

Data Science — это работа с большими данными (англ. Big Data). Большие данные — это огромные объёмы неструктурированной информации: например, метеоданные за какой-то период, статистика запросов в поисковых системах, результаты спортивных состязаний, базы данных геномов микроорганизмов и многое другое. Ключевые слова здесь — «огромный объём» и «неструктурированность». Чтобы работать с такими данными, используют математическую статистику и методы машинного обучения.

Специалист, который делает такую работу, называется дата-сайентист (или Data Scientist). Он анализирует большие данные (Big Data), чтобы делать прогнозы. Какие именно прогнозы — зависит от того, какую задачу нужно решить. Итог работы дата-сайентиста — прогнозная модель. Если упростить, то это программный алгоритм, который находит оптимальное решение поставленной задачи.

Пишу научпоп, люблю делать сложное понятным. Рисую фантастику. Увлекаюсь спелеологией. Люблю StarCraft, шахматы, «Монополию».

Эти прогнозы и правда полезны?

Да. Очень многие сервисы, к которым мы уже привыкли, создали дата-сайентисты. И вы сталкиваетесь с результатами их работы каждый день. Например, это прогнозы погоды, чат-боты, голосовые помощники… А ещё — алгоритмы, рекомендующие музыку и видео под вкус конкретного пользователя. Список возможных друзей в социальных сетях — тоже результат Data Science. В основе поисковых систем и программ для распознавания лиц тоже лежат алгоритмы, написанные дата-сайентистами.

То есть Data Science — то же самое, что и обычная бизнес-аналитика?

Нет, это не одно и то же. Основная разница заключается в результате. Data Scientist ищет в массивах данных связи и закономерности, которые позволят ему создать модель, предсказывающую результат, — то есть можно сказать, что Data Scientist работает на будущее. Он использует программные алгоритмы и математическую статистику и решает поставленную задачу в первую очередь как техническую.

Бизнес-аналитик сосредоточен не столько на технической, программной стороне задачи, сколько на коммерческих показателях компании. Он работает со статистикой и может оценить, например, насколько эффективна была рекламная кампания, сколько было продаж в предыдущем месяце и так далее. Вся эта информация может использоваться для улучшения бизнес-показателей компании. Если данных много и нужен какой-то прогноз или оценка, то для решения технической стороны этой задачи бизнес-аналитик может привлечь дата-сайентистов.

Читайте также:  Что значит уподобляться мужчине

Поясним на примере. Допустим, программа анализирует финансовые операции клиента и рекомендует выдать ему кредит или отказать. То есть задача программы — оценить платёжеспособность клиента. Создание такого програмного алгоритма — работа дата-сайентиста.

А бизнес-аналитик не занимается такими техническими задачами. Его не интересует работа с конкретным клиентом, но он может проанализировать всю статистику банка по кредитам, например, за последние три месяца — и рекомендовать банку сократить или увеличить объёмы кредитования. Это бизнес-задача: предлагаются действия, которые увеличат доходность банка либо снизят финансовые риски.

Работа бизнес-аналитика и дата-сайентиста нередко пересекается, просто каждый занимается своей частью задачи.

А где обычно работает Data Scientist?

Вот несколько вариантов:

И это далеко не полный список. Везде, где нужны прогнозы, совершаются сделки или оцениваются риски, пригодится Data Scientist. Вот несколько примеров рабочих моделей. Некоторые неожиданные: например, Corrupt Social Interactions — модель, выявляющая коррупцию в Департаменте строительства (Department of Building) США. Или сервис А Roommate Recommendation — он помогает подобрать соседа по комнате в кампусе или хостеле.

Понятно. А работу найти легко? Это точно востребовано?

Легко ли найти работу — зависит и от кандидата тоже. Но сама профессия весьма востребована. В 2016 году американская компания Glassdoor опубликовала рейтинг 25 лучших вакансий в США и профессия Data Scientist возглавила этот список. С тех пор востребованность стала даже выше.

Алгоритмы машинного обучения сейчас стремительно развиваются, прогнозы на их основе становятся точнее, а сфер их применения всё больше. Это значит, что у профессии Data Scientist большое будущее.

Но это за рубежом. А что в России?

У нас спрос на этих специалистов тоже постоянно растёт. Например, в 2018 году вакансий с названием Data Scientist было в 7 раз больше по сравнению с 2015 годом, а в 2019 году рост продолжился.

На середину апреля 2020 года на hh.ru — 323 вакансии с заголовком Data Scientist, из них 204 вакансии — в Москве, 39 — в Санкт-Петербурге и остальные — в других городах.

А сколько они зарабатывают?

Как и везде, это зависит от опыта работы и навыков дата-сайентиста, особенностей компании и сложности конкретного проекта. Но общий расклад примерно такой (данные приведены по состоянию на февраль 2020 года):

Высококвалифицированные специалисты по Data Science могут получать в месяц 250 тысяч рублей и более.

Вы сказали, что Data Scientist создаёт программный алгоритм. А что конкретно он делает?

В разных компаниях деятельность дата-сайентиста будет различаться. Однако основные этапы похожи:

Что нужно знать и уметь, чтобы работать в Data Science?

Если в общих чертах, то нужно знать математику, математическую статистику, программирование, принципы машинного обучения и ту отрасль, где всё это будет использоваться.

И умение работать в команде тоже никто не отменял: дата-сайентисту приходится общаться с разными специалистами.

Если у меня нет технического образования, то о работе в Data Science лучше не мечтать?

Будем откровенны — гуманитариям осваивать эту профессию может быть непросто: для работы в Data Science нужно хорошее знание математики и программирования. А у гуманитария этих знаний чаще всего нет. И наоборот: чем увереннее вы чувствуете себя в этом уже на старте, тем проще будет учиться.

Однако не стоит опускать руки: очень многое зависит от мотивации, от того, насколько вы готовы восполнять пробелы в своем образовании. Сейчас люди приходят в Data Science с разным бэкграундом и в разном возрасте. Вот пример одной такой истории — возможно, она вас поддержит.

А с чего лучше начать?

Начать лучше с математики. Очень сложная математика не понадобится, но вы должны свободно ориентироваться в таких понятиях, как производная, дифференциал, определитель матрицы, и в том, что с ними связано. Освоить это вам помогут книги и лекционные курсы. Например, книга «Математический анализ» Липмана Берса, написанная довольно простым языком.

А что дальше? Там было что-то о статистике?

Да, потому что математическая статистика используется в любой аналитике. И Data Science не исключение. Вот несколько бесплатных курсов, которые помогут вам изучить статистику.

Кажется, с математической частью закончили. Что по программированию?

Следующим шагом будет изучение Python. Сейчас этот язык программирования, пожалуй, основной инструмент в Data Science. Среди его достоинств — относительная простота и гибкость. Освоить Python вполне по силам новичку, который до того не программировал. Неслучайно этот язык нередко рекомендуют для начинающих.

По Python есть много курсов, как платных, так и бесплатных. Вот один из бесплатных курсов. И ещё один: «Питонтьютор».

У Skillbox тоже есть курс, он называется «Профессия Python-разработчик». Курс платный, длится год, и за это время студенты фактически осваивают с нуля новую профессию (как теорию, так и практику) и собирают личное портфолио — с помощью наставника. Поэтому по окончании курса им уже есть что показать потенциальному работодателю.

Что учить после Python?

Теперь можно изучать алгоритмы машинного обучения. Когда освоитесь с ними, уже сможете работать в Data Science.

Вот несколько бесплатных онлайн курсов по машинному обучению (много курсов на английском, но кое-что есть и на русском).

Мало знать методы машинного обучения, нужно уметь применять их для решения практических задач. Научиться этому можно на платформе Kaggle, где собрано огромное количество реальных задач.

Если вы хорошо знаете английский, он поможет вам быстрее развиваться в Data Science. Если нет — самое время его выучить.

Очень много всего. Может быть, есть курсы, где можно освоить сразу всё?

Да, есть и такие. Например, наш курс по Data Science. Он так и называется — «Профессия Data Scientist». На наш курс приходят как люди с опытом в программировании, так и совсем новички, программа курса это учитывает. Обучение длится около года, в нём уже есть все блоки, которые мы описали выше.

Учиться можно онлайн, из любого города. Наши преподаватели — практики с опытом работы 10–15 лет. У вас будет возможность не только освоить теорию, но и практиковаться на реальных задачах, получая рекомендации от наставника. Очень важный бонус — помощь при трудоустройстве.

Источник

Стоит ли смотреть в сторону Data science?

Почему в data science сложно попасть

Это очень много учебы и практики

всё что должны знать «простые аналитики» (SQL+визуализация данных)

хороший Python программист

с неплохим владением английским (подавляющее большинство инструментов имеют документацию только на английском языке; многие книги и курсы не переведены, или переводятся с большой задержкой)

хорошие коммуникативные навыки и понимание бизнеса (невозможно эффективно обрабатывать данные из предметной области, если вы её не понимаете)

Читайте также:  при какой температуре воздуха можно загореть

По большому счету, это несколько лет профильного (само)образования + опыт работы.

Это дорого

Даже с большим опытом работы в ИТ я потратил 8 месяцев, не работая и проедая все свои накопления, только на учебу, оставаясь без работы. Мой уровень ЗП в первый год после того как я нашёл работу, был ниже, чем до этого. Только спустя 2 года я вышел на тот же уровень дохода. И это всё было достаточно страшновато, при том что у меня были своя квартира, большая финансовая подушка, и отсутствие финансово зависимых родственников. Большая часть людей, желающих поменять свою жизнь, не могут себе позволить такую траекторию переобучения, по её финансовым ограничениям.

Когда говорят о дата сайенс обычно имеют в виду высшую квалификацию человека, способного работать аналитиком данных. Но квалификации промежуточных уровней тоже ценны.

Отличие аналитика: нет нужды хорошо знать статистику, нет нужны заниматься машинным обучением.

Статистика нужна тогда, когда ценность небольшого улучшения так огромна, что важно научиться различать небольшие отличия в эффективности, разделяя реальные различия, от случайных колебания.

То есть аналитик нужен тогда, когда не нужно различать колебания эффективности, измеряемые в процентах, и когда не нужно анализ делать полностью автоматическим. Требуется меньше точность/автоматизированность. Ценны: скорость проведения анализа, его правильность, умение понятно и убедительно объяснить свои результаты. При этом, ценность аналитика может быть очень высока, т.к. подобные разовые анализы данных могут использоваться для принятия различных стратегических решений.

Суть решаемых задач аналитка: разобраться в данных, понять их и найти интересные закономерности, представить результаты в удобном и понятном для коллег виде (обычно, графики и презентации).
Ключевой набор навыков для подобной работы: это прирожденные «аналитические способности» + знания базовых инструментов (SQL+Excel) + инструменты визуализации данных (Tableau, PowerBI).

Можно с этим набором знаний + знания специфичные для определенных областей, уже найти большое число вакансий, с хорошими зарплатами и интересными задачами.

Знаний SQL + инструмента визуализации достаточно чтобы работать на позиции специалиста по отчетности, создающего необходимые отчеты и графики, для принятия каждодневных решений. Такая работа, обычно, требует большей усидчивости и чуть меньше креативности.

На позиции «аналитика» нужно будет создавать точно такие же отчеты. Но, чаще, задачей аналитика будет самому в чём-то разобраться и самому решить какими графиками эту информацию представить. Эта работа более творческая, требующая большей самоотдачи. По уровню зарплат оба типа позиций сопоставими. Но с позиций аналитика талантливные специалисты чаще могут вырасти в менеджеров и отвественных за какие-то большие объемы задач. Надо помнить, что данное деление не всегда видно из названия позиций, т.к. «аналатиком» могут назвать и человека, не занимающегося самостоятельным анализом данных, и толького готовящим их для других людей (в виде отчетов и графиков).

Кстати, позиции специалистов, занимающихся статистическим анализом, тоже называются «аналитик», и есть еще совсем другой тип позиций, которые называют «бизнес-аналитики». Поэтому, надо по описанию вакансии «аналитика» разбираться что под ней имеется в виду.

Рекомендуемый набор знаний для аналитика:

Когортный анализ (принципы)

Понимать парадокс симпсона, чтобы не делать ошибок, к которым он приводит

Нужно знать основы теории вероятностей:

вероятности зависимых и независимых событий, условные вероятности

разные статистики: среднее, медиана, мода, стандартное отклонение.

знать что такое АВ-тесты: понимать принципы, калькуляторы есть онлайн

знать основы regexp. Например, веб-аналитике он используется в инструментах типа google analytics

Аналитики нужны везде. Ниже типы аналитиков, востребованные в изначально «цифровых» бизнесах (связанных с интернет продуктами и услугами)

Маркетинговая/веб аналитика

Знания специфические для веб-маркетинга (помимо обще-аналитических):

Понимание принципов работы контекстной рекламы (основные метрики и схемы оплаты).

Знание как работают UTM метки.

Понимание основных принципов юнит-экономики.

Желательно знание основ HTML

Популярные инструменты: Google Analytics, Яндекс.Метрика (эти инструменты можно учить уже выйдя на первую работу)

Продуктовая аналитика

Это близко к маркетинговой аналитике. Пример задачи: понять паттерны по которым пользователи взаимодействуют с каким-то он-лайн продуктом (например, приложением интернет-банка).
По сути, тут могут быть достаточны только базовые знания, стандратные для любых аналитиков.

Набор знаний в этой сфере очень сильно варьируется. Наверное, наиболее популярные навыки выглядят так:

Python (Java, Kotlin)

Эта сфера отлично подходит для людей, которым интересно писать системы обработки больших данных (big data) и которым менее интересно придумывать как повысить эффективность бизнеса, стараясь убедить в этом каких-то коллег.

Ищете работу, которая вам подходит

Идти в дата сайенс без опыта работы в ИТ, примерно как захотеть стать нейрохирургом, без опыта работы в медицине. Разумнее получить хотя бы часть более простых смежных навыков, начать работать в этой сфере, и далее расти в ней «естествнным путём», получая релевантный опыт не только из теории, но и из регулярной практики работы.

Источник

Большой гид по Data Science для начинающих: термины, применение, образование и вход в профессию

Наши друзья из «Цеха» опубликовали пошаговую инструкцию для начинающих в сфере Data Science от Елены Герасимовой, руководителя направления «Аналитика и Data Science» в Нетологии. Делимся с вами.

О чём речь

Data Sci­ence — де­я­тель­ность, свя­зан­ная с ана­ли­зом дан­ных и по­ис­ком луч­ших решений на их ос­но­ве. Рань­ше по­доб­ны­ми зада­ча­ми за­ни­ма­лись спе­ци­а­ли­сты по мате­ма­ти­ке и статистике. За­тем на по­мощь при­шел ис­кус­ствен­ный интеллект, что поз­во­ли­ло вклю­чить в ме­то­ды ана­ли­за оптимиза­цию и ин­фор­ма­ти­ку. Этот но­вый под­ход ока­зал­ся намно­го эф­фек­тив­нее.

Как стро­ит­ся про­цесс? Всё на­чи­на­ет­ся со сбо­ра боль­ших масси­вов структурированных и неструк­ту­ри­ро­ван­ных дан­ных и их пре­об­ра­зо­ва­ния в удоб­ный для вос­при­я­тия фор­мат. Дальше ис­поль­зу­ет­ся ви­зу­а­ли­за­ция, ра­бо­та со ста­ти­сти­кой и аналитиче­ские ме­то­ды — ма­шин­но­го и глу­бо­ко­го обу­че­ния, веро­ят­ност­ный ана­лиз и про­гноз­ные мо­де­ли, ней­рон­ные сети и их при­ме­не­ние для ре­ше­ния ак­ту­аль­ных задач.

Пять глав­ных терминов, которые нуж­но за­пом­нить

Ис­кус­ствен­ный ин­тел­лект, ма­шин­ное обу­че­ние, глу­бо­кое обуче­ние и на­у­ка о данных — ос­нов­ные и са­мые по­пу­ляр­ные тер­ми­ны. Они близ­ки, но не эк­ви­ва­лент­ны друг дру­гу. На старте важ­но разо­брать­ся, чем они от­ли­ча­ют­ся.

Ис­кус­ствен­ный ин­тел­лект (Ar­ti­fi­cial In­tel­li­gence) — об­ласть, по­свя­щён­ная со­зда­нию ин­тел­лек­ту­аль­ных си­стем, работающих и дей­ству­ю­щих как люди. Её воз­ник­но­ве­ние связа­но с по­яв­ле­ни­ем ма­шин Ала­на Тью­рин­га в 1936 году. Несмот­ря на дол­гую историю раз­ви­тия, ис­кус­ствен­ный интеллект пока не спо­со­бен пол­но­стью за­ме­нить че­ло­ве­ка в боль­шин­стве об­ла­стей. А кон­ку­рен­ция ИИ с людь­ми в шахматах и шифро­ва­ние дан­ных — две сто­ро­ны од­ной ме­да­ли.

Ма­шин­ное обу­че­ние (Ma­chine learn­ing) — со­зда­ние инструмен­та для из­вле­че­ния зна­ний из дан­ных. Мо­де­ли ML обу­ча­ют­ся на дан­ных са­мо­сто­я­тель­но или по­этап­но: обу­че­ние с учи­те­лем на под­го­тов­лен­ных че­ло­ве­ком дан­ных и без учителя — ра­бо­та со сти­хий­ны­ми, за­шум­лен­ны­ми дан­ны­ми.

Глу­бо­кое обу­че­ние (Deep learn­ing) — со­зда­ние мно­го­слой­ных ней­рон­ных се­тей в об­ла­стях, где тре­бу­ет­ся бо­лее продвинутый или быст­рый ана­лиз и тра­ди­ци­он­ное ма­шин­ное обу­че­ние не справ­ля­ет­ся. «Глу­би­на» обес­пе­чи­ва­ет­ся некоторым количеством скры­тых сло­ев ней­ро­нов в сети, которые про­во­дят ма­те­ма­ти­че­ские вы­чис­ле­ния.

Читайте также:  какой метод используется в плавании при освоении техники спортивных способов плавания

Боль­шие дан­ные (Big Data) — ра­бо­та с боль­шим объ­ё­мом ча­сто неструктурированных дан­ных. Спе­ци­фи­ка сфе­ры — это инстру­мен­ты и си­сте­мы, спо­соб­ные выдерживать вы­со­кие нагруз­ки.

На­у­ка об ана­ли­зе дан­ных (Data Sci­ence) — в ос­но­ве об­ла­сти ле­жит на­де­ле­ние смыслом мас­си­вов дан­ных, ви­зу­а­ли­за­ция, сбор идей и при­ня­тие ре­ше­ний на ос­но­ве этих дан­ных. Специа­ли­сты по ана­ли­зу дан­ных ис­поль­зу­ют неко­то­рые методы машин­но­го обу­че­ния и Big Data: об­лач­ные вы­чис­ле­ния, ин­стру­мен­ты для со­зда­ния вир­ту­аль­ной сре­ды раз­ра­бот­ки и мно­гое дру­гое.

Где при­ме­ня­ет­ся Data Sci­ence

Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и выбор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние предположений.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.

Руководитель направления «Аналитика и Data Science» в Нетологии

Профессия

Data
Scientist

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за месяц или даже год. При­дёт­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пытать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фундамен­таль­ный курс по тео­рии ве­ро­ят­но­стей (математический ана­лиз как необ­хо­ди­мый ин­стру­мент в теории ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы анали­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обучении без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

Что по­чи­тать

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в универси­те­те оста­лось мно­го про­бе­лов. Классические разделы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах матема­ти­че­ской статисти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вычис­ле­ни­я­ми.

«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о математи­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных сетей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с основны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Science. Кру­тое и нескучное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять централь­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет генеральные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, содер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, знако­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми програм­ми­ро­ва­ния. Вы може­те немно­го упро­стить себе задачу: нач­ни­те изу­чать один язык и сосредоточьтесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для новичков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рынке тру­да.

Что по­чи­тать

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: практическое ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить практические за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му синтакси­су.

Лег­кий спо­соб вы­учить Python 3 — бле­стя­щий ма­ну­ал, в котором объ­яс­ня­ют­ся основы.

Dataquest по­мо­жет осво­ить син­так­сис.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с основ­ны­ми биб­лио­те­ка­ми:

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

Об­ра­бот­ка есте­ствен­но­го язы­ка:

Web scrap­ing (Ра­бо­та с web):

курс

Python
для анализа данных

Шаг 3. Ма­шин­ное обу­че­ние

Ком­пью­те­ры обу­ча­ют­ся дей­ство­вать са­мо­сто­я­тель­но, нам боль­ше не нуж­но пи­сать по­дроб­ные ин­струк­ции для выполнения опре­де­лён­ных за­дач. По­это­му ма­шин­ное обучение име­ет боль­шое зна­че­ние для прак­ти­че­ски лю­бой обла­сти, но преж­де всего бу­дет хо­ро­шо ра­бо­тать там, где есть Data Sci­ence.

Пер­вый шаг в изу­че­нии ма­шин­но­го обу­че­ния — зна­ком­ство с тре­мя его ос­нов­ны­ми фор­ма­ми.

1) Обу­че­ние с учи­те­лем — наи­бо­лее раз­ви­тая фор­ма машинного обу­че­ния. Идея в том, что­бы на ос­но­ве исторических дан­ных, для ко­то­рых нам из­вест­ны «правильные» зна­че­ния (це­ле­вые мет­ки), по­стро­ить функ­цию, пред­ска­зы­ва­ю­щую це­ле­вые мет­ки для но­вых дан­ных. Историче­ские дан­ные про­мар­ки­ро­ва­ны. Маркиров­ка (отнесение к ка­ко­му-либо клас­су) озна­ча­ет, что у вас есть особое вы­ход­ное зна­че­ние для каж­дой стро­ки дан­ных. В этом и за­клю­ча­ет­ся суть ал­го­рит­ма.

2) Обу­че­ние без учи­те­ля. У нас нет про­мар­ки­ро­ван­ных перемен­ных, а есть мно­го необ­ра­бо­тан­ных дан­ных. Это позволя­ет иден­ти­фи­ци­ро­вать то, что на­зы­ва­ет­ся закономерно­стя­ми в ис­то­ри­че­ских вход­ных дан­ных, а так­же сде­лать ин­те­рес­ные выво­ды из об­щей пер­спек­ти­вы. Итак, выход­ные дан­ные здесь от­сут­ству­ют, есть толь­ко шаб­лон, види­мый в некон­тро­ли­ру­е­мом на­бо­ре вход­ных дан­ных. Прелесть обу­че­ния без учи­те­ля в том, что оно под­да­ет­ся много­чис­лен­ным ком­би­на­ци­ям шабло­нов, по­это­му та­кие алгорит­мы слож­нее.

3) Обу­че­ние с под­креп­ле­ни­ем при­ме­ня­ет­ся, ко­гда у вас есть ал­го­ритм с при­ме­ра­ми, в ко­то­рых от­сут­ству­ет мар­ки­ров­ка, как при некон­тро­ли­ру­е­мом обу­че­нии. Од­на­ко вы мо­же­те дополнить при­мер по­ло­жи­тель­ны­ми или от­ри­ца­тель­ны­ми откли­ка­ми в со­от­вет­ствии с ре­ше­ни­я­ми, пред­ла­га­е­мы­ми алгорит­мом. Обу­че­ние с подкреплением свя­за­но с приложени­я­ми, для ко­то­рых ал­го­ритм дол­жен при­ни­мать реше­ния, име­ю­щие по­след­ствия. Это по­хо­же на обу­че­ние мето­дом проб и оши­бок. Интересный при­мер обу­че­ния с подкреп­ле­ни­ем — ко­гда ком­пью­те­ры учат­ся са­мо­сто­я­тель­но иг­рать в ви­део­иг­ры.

Что по­чи­тать

Ви­зу­а­ли­за­ция в ма­шин­ном обу­че­нии. От­лич­ная ви­зу­а­ли­за­ция, ко­то­рая по­мо­жет понять, как ис­поль­зу­ет­ся ма­шин­ное обучение.

Шаг 4. Data Min­ing (ана­лиз данных) и ви­зу­а­ли­за­ция данных

Data Min­ing — важ­ный ис­сле­до­ва­тель­ский про­цесс. Он включа­ет ана­лиз скры­тых мо­де­лей дан­ных в со­от­вет­ствии с раз­лич­ны­ми ва­ри­ан­та­ми пе­ре­во­да в по­лез­ную инфор­ма­цию, ко­то­рая со­би­ра­ет­ся и фор­ми­ру­ет­ся в хра­ни­ли­щах дан­ных для облегче­ния при­ня­тия де­ло­вых ре­ше­ний, при­зван­ных сократить рас­хо­ды и уве­ли­чить до­ход.

Что по­чи­тать и по­смот­реть

Как ра­бо­та­ет ана­лиз дан­ных. От­лич­ное ви­део с до­ход­чи­вым объ­яс­не­ни­ем ана­ли­за дан­ных.

«Ра­бо­та убор­щи­ка дан­ных — глав­ное пре­пят­ствие для ана­ли­за» — ин­те­рес­ная ста­тья, в ко­то­рой по­дроб­но рас­смат­ри­ва­ет­ся важ­ность ана­ли­за дан­ных в об­ла­сти Data Sci­ence.

Шаг 5. Прак­ти­че­ский опыт

За­ни­мать­ся ис­клю­чи­тель­но тео­ри­ей не очень ин­те­рес­но, важно по­про­бо­вать свои силы на прак­ти­ке. Вот несколь­ко хоро­ших ва­ри­ан­тов для это­го.

Ис­поль­зуй­те Kag­gle. Здесь про­хо­дят со­рев­но­ва­ния по ана­ли­зу дан­ных. Су­ще­ству­ет боль­шое ко­ли­че­ство от­кры­тых мас­си­вов дан­ных, ко­то­рые мож­но ана­ли­зи­ро­вать и пуб­ли­ко­вать свои резуль­та­ты. Кро­ме того, вы мо­же­те смот­реть скрип­ты, опуб­лико­ван­ные дру­ги­ми участ­ни­ка­ми и учить­ся на успеш­ном опыте.

Шаг 6. Под­твер­жде­ние квалифи­ка­ции

По­сле того, как вы изу­чи­те всё, что необ­хо­ди­мо для ана­ли­за дан­ных, и по­про­бу­е­те свои силы в от­кры­тых со­рев­но­ва­ни­ях, на­чи­най­те ис­кать ра­бо­ту. Пре­иму­ще­ством ста­нет неза­ви­си­мое под­твер­жде­ние ва­шей ква­ли­фи­ка­ции.

По­след­ний со­вет: не будь­те ко­пи­ей ко­пий, най­ди­те свой путь. Лю­бой мо­жет стать Data Sci­en­tist. В том чис­ле са­мо­сто­я­тель­но. В сво­бод­ном до­сту­пе есть всё необходи­мое: он­лайн-кур­сы, кни­ги, со­рев­но­ва­ния для прак­ти­ки.

Но не сто­ит приходить в сфе­ру толь­ко из-за моды. Что мы слы­шим о Data Sci­ence: это кру­то, это са­мая при­вле­ка­тель­ная ра­бо­та XXI века. Если это ос­нов­ной сти­мул для вас, его вряд ли хва­тит на­дол­го. Что­бы до­бить­ся успе­ха, важ­но по­лу­чать удо­воль­ствие от процесса.

курс

Источник

Сказочный портал