Data science что это

Data Science, то есть наука о работе с данными, это не просто новое модное слово в мире IT. Это то, что изменит мир программирования, бизнеса и даже потребителей не менее, чем в свое время его изменило изобретение парового двигателя и персонального компьютера. На самом деле, Data Science уже его меняет, свидетельство тому – множество стартапов в области больших данных и искусственного интеллекта.
Редакция AIN.UA объясняет на картинках, что же это такое и каким образом меняет наш мир. Помогает нам разобраться в этой теме Максим Орловский, ментор Cloud Business City (первый виртуальный бизнес-центр в облаке, который развивает Data Science проекты), PhD, MD, руководитель BICA Labs, CEO Кодрум, сооснователь BanQ Systems и спикер на грядущей конференции «Data Science, машинное обучение и нейросети». Максим изучает вопросы искусственного интеллекта и сопутствующих ему технологий с 1998 года.
Data Scientist

Data Scientist — это человек, который работает с большими объемами данных. Вот прям с огромными. Он умеет их добывать, анализировать, но главное — обрабатывать.
средняя зарплата
удовлетворенность
Что делает Data Scientist
Data Scientist — человек с отличными математическими и аналитическими способностями, и совсем необязательно это должен быть только программист. Зачастую это направление интересно специалистам по прикладной математике и статистике, а также аналитикам. Data Scientist понимает, в каком виде данные воспримет компьютер и предоставляет ему их. Таким образом, компьютер может извлечь ценную информацию из полученных данных и использовать ее во благо. Например, на Data Science основаны Self-driving cars, персонализированные интерфейсы, медицинская система IBM Watson, подсказки на ресурсах типа Aliexpress, Amazon, Netflix.
Data Scientist работает с данными из различных источников: собирает их, структурирует, выделяет и синтезирует. Для него важно обеспечивать выводы и действия, основанные на собранных данных. В своей работе специалист использует различные языки программирования — SAS, R и Python, а также аналитические методы. Работая с большими данными, нельзя обойтись без статистики, поэтому Data Scientist занимается еще и статистическими тестами и распределениями.
Data Scientist должен быть готов к упорной работе, ведь ему постоянно предстоит искать идеальную формулу для обучения искусственного интеллекта. К тому же, часто нет очевидного решения проблемы, поэтому среди всех алгоритмов специалистам приходится подыскивать подходящий под конкретную задачу.
Сколько получает Data Scientist
По классике: чем больше опыта у Data Scientist, тем выше его ставка. К тому же, размер зарплаты зависит еще и от региона — к примеру, в столичной компании ставка будет выше. А если вы еще и знаете Python, Java и Hadoop, то ваша средняя зарплата вырастет на 5-14%.
Что такое Data Science? Объясняем простыми словами

Наука о данных (Data Science) включает в себя все инструменты, методы и технологии, помогающие нам обрабатывать данные и использовать их для нашего блага. Это междисциплинарная смесь статистических выводов, анализа данных, разработки алгоритмов и технологий для решения аналитически сложных задач.

Освойте профессию «Data Scientist» на курсе с МГУ
Data Scientist с нуля до PRO
Освойте профессию Data Scientist с нуля до уровня PRO на углубленном курсе совместно с академиком РАН из МГУ. Изучите продвинутую математику с азов, получите реальный опыт на практических проектах и начните работать удаленно из любой точки мира.

25 месяцев
Data Scientist с нуля до PRO
Создавайте ML-модели и работайте с нейронными сетями
6 490 ₽/мес 10 817 ₽/мес

- Организация данных — хранение и форматирование. Также сюда входят практики управления данными (Data Management).
- Агрегация данных — объединение исходных данных в новое представление и/или пакет.
- Доставка данных — обеспечение доступа к массивам агрегированных данных.
Наука о данных — обширная и субъективная тема для обсуждения, которую практически невозможно уместить в одну статью. Сама по себе Data Science не самостоятельная наука, а скорее сочетание нескольких смежных дисциплин: математики и статистики, программирования, бизнес-аналитики и стратегического планирования.
На диаграмме Венна, показано, как все дисциплины сочетаются и работают вместе.

Big Data
Big Data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных, которые позволяют использовать эти данные для решения конкретных задач и достижения целей.
Используя анализ Big Data, розничные продавцы смогут заранее узнать, какие продукты будут хорошо продаваться, телекоммуникационные компании смогут предсказать, захочет ли клиент сменить оператора и когда это произойдёт, а страховые компании смогут оценить, насколько безопасно их клиенты управляют автомобилем. Среди прочего, анализ Big Data позволяет нам лучше понимать и прогнозировать эпидемии болезней и находить самые эффективные способы лечения.
Машинное Обучение
Цитируя Тома Митчела: Машинное обучения изучает вопрос создания программ, способных улучшаться в процессе обучения.
Машинное Обучение носит междисциплинарный характер и использует, среди прочего, методы из области информатики, статистики и искусственного интеллекта.
Основной областью исследований в Машинном Обучении являются алгоритмы, которые способны обучаться и запоминать и могут применяться в различных областях науки и бизнеса.
Data Mining (Сбор и интеллектуальный анализ данных)
Файяд, Пятецкий-Шапиро и Смайт дают следующее определение Data Mining:
«Применение специальных алгоритмов для извлечения шаблонов из данных. В интеллектуальном анализе данных акцент делается на применение алгоритмов, а не на сами алгоритмы.»
Мы можем определить взаимосвязь машинного обучения и Data Mining следующим образом: интеллектуальный анализ данных — это процесс, в ходе которого алгоритмы МО используются в качестве инструментов для извлечения потенциально ценных шаблонов, содержащихся в наборах данных.

Станьте дата-сайентистом на курсе с МГУ и решайте амбициозные задачи с помощью нейросетей
Deep Learning
Deep Learning — относительно новый термин, однако существовавший ещё до резкого роста повышения внимания к науке о данных.
Deep Learning — это процесс применения технологий глубоких нейронных сетей — архитектур нейронных сетей с несколькими скрытыми уровнями — для решения поставленных задач.
По сути это Data Mining, в котором используются архитектуры глубоких нейронных сетей — особого типа алгоритмов машинного обучения.
Читайте также 8 причин стать дата-сайентистом в 2023 году
Искусственный интеллект
Искусственный интеллект — научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными.
Исследования, связанные с ИИ, высокотехнологичны и узкоспециализированны. Одной из ключевых задач искусственного интеллекта является программирование компьютеров, которые демонстрируют такие способности, как понимание, рассуждение, решение проблем, восприятие, обучение, планирование и т. д. Основные составляющие ИИ — машинное обучение, инженерия знаний (knowledge engineering) и робототехника.
Принимая во внимание перечисленные научные области, концепции, и инструменты, мы можем без труда заключить: Data Science — это наше будущее, причем ближайшее.
Кто такой Data Scientist и чем он занимается

Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Разбираемся, почему в современном мире всем так нужны дата-сайентисты и с чего начать.
Что делает Data Scientist
Data Scientist применяет методы науки о данных (Data Science) для больших объемов информации. Он строит и тестирует математические модели поведения. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по информации о спросе на товары в прошлом специалист по работе с большими данными может спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL. Пройдите наш тест и узнайте, какой вы Data Scientist. Ссылка в конце статьи.

Освойте профессию «Data Scientist» на курсе с МГУ
Data Scientist с нуля до PRO
Освойте профессию Data Scientist с нуля до уровня PRO на углубленном курсе совместно с академиком РАН из МГУ. Изучите продвинутую математику с азов, получите реальный опыт на практических проектах и начните работать удаленно из любой точки мира.

25 месяцев
Data Scientist с нуля до PRO
Создавайте ML-модели и работайте с нейронными сетями
6 490 ₽/мес 10 817 ₽/мес

Где нужен и какие задачи решает Data Scientist
- маркетологам поможет проанализировать данные карт лояльности и понять, каким группам клиентов что рекламировать;
- для логистов изучит информацию с GPS-трекеров и оптимизирует маршрут перевозок;
- HR-отделу поможет предсказать, кто из сотрудников скоро уволится, проанализировав их активность в течение рабочего дня;
- с продажниками спрогнозирует спрос на товар с учетом сезонности;
- юристам поможет распознать, что написано на документах, с помощью технологий оптического распознавания текстов;
- на производстве спрогнозирует срок службы оборудования на основе данных с датчиков.
В стартапах специалисты помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD — технологии по распознаванию лица и искусственный интеллект.
Пример задачи
Если нужно спрогнозировать спрос на новую коллекцию кроссовок, то специалист:
- готовит данные о продажах кроссовок за последние несколько лет;
- выбирает модель машинного обучения, которая лучше всего подходит для прогноза;
- выбирает метрики, которые позволят оценить качество модели;
- пишет код модели;
- применяет алгоритм машинного обучения на данных о прошлых продажах;
- получает прогнозные значения и предлагает их менеджерам для принятия решения об объемах производства кроссовок.
Что ему нужно знать
Нужно хорошо понимать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач нужен язык С или C++.
Результаты анализа нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.

Плюсы и минусы
Высокая зарплата — дата-сайентист приносит пользу бизнесу, за это готовы платить
Непредсказуемые результаты — нельзя понять, будет ли модель эффективной, до начала использования. Поэтому нужно быть терпеливым и готовым к неудачам, начинать с начала по нескольку раз
Влияние на бизнес — модели напрямую влияют на развитие компании и выручку
Дата-сайентисты часто работают в крупных интернет-компаниях, потому что те обладают огромными массивами данных. В таких компаниях результат работы специалиста сложно выделить среди результатов всего бизнеса
Востребованность — данных все больше, а на рынке дефицит кадров, многие крупные компании в поисках хороших кандидатов
Как выглядит рабочий день
Нужно ли работать в офисе, зависит от компании. На hh.ru можно найти около 25% вакансий удаленной работы. Иногда компании предлагают комбинировать работу из офиса и из дома. Взаимодействие с командой зависит от масштаба задач: новичок, готовящий данные к анализу, может общаться только с руководителем, а синьор должен общаться с заказчиками и делегировать задачи команде.
Как правило, рабочий день начинается с разбора почты и общения с командой. Затем нужно писать SQL-запросы и готовить массивы информации к машинному обучению, писать код модели на Python и прогонять данные через модель. В процессе работы нужно периодически созваниваться с командой и менеджерами, которые будут использовать модель на практике.

Станьте дата-сайентистом на курсе с МГУ и решайте амбициозные задачи с помощью нейросетей
Как Data Scientist строит карьеру
Ступени карьеры в Data Science, в целом, типичны для всей IT-отрасли.
- Джуниор нуждается в более детализированной постановке задач, его нужно направлять и объяснять, как решать некоторые задачи. Он готовит данные, очищает их от ошибок, делает простую обработку, строит сводные таблицы.
- Мидл может сам выполнить стандартные задачи, помощь ему нужна только в нестандартных ситуациях. Занимается машинным обучением и созданием алгоритмов.
- Синьор имеет несколько готовых проектов, может принять задачу от бизнеса и сам решить ее. Может обработать большие данные и визуализировать результаты, работает со сложными фреймворками.
Можно перейти в Chief Data Officer и управлять Data-проектами или выбрать специализацию, например обработку текста или изображений.
В каких случаях выбирают Data Science
- Когда нравится анализ и систематизация данных и есть интерес к передовым технологиям — дата-сайентисты работают с искусственным интеллектом, нейросетями и Big Data.
- Когда хочется заниматься исследованиями и наукой на качественно новом уровне.
- Когда есть опыт в обычной разработке и желание освоить набор инструментов, работать над масштабными проектами.
- Когда на текущей работе мало перспектив, хочется освоить перспективное направление и больше получать.

Глеб Синяков,
аналитик-разработчик в «Тинькофф»
Всех, кто приходит в Data Science, можно разделить на четыре потока. Есть те, кто становятся дата-сайентистами после профессионального образования, но в университетах таких курсов пока немного. Также есть люди технических и научных профессий, которые хотят найти более перспективную работу с большим окладом. Третий поток — разработчики, которые устают от скучного программирования и ищут интересные задачи. Есть специалисты, которые начинали с нуля: если у новичков есть самодисциплина и интерес к данным, то они будут хорошими дата-сайентистами. Наконец, есть те, к кому Data Science приходит сам, например к биоинформатикам.
Подробнее о том, что делает Глеб Синяков, читайте в статье.
Насколько это востребовано
По данным Всемирного экономического форума, Data Science занимает первое место в рейтинге профессий с самым большим спросом на рынке до 2025 года.
Data Science — одна из самых растущих профессий в IT, при этом специалистов компаниям не хватает. За последние три года количество вакансий выросло на 433%.
Сколько зарабатывает специалист по Data Science
Зарплата зависит от этапа карьеры и компании: у junior — 100 000 рублей, а у middle — более 280 000 рублей. Для сеньоров с большим стеком технологий и опытом от пяти лет есть вакансии и на 700 000 рублей.
По данным Хабр.Карьеры, средняя зарплата в Data Science — 170 000 рублей.

Отдельная перспективная опция — возможность работы в международных компаниях.
Какие качества пригодятся дата-сайентисту
- Коммуникабельность — общаться нужно много: принимать задачи и разбираться в них, общаться с командой, презентовать результаты заказчикам.
- Критическое мышление — умение задавать много вопросов окружающим и искать реальные, а не мнимые закономерности.
- Любознательность — нужно разбираться не только в своей сфере, но и в том, как работают бизнес-процессы, чтобы помочь компании вырасти.
Как стать специалистом по Data Science
Прежде всего стоит подготовиться к тому, что быстрого старта в IT не будет. Для Data Science нужна крепкая теоретическая база в математике, которую не выучить за три недели. Есть несколько вариантов получить необходимые знания.
Самостоятельное обучение. Способ подойдет тем, у кого уже есть опыт в IT, а также стальная воля для того, чтобы организовать свой учебный процесс и следовать ему. Начать изучение Data Science можно с учебника Dive into Deep Learning, затем освоить Python и SQL, например на бесплатных курсах или на YouTube. Чтобы погрузиться в среду и разобраться с современными задачами и подходами, полезно почитать кейсы на Хабре. После этого нужно много практиковаться и делать pet-проекты, чтобы получить опыт для своей первой работы или стажировки.
Онлайн-курс по Data Science. Подойдет тем, кто хочет освоить базовые знания на практике и передать организацию образовательного процесса в надежные руки. Обучение потребует от вас меньше усилий, вы будете работать над проектами под руководством кураторов-практиков. Минус способа — он не бесплатный. Зато быстрее, чем учиться самостоятельно.
Магистерская программа по Data Science. Это хороший способ получить фундаментальную и теоретическую подготовку от опытных преподавателей, а также практические навыки для реальных бизнес-задач. Такой гибридный формат обучения предлагает, например, онлайн-магистратура Skillfactory и МИФИ «Науки о данных». Здесь можно получить доступ к вычислительным ресурсам, библиотекам, а также к сообществу преподавателей и студентов.

Станьте дата-сайентистом: изучите науку о данных с преподавателями МИФИ и практикуйтесь на реальных кейсах
P.S.: Data Scientist — самая сексуальная профессия?
Этот расхожий мем запустил журнал Harvard Business Review, в котором в 2012 году была опубликована статья «Data Scientist — самая сексуальная профессия XXI века».
Текст начинается с рассказа о Джонатане Голдмане, выпускнике Стэнфорда, который устроился в LinkedIn и построил модель, предсказывавшую владельцу аккаунта, кто из пользователей соцсети может оказаться его знакомым. Эта разработка сильно ускорила рост LinkedIn и принесла ей новых пользователей.
В статье упоминается фраза Хэла Вариана, главного экономиста Google: «В ближайшие 10 лет самая сексуальная работа — это статистика. Люди думают, что я шучу, но кто бы мог подумать, что компьютерные инженеры окажутся самой сексуальной работой 90-х?».