направления data science какие есть
Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м
Привет, Хабр! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.
ИИ и нейросети
Искусственный интеллект хоть всё ещё испытывает трудности с тестом Тьюринга, но успехи на этом поприще есть.
В мае 2020 года команда OpenAI выпустила новый алгоритм обработки естественного языка GPT-3. Сегодня это, без сомнения, лучший существующий алгоритм для данной цели.
Улучшения системы по сравнению с прошлой версией GPT-2 просто колоссальные. Количество параметров алгоритма увеличилось более чем в 100 раз. GPT-3 использует 175 млрд. параметров, когда GPT-2 использовал только 1,5 млрд.
И если раньше нейросеть могла генерировать текст, который только приблизительно напоминал человеческий, то сейчас её возможности куда шире.
Один студент в своём аккаунте Apolos публиковал статьи, написанные GPT-3. Не очень сложные, в стиле мотивационного тренера. И только один из десятков тысяч читателей заподозрил, что статьи написаны не человеком.
Собственно, поэтому OpenAI не выпускают алгоритм в свободный доступ — с его помощью можно просто похоронить Интернет под лавинами фейковых новостей.
Потенциальная польза в GPT-3 просто огромна. От создания нового поколения голосовых помощников до разработки адаптивных игровых механик, которые выведут RPG на абсолютно новый уровень.
Кстати, вы уже пробовали AI Dungeon, текстовую игру, которую ведет GPT-3? Если вдруг нет, попробуйте, это очень интересный опыт. Вот в этой статье описан один из таких опытов.
Decision intelligence
Наука о принятии решений — довольно свежая дисциплина, которая изучает научные теории о принятии решений. Чтобы решения принимались не по субъективному опыту или ощущениям ЛПРа, а с помощью анализа и сопоставления данных.
DI позволяет автоматизировать принятие рутинных и операционных решений, разгружая человека, принимающего решение.
Медицинская система InferVision, основанная на алгоритме Alpha Go, была запущена в 2015 году, а именно в 2020 она показала всю свою мощь. В Китае многократно выросло число людей, проходящих компьютерную томографию. Специалисты просто не справлялись с обработкой результатов. Ведь на анализ одного КТ медику нужно от 10 до 30 минут.
На помощь пришла InferVision, которая анализировала КТ за 5 секунд. Это позволило сразу отсеивать здоровых людей, у которых нет патологических изменений в легких. А у людей с патологиями система сразу же выдавала предполагаемый диагноз. Естественно, всё это проводилось под контролем специалиста, и решения принимал именно он, но это позволило сократить время на обработку одного анализа в несколько раз.
Decision intelligence основывается на AI и глубоком обучении. InferVision, к примеру, обучали на 100 тыс. кейсов.
Конечно, при текущем развитии технологии AI ещё не может принимать объективно лучшие решения в системах со множественными вариантами. Ему просто не хватает мощностей и исходных данных для анализа. Но во многих моментах он позволяет исключить импульсивность человека, его ангажированность и банальные ошибки мышления. А ещё автоматизировать рутинные процессы принятия решений и сохранить время специалиста для решения сложных задач.
Облачная аналитика
Облачные системы аналитики существовали и раньше, но в 2020 году динамика их развития сильно увеличилась.
Облачная аналитика позволяет упростить процесс использования больших массивов данных, которые часто обновляются. Единая система аналитики для всех подразделения компании помогает актуализировать результаты аналитики и ускорить их использование.
Аналитика в реальном времени — это следующий этап, к которому стремятся многие компании. Лучше оперировать горячими результатами анализа, который сделан несколько секунд назад. Ведь анализ, сделанный вчера, уже может оказаться неточным.
Облачная аналитика — это перспективный инструмент для гигантов бизнеса, которые имеют отделы аналитики в каждом филиале. Поэтому крупные компании типа IBM сегодня плотно занимаются разработкой таких систем.
Маркетплейсы данных
Связанное с облачной аналитикой, но при этом самостоятельное явление.
Качество данных для анализа критично. Если у стартапа нет возможности провести глобальное маркетинговое исследование, то он рискует двигаться вслепую, не зная реальных потребностей ЦА.
Но сейчас аналитику можно купить. Маркетплейсы данных — это полноценные рынки информации. Известная Statista — один из первых подобных маркетплейсов, но сейчас отрасль растёт колоссальными темпами.
Естественно, персональными данными никто не торгует (по крайней мере легально). Имена и фамилии, адреса проживания, номера телефонов и email защищены законом. Но вот обезличенные данные продавать можно. А там очень много полезного для бизнеса. Возраст и пол, социальное положение, предпочтения, сфера работы, хобби, национальность и сотни других параметров, которые вы оставляете в сети, вплоть до выбора гаджетов на iOS или Android. Вспоминаем старую истину — если что-то в сети бесплатно, то возможно оплатой являетесь вы сами.
Рынок Big Data в 2020 году составляет 138,9 млрд. долларов. Эксперты прогнозируют, что к 2025 он вырастет до 229,4 млрд. Это колоссальные масштабы, в которых львиную долю будет занимать именно продажа информации, а не её майнинг.
Блокчейн в аналитике
Хайп по поводу блокчейна уже немного прошёл. Это в 2017 году только ленивый не хотел запустить свою криптовалюту, а в 2020 блокчейн используют в более прагматичных целях.
Комбинацию блокчейн и big data называют идеальным союзом. Блокчейн сосредоточен на вычленении и записи достоверных данных, data science анализирует большие массивы данных, чтобы находить паттерны развития и делать прогнозы.
Big data — это количество, а блокчейн — качество.
Потенциальных преимуществ от интеграции блокчейна в анализ big data просто куча:
Платформа Samsung Nexleger, которую запустили в Корее, упрощает эту схему. Теперь достаточно пройти полную процедуру идентификации только в одном банке или организации. Если нужно будет создать аккаунт в банке, который входит в систему проекта, то сделать это можно за несколько минут. Теперь все круги бюрократического ада нужно пройти только один раз — и все.
Графовые базы данных
Не самый популярный и распространённый тип СУБД. Он разработан специально для хранения топологий, которые включают в себя узлы и их взаимосвязи. Это не просто набор данных в классическом формате таблицы. Сама их суть отличается.
В основе графов — именно связи между сущностями, а не сами сущности.
И это просто клондайк для маркетинга. Ведь анализ графовых БД можно использовать для анализа лидеров мнений и инфлуенсеров в соцсетях, персонификации рекламы, программ лояльности, анализа вирусных кампаний, усиления SEO и много другого.
Графы позволяют анализировать сложные иерархические структуры, которые с помощью реляционных БД моделировать было бы проблематично.
В 2020 году графовый анализ активно использовали для трекинга распространения вируса в Китае и за его пределами. Исследование основано на динамических данных 200 стран, что позволяет прогнозировать дальнейшее развитие ситуации в мире и принять меры, чтобы смягчить последствия. Если интересно, полное исследование здесь.
В 2020 году значительно увеличился интерес к графовым СУБД. Их используют Ebay, Airbnb, IBM, Adobe, NBC News и десятки других крупных компаний. И специалисты, которые умеют хорошо работать с графовыми БД, ценятся на вес золота.
Python в Data Science
Python продолжает захватывать мировой рынок аналитики и разработки. И его позиции только укрепляются. Вот в этой статье можно почитать подробнее.
В рейтинге PYPL, Python, который анализирует Google Trends уверенно лидирует.
В рейтинге GitHub по количеству пулреквестов Python занимает второе место: 15,9% от общего числа всех пулреквестов. Для сравнения: язык R, с которым Python всегда соперничает в аналитике, находится аж на 33-м месте, и на его долю приходится только 0,09% пулреквестов.
Специалисты с владением Python в аналитике нужны больше. Мы не так давно анализировали рынок вакансий Data Science в России и обнаружили, что владение Python нужно в 81% вакансия, а вот R (без Python) требуют только в 3% случаев.
R остается хорошим языком для аналитики, но Python практически полностью захватил рынок. Если в 2012 году они находились примерно в равном положении, то сейчас лидерство Python неоспоримо. И с этим нужно считаться.
2020 год принёс в Data Science много нового, ведь сама сфера аналитики больших данных сейчас активно развивается. Безусловно, это далеко не все тренды, о которых стоит упомянуть. И отдельный вопрос дата-сайентистам — а какие профессиональные тренды повлияли на вашу работу в этом году больше всего? Нам очень интересно услышать.
Новая данность: что такое Data Science и зачем она нужна бизнесу
Что изучает Data Science
Каждый день человечество генерирует примерно 2,5 квинтиллиона байт различных данных. Они создаются буквально при каждом клике и пролистывании страницы, не говоря уже о просмотре видео и фотографий в онлайн-сервисах и соцсетях.
Наука о данных появилась задолго до того, как их объемы превысили все мыслимые прогнозы. Отсчет принято вести с 1966 года, когда в мире появился Комитет по данным для науки и техники — CODATA. Его создали в рамках Международного совета по науке, который ставил своей целью сбор, оценку, хранение и поиск важнейших данных для решения научных и технических задач. В составе комитета работают ученые, профессора крупных университетов и представители академий наук из нескольких стран, включая Россию.
Сам термин Data Science вошел в обиход в середине 1970-х с подачи датского ученого-информатика Петера Наура. Согласно его определению, эта дисциплина изучает жизненный цикл цифровых данных от появления до использования в других областях знаний. Однако со временем это определение стало более широким и гибким.
Data Science (DS) — междисциплинарная область на стыке статистики, математики, системного анализа и машинного обучения, которая охватывает все этапы работы с данными. Она предполагает исследование и анализ сверхбольших массивов информации и ориентирована в первую очередь на получение практических результатов.
В 2010-х годах объемы данных стали расти по экспоненте. Свою роль сыграл целый ряд факторов — от повсеместного распространения мобильного интернета и популярности соцсетей до всеобщей оцифровки сервисов и процессов. В итоге профессия дата-сайентиста быстро превратилась в одну из самых популярных и востребованных. Еще в 2012 году позицию дата-сайентиста журналисты назвали самой привлекательной работой XXI века (The Sexiest Job of the XXI Century).
Развитие Data Science шло вместе с внедрением технологий Big Data и анализа данных. И хотя эти области часто пересекаются, их не следует путать между собой. Все они предполагают понимание больших массивов информации. Но если аналитика данных отвечает на вопросы о прошлом (например, об изменениях в поведениях клиентов какого-либо интернет-сервиса за последние несколько лет), то Data Science в буквальном смысле смотрит в будущее. Специалисты по DS на основе больших данных могут создавать модели, которые предсказывают, что случится завтра. В том числе и предсказывать спрос на те или иные товары и услуги.
Зачем Data Science бизнесу
Компании используют Data Science вне зависимости от размера бизнеса, показывает статистика Kaggle (профессиональная соцсеть специалистов по работе с данными). А по подсчетам IDC и Hitachi, 78% предприятий подтверждают, что количество анализируемой и используемой информации в последнее время значительно возросло. Бизнес понимает, что неструктурированная информация содержит очень важные для компании знания, способные повлиять на результаты бизнеса, отмечают авторы исследования.
Причем это касается самых разных сфер экономики. Вот лишь несколько примеров отраслей, которые используют Data Science для решения своих задач:
И это лишь самый краткий и поверхностный список использования Data Science. Количество различных кейсов с использованием «науки о данных» увеличивается с каждым годом в геометрической прогрессии.
Каждый интернет-пользователь и просто потребитель ежедневно десятки раз сталкивается с продуктами и решениями, в которых применяются инструменты Data Science. К примеру, аудио-сервис Spotify использует их, чтобы лучше подбирать треки для пользователей в соответствии с их предпочтениями. То же самое можно сказать о предложении фильмов и сериалах на видео-стримингах, таких как Netflix. А в Uber науку о данных рассматривают как инструмент для предиктивной аналитики, прогнозирования спроса, улучшения и автоматизации всех продуктов и клиентского опыта.
Конечно, дата-сайентисты не могут в точности предсказать будущее компании и учесть абсолютно все возможные риски. «Все модели неправильные, но некоторые из них полезны», — иронизировал по этому поводу британский статистик Джордж Бокс. Тем не менее, инструменты Data Science служат хорошей поддержкой для компаний, которые хотят принимать более информированные и обоснованные решения о своем будущем.
Как работают дата-сайентисты
Для работы с данными дата-сайентисты применяют целый комплекс инструментов — пакеты статистического моделирования, различные базы данных, специальное программное обеспечение. Но, главное, они используют технологии искусственного интеллекта и создают модели машинного обучения (нейросети), которые помогают бизнесу анализировать информацию, делать выводы и прогнозировать будущее.
Каждую такую нейросеть необходимо спланировать, построить, оценить, развернуть и только потом перейти к ее обучению. «Сейчас, по нашим оценкам, в процессе работы над ИИ-решениями только 30% времени специалистов уходит на обучение моделей. Все остальное — на подготовку к нему и другую рутину», — говорит CTO «Сбербанк Груп», исполнительный вице-президент и глава блока «Технологии» Давид Рафаловский.
Компания Anaconda, которая разрабатывает продукты для работы с данными, приводит еще более печальную статистику. Ее опросы показывают, что в среднем почти половину времени (45%) специалисты тратят на подготовку данных, то есть их загрузку и очистку. Еще примерно треть уходит на визуализацию данных и выбор модели. На обучение и развертывание остается всего 12% и 11% рабочего времени соответственно.
Дата-сайентисты в облаках
Облегчить и ускорить работу по сбору данных, построению и развертыванию моделей помогают специальные облачные платформы. Именно облачные платформы для машинного обучения стали самым актуальным трендом в Data Science. Поскольку речь идет о больших объемах информации, сложных ML-моделях, о готовых и доступных для работы распределенных команд инструментах, то дата-сайентистами понадобились гибкие, масштабируемые и доступные ресурсы.
Именно для дата-сайентистов облачные провайдеры создали платформы, ориентированные на подготовку и запуск моделей машинного обучения и дальнейшую работу с ними. Пока таких решений немного и одно из них было полностью создано в России. В конце 2020 года компания Sbercloud представила облачную платформу полного цикла разработки и реализации AI-сервисов — ML Space. Платформа содержит набор инструментов и ресурсов для создания, обучения и развертывания моделей машинного обучения — от быстрого подключения к источникам данных до автоматического развертывания обученных моделей на динамически масштабируемых облачных ресурсах SberCloud.
Сейчас ML Space — единственный в мире облачный сервис, позволяющий организовать распределенное обучение на 1000+ GPU. Эту возможность обеспечивает собственный облачный суперкомпьютер SberCloud — «Кристофари». Запущенный в 2019 году «Кристофари» является сейчас самым мощным российским вычислительным кластером и занимает 40 место в мировом рейтинге cуперкомпьютеров TOP500
Платформу уже используют команды разработчиков экосистемы Сбера. Именно с ее помощью было запущено семейство виртуальных ассистентов «Салют». Для их создания с помощью «Кристофари» и ML Space было обучено более 70 различных ASR- моделей (автоматическое распознавание речи) и большое количество моделей Text-to-Speech. Сейчас ML Space доступна для любых коммерческих пользователи, учебных и научных организаций.
«ML Space – это настоящий технологический прорыв в области работы с искусственным интеллектом. По нескольким ключевым параметрам ML Space уже превосходит лучшие мировые решения. Я считаю, что сегодня ML Space одна из лучших в мире облачных платформ для машинного обучения. Опытным дата-сайентистам она предоставляет новые удобные инструменты, возможность распределенной работы, автоматизации создания, обучения и внедрения ИИ-моделей. Компаниям и организациям, не имеющим глубокой ML-экспертизы, ML Space дает возможность впервые использовать искусственный интеллект в своих продуктах, приложениях и рабочих процессах», — уверен Отари Меликишвили, лидер продуктового вправления AI Cloud, компании SberCloud.
Облака помогают рынку все шире использовать платформы для работы с данными, предлагая безграничные вычислительные мощности, подтверждают аналитики Mordor Intelligence.
По мнению экспертов из Anaconda, потребуется время, чтобы бизнес и сами специалисты созрели для широкого использования инструментов DS и смогли получить результаты. Но прогресс уже очевиден. «Мы ожидаем, что в ближайшие два-три года Data Science продолжит двигаться к тому, чтобы стать стратегической функцией бизнеса во многих отраслях», — прогнозирует компания.
3 главных Data-профессии: обзор компетенций и зарплат
Data Science выходит в массы. Настолько, что пора напомнить основы, почти что на пальцах. Скоро вполне может появиться множество вакансий c Data Science в заголовке, явно заниженной зарплатой и требованиями к начинающему аналитику, поэтому давайте внесём ясность.
Если вы слышите о Data Science из каждого мегафона и утюга — и окончательно запутались, гуглите «Data Science в Excel», или всё понимаете и хотите объяснить науку о данных кому-то простыми словами, эта статья тоже для вас. А для продвинутых и знающих людей у нас есть другие материалы о практической стороне вопроса.
Данные в отдельно взятой компании
Знакомьтесь, стартап English 123:
Бизнес стартапа — личные и групповые уроки английского, разговорные клубы. Все данные клиентов хранятся в CRM. Но «аналитика» сводится к просмотру статистики покупок. Решения принимаются интуитивно. Директор считает, что знает свою аудиторию, но рекламные кампании иногда проваливаются с треском.
Однажды провалилась реклама, которая поначалу нравилась всему руководству. В неё вложили ощутимый бюджет, и руководитель схватился за голову: куча денег ушла в никуда. Почему — непонятно. Чтобы разобраться в этом, компания нашла аналитика.
Главная задача аналитика данных — превратить цифры и графики в понятные выводы, чтобы руководитель мог принимать решения. Также он строит предположения и проверяет гипотезы на реальных данных. А ещё аналитик много общается — не меньше, чем работает за компьютером.
Вот что аналитик сделал для школы:
Классифицировал данные из CRM, Яндекс.Метрики, Google Analytics и других информационных систем.
Визуализировал данные и подал их ясным языком, составив портрет целевой аудитории.
Проанализировал результаты событий, интеграций, рекламных кампаний и другой деятельности стартапа.
Опираясь на статистику, рассказал руководству, какие решения были ошибочными.
Предложил, как уменьшить отказы от заказов в сети.
Участвовал в редизайне сайта и калибровке рекламных кампаний по всем каналам. Запускал A/B-тесты, которые показывали реакцию пользователей на какое-то изменение.
Выяснилось, что серия последних интуитивных решений приводила к бесполезным результатам, а школа выживала на рынке благодаря почти случайным удачам. Аналитик прокачал стартап по всем фронтам. Давайте посмотрим, что нужно уметь, чтобы стать аналитиком.
Нужно в совершенстве владеть законами логики и мыслить критически. А ещё уметь и любить общаться с самыми разными людьми. Аналитик — посредник между таблицами цифр и руководителем. Главное в его работе — грамотно показать данные и представить выводы так, чтобы их поняли правильно и однозначно.
Специальность аналитика мы рекомендуем перфекционистам и экстравертам, которые умеют и любят презентовать свою работу другим людям. Она идеально подходит тем, кто стремится всё делать аккуратно и красиво.
Руководитель отдела аналитики в SkillFactory Артём Боровой рассказывает, что аналитика — творческая работа: трудно выделить единый подход к задачам. Каждая требует нового порядка действий, а значит, новых поисков решений.
Если вы решились стать аналитиком, нужно освоить следующие хард-скиллы:
Статистику, матанализ, теорию вероятностей.
Инструменты визуализации: Tableau, Power BI и другие.
Что вы получите за эту работу?
Зарплата
Мы проанализировали больше 100 вакансий на hh.ru — и вот что увидели:
Junior зарабатывает 60 000–70 000 рублей.
Middle — от 70 000 до 140 000 рублей. Здесь аналитики уже делятся на продуктовых, маркетинговых и бизнес-аналитиков, оплата труда зависит от сложности задач.
Senior и Teamlead в Москве: 140 000–190 000. Чуть меньше сумма в регионах — до 160 000.
При этом аналитик с хорошим бэкграундом часто уходит в Data Engineer и Data Science — там платят намного больше, поэтому чистых Senior Analyst мало.
Стать Data Analyst за 10 месяцев вы сможете на наших курсах. А здесь можно прочитать, как финансист Виктор Коваценко стал Data Scientist и уехал в Германию
Расширение и Data Engineer
Тем временем метрики English 123 опровергли устоявшийся портрет клиента, а недочёты работы в сети компания устранила A/B-тестами. Продажи выросли — расширилась и команда аналитиков.
Спустя 2 года анализ данных стал отнимать в несколько раз больше сил и времени, чем в начале работы команды аналитиков. Почему? Причины простые. Записи CRM дублировались, не было единой системы хранения и обработки данных. Узнав о проблемах, компания нашла человека, который доводит сырые данные до ума, — Data Engineer.
Инженер данных налаживает инфраструктуру и каналы данных от их получения до хранения, организует конвеер данных. Вот что Data Engineer сделал для стартапа:
Очистил данные от повторов, пробелов и прочих ошибок; удобно разделил информацию в таблицах по её смыслу.
Привёл существующие базы к единому виду.
Продумал и реализовал систему автоматического мониторинга и получения данных, а ещё системы их обработки и хранения.
Data Engineer освободил руки аналитиков — и они ускорили развитие компании. Информации стало ещё больше, но благодаря налаженной инфраструктуре аналитические модели работали эффективно.
Чтобы делать свою работу хорошо, Data Engineer должен обладать большим терпением. Работать нужно с цифрами, алгоритмами и кодом в полном беспорядке. Что вчера было чёткой системой, сегодня окажется хаосом — в крупных компаниях так случается часто. Хватает и рутинной работы вроде SQL-запросов.
Нужно видеть всю картину: представлять, как превратить массив данных в удобную и эффективную систему, как с данными будут работать аналитики. Необходимо понимать информационные процессы, то есть проштудировать все нюансы бизнеса.
Инженер данных гораздо ближе к разработчику, чем к аналитику. В небольших компаниях ему необязательно общаться с кем-то, кроме аналитиков. Профессия отлично подойдёт педанту с системным мышлением. Проверьте себя — если в вашем шкафу все вещи разложены по типу и цвету, то лучшей специальности вам просто не найти. Приглашаем вас на курс по Data Engineering.
В работе инженеру данных нужны:
Математика. На уровне выпускника технического вуза нужно знать матанализ, теорию вероятностей и статистику.
Python или R, SQL. Большой плюс — языки Java или Scala.
Hadoop, Kafka, Spark — инструменты работы с по-настоящему большими данными.
MS Azure, Amazon Web Services.
Зарплата Data Engineer
По данным hh.ru, инженер данных неплохо зарабатывает даже в рамках IT-сферы.
Junior может рассчитывать на 70 000–80 000 рублей; в Москве довольно много вакансий с минимальной зарплатой в 100 000.
Middle в среднем зарабатывает от 100 000 до 180 000 рублей. Есть ставки выше, но на таких вакансиях обычно нужны специфические знания или опыт использования не слишком популярных технологий.
Senior московская компания Playkot предлагает до 370 000 рублей. Хорошие инженеры данных очень ценятся, бизнес ими дорожит.
Стать Data Engineer вам поможет наш курс, который займёт 10 недель.
Продолжим историю
Усилиями команды компания выросла в несколько раз, появилось много продуктов: приложение для изучения лексики и отдельные программы подготовки к международным экзаменам. Бизнес вошёл в десятку крупнейших в стране.
Штат аналитиков уже не справлялся. Последней каплей стал провал социальной сети для изучения английского языка, в которую вложили полмиллиона долларов. Традиционный анализ показывал, что проект будет успешным, его оттачивали разными тестами. Но он не взлетел. В чём причина?
Массив данных English 123 превратился в Big Data, а бизнес как будто начинался снова: многое зависело от стечения обстоятельств. Необходим был человек, который поймёт, что творится, и расскажет, что делать. Так в компанию пригласили Data Scientist.
Опираясь на проверенные и новейшие исследования в ИИ, Data Scientist строит нейросети и модели ML. Вначале они могут быть непонятны, но модели работают, решают реальные проблемы. Главное в работе DS — все свои идеи он должен объяснить бизнесу и обосновать их пользу. Вот почему такой специалист стоит очень дорого.
Data Scientist — идеальная работа для новаторов. Работа в науке о данных — это постоянный поиск идей и нестандартных решений. Если вы искали профессию, где слиты воедино творчество и математика, то вы её нашли.
Благодаря Data Scientist высшие руководители отвечают только за долгосрочное планирование, а практические задачи предоставлены менеджерам и аналитикам.
SkillFactory — прежде всего школа Data Science, чтобы быть конкретными, кратко перечислим темы проектов наших студентов:
Система рекомендаций интернет-магазина; Instagram-бот коммерческого аккаунта для поиска, оценки и взаимодействия с лидерами мнений.
Автоматическое составление резюме текста; алгоритм оценки тона сообщений GPT-3 на заданную тему.
Извлечение промокодов из контента соцсетей; робот-предсказатель; прогнозирование задержек авиарейсов; анализ видео из беспилотных автомобилей.
Модель прогнозирования нетарифных барьеров в торговле молочной продукцией и расширение её ассортимента до 6 видов товаров животного и растительного происхождения.
Вот что нужно знать Data Scientist
Понимать математические выкладки — да, но этого мало. Нужно представлять себе, где они выстрелят. Владеть Machine Learning и Deep Learning: линейной и логистической регрессиями, деревьями решений, методами опорных векторов и т. д.
Python и его библиотеки: TensorFlow, Keras, PyTorch, LightGBM, NumPy, SciPy, Pandas, sklearn. Владение C или C++ будет большим преимуществом.
SQL работает большинство проектов. Базы NoSQL нужны реже.
Tableau, Power BI, другие инструменты визуализации Seaborn, Plotly или Matplotlib.
Один из самых важных моментов — что получит специалист за такой труд.
Зарплата Data Science
Посмотрим на последние данные hh.ru за последний месяц:
От 100 000 рублей до 140 000 в месяц может зарабатывать Junior. Но Junior в Data Science очень мало. Почему? Смотрите выше: в DS переходят спецы уже с бэкграундом в разработке или аналитике данных.
До 215 000 рублей — зарплата крепкого Middle.
Senior и Lead Data Scientist могут зарабатывать от 300 000 до 500 000. На вес золота.
Освоить профессию Data Science вы можете на наших курсах за 24 месяца. А вот полная картина востребованности последних лет, по данным Open Data Science:
Наука о данных растёт просто невообразимыми темпами. Количество вакансий по главным специальностям за год увеличилось в 2,2 раза. При этом, по словам Data Scientist в VK Михаила Воловича, требования к DS пока размыты. Но именно эта пластичность даёт разные точки роста разным людям.
Поэтому если вы хотели начать карьеру в IT или перейти в сферу данных из разработки и тестирования, то сделайте это прямо сейчас.
Также вы можете перейти на страницы из каталога, чтобы узнать, как мы готовим специалистов в других направлениях.
Другие профессии и курсы
Data Science и Machine Learning