data scientist
РОЛЕВАЯ МОДЕЛЬ: DATA SCIENTIST

Big Data = Big Money

Кажется, уже каждая государственная структура кричит, что в России цифровая экономика, а большие данные - новая нефть. Мы не спорим, а только поддерживаем отечественную науку. В материале о Data Science простым языком (попытка не пытка).
Материал подготовили
О ЧЕМ ЭТО ВООБЩЕ

Data Science - наука о данных - занимается разработкой способов поиска информации, установления связей, возможностью применения этих данных. В дело идет цифровая информация, но также возможно включение таких сведений, которые требуют оцифровки.

Человек, владеющий инструментами обработки такой информации, может объяснить многие явления, которые ранее были неизвестными и необыкновенными. Например, в книге "Любимый цвет Набокова - лиловый" Бен Блатт показывает, что чувство стиля у писателей – объективно измеряемая величина, а не божественный талант.

Или в 2013 году был обнаружен бозон Хиггса. Он объясняет, откуда у материи появляется масса, и помогает понять строение и возникновение вселенной. Искали его 48 лет 10 тысяч физиков (только на момент открытия), и теорию Питера Бозона подтвердили. Без обработки больших данных такого бы не произошло.
ЗАЧЕМ ЭТО НУЖНО

Предложенные новости в ленте; реклама в интернете, подобранная специально для вас; решение банков выдавать вам кредит или нет; выборы Дональда Трампа в президенты. Во всем этом используется Big Data.

Как это работает (самый простой пример):

В специально разработанную программу заливают информацию, например, обо всех людях, которые проголосовали за Трампа ранее. Информация находится в открытых источниках - на страницах в фейсбуке. Компьютер находит общие черты среди этих людей: социальный статус, образование, наличие/ отсутствие семьи и так далее. Из этого делается вывод, что люди с такими же признаками скорее всего проголосуют за этого кандидата. По этим показателям рассылается контекстная реклама конкретным людям в фб. Или того интереснее: проводится дополнительное исследование по поводу того, какие люди лучше реагируют на звонки, какие на письма, а какие на сообщения. Они переходят по ссылке, далее уже дело за пиарщиками предвыборной кампании, политтехнологами. Итого: максимальная вовлеченность.
ПОЧЕМУ ЭТО ВАЖНО

Вопрос: Есть ли перспективы или это временный хайп?

Ответ: Хайп не пройдет.

Теория:

Data Science, по факту, - это наука о науке, величайший инструмент, применимый к знаниям, которые копились более 4000 лет. Это поможет любым видам деятельности уменьшить рутинную работу, добыть больше информации и сделать революционные открытия. Некоторые ученые считают, что за Data Science стоят все инновации в науке, поэтому должна начаться повсеместная интеграция этой дисциплины в университеты.

Практика:

Поскольку большим компаниям разработки, созданные специалистами по Big Data, уже начали приносить прибыль, они будут стараться больше и больше внедрять их, вкладывать деньги в новые исследования. Процесс вряд ли можно остановить, когда видна реальная польза.

Другой вопрос: возложено слишком много ожиданий и не все они смогут оправдаться, как это скажется на репутации науки - не ясно. Еще один серьезный вопрос: внедрение Data Science должно происходить в сферах жизни человека более значимых, чем игры, банки и реклама, чтобы эта область действительно приносила пользу людям.

Либо наблюдайте со стороны, либо - в дело!
КАКИЕ ЗАДАЧИ

Во всемирной практике позволить разработки Big Data могут себе только обеспеченные компании. Среди них: банки, операторы связи, фирмы бытовой техники, самые крупные больницы, научные центры, поисковые сети и приложения. Братство Кремниевой Долины, разбросанное по миру.

Они привлекают дата саентистов, чтобы улучшить свой товар или качество работы сотрудников. Поэтому у каждого специалиста есть определенная задача. Это не про идеальные материи: не про поиск гениальных идей и их подтверждение.

Для решения проблемы Data Scientist:

1) Проводит исследование, из чего выдвигает гипотезу о причинно-следственной связи.

2) Пишет программу для компьютера, чтобы эту гипотезу проверить. Выбирает маленькое количество данных.

3) После подтверждения идеи - расширяет параметры и загружает огромное количество данных в компьютер. Доводит программу до минимальной погрешности.

4) Задача решена.

Но все не так просто. 80% времени тратится на рутинную работу: обучение программы вручную, ее чистки. Идеи и гипотезы могут быть сколь угодно прекрасны, но для ее подтверждения может уйти от месяца до нескольких лет. Как с бозоном Хиггса.
СКОЛЬКО ДЕНЕГ

В России, исходя из исследований Superjob и HeadHunter, зарплата для дата саентистов без опыта работы в Москве начинается с 70 тысячи рублей, а в Петербурге с 57.

Для специалистов с опытом работы от 3 лет Москва дает от 110, а Петербург от 90. Нужно учитывать, что если у вас есть дополнительное образование, то зарплата вырастает. Например, если вы разбираетесь в строении автомобиля, то идеальный проект для вас - разработка беспилотной машины, где зарплаты начинаются от 90 тысяч для новичков, а предела не имеют.

В Америке средняя зарплата дата саентиста – 530 тысяч в месяц на рубли. Те, кто давно в деле, получают до 1 миллиона. В Китае средняя зарплата в районе 250 тысяч рублей.

Такие большие зарплаты обусловлены недостатком кадров. Это происходит потому, что наука очень молодая, специалистов мало, приходится переманивать. Несмотря на то, что университеты все больше добавляют бакалаврские и магистерские программы по теме, по подсчетам аналитиков к 2040 году все равно не будет хватать специалистов по Data Science.
КАК НАЧАТЬ

По мнению Александра Петрова, CTO E-Contenta и руководителя математического курса GoTo Course: "Лучший багаж знаний и навыков для работы в этой области можно получить в высших учебных заведениях по направлениям: "Прикладная математика", "Информатика", "Математическая статистика", а потом прокачать свои навыки. Для этого почти у каждой большой компании есть курсы для своих сотрудников.

Кстати, люди, с которыми мы общались из сферы Data Science, сообщили, что при приеме на работу не спрашивают, в каком вузе ты учился, главное - твои знания. В Сбербанке среди всех программистов, которые работают с Big Data в одном отделении, только у троих из 200 есть корочки о высшем образовании по теме, однако база обязательна!

Поэтому учиться много и самостоятельно. Вот здесь посмотри подробнейший список образовательных курсов. А в гиде еще больше полезного.
ГИД

Узнать больше

51 книга по теме

И еще курсы - Райгородский: теория графов, теория вероятности, случайные графы и комбинаторика.

Видео-лекции OpenDataScience и Mail.ru, бесплатный курс для тех, кто знает высшую математику и действительно готов погрузиться в вопрос с головой.

Здесь все новости по теме


Втянуться


Сходить на конференцию

Читать журнал с последними разработками

Найти работу
Мы собираем каждый гид вручную с мыслями об интересах тех людей, которые его прочитают. Да, мы выбираем самое полезное на наш взгляд, но не можем всего за один материал охватить огромный круг возможностей на эту тему. Но ты можешь. Прямо сейчас начни развиваться в том, к чему тебя тянет. Истории взлетов и падений, лайфхаки и новости других начинающих - на uptu.community. Еще больше актуальных возможностей - на uptu.work.
ЗАЦЕПИЛА ТЕМА? ПОМОГИ РАЗОБРАТЬСЯ ТЕМ, КОМУ ЭТО ТОЖЕ ИНТЕРЕСНО.
ЗНАЕШЬ ЧТО-ТО ЕЩЕ ЦЕННОЕ ПО ТЕМЕ? ПОДЕЛИСЬ СВОИМ ОПЫТОМ В UPTU.COMMUNITY И СТАНЬ ПОПУЛЯРНЫМ АВТОРОМ.
ТАКЖЕ МОЖЕТ ЗАЦЕПИТЬ
© 2019 UPTU.ONE
МЫ В СЕТЯХ