5 задач в работе специалиста по Data Science, которые нельзя автоматизировать

Перевод статьи 5 Examples Where Data Scientists Can’t Be Automated от Matt Przybyla.

По мере того как наука о данных стала набирать популярность, а её задачи — обозначаться более четко, все чаще звучит идея автоматизации этой сферы. И правда, многие процессы в data science вполне могут быть автоматизированы, но всё же есть ключевые моменты, требующие внимания эксперта.

Такие вещи, как чистка датасета, сравнение моделей и визуализация данных, могут быть выполнены автоматически. Но эти шаги и не требуют активного участия человека.

Несмотря на то, что образование в сфере data science фокусируется по большей части на программировании и построении моделей, основная задача человека в этих процессах — обеспечить взаимодействие с бизнесом.

Об этом и других вещах мы поговорим, рассматривая пять примеров того, что работу специалиста по data science невозможно автоматизировать полностью.

Постановка задачи

Итак, мы упомянули задачи в data science, которые могут быть автоматизированы. Теперь можно перейти к тому, что автоматизировать нельзя.

Один из важнейших пунктов – это постановка задачи. Программа не сможет найти проблему бизнеса и четко ее определить.

Автоматизация науки о данных, конечно, может облегчить поиск решения, но для исследования нужд бизнеса и устранения неполадок необходимы креативность и понимание требований.

Вот причины, по которым остановка задачи должна обязательно производиться человеком:

Программа не сможет понять проблемы бизнеса. Например, она не будет знать, что потребителям не рекомендуются продукты на основе их истории покупок, и, следовательно, не поймёт, что решить проблему можно с помощью рекомендательной системы.
Правильно расставить приоритеты может только человек, ведь программа не способна самостоятельно оценить усилия, время, деньги и многое другое.
Программа не сможет встретиться с менеджерами по продукту и понять проблемы бизнеса.

Наконец, автоматизированная data science вряд ли сможет сама определить, зачем она понадобилась в данной задаче.

Исследование данных

Автоматизированная наука о данных или автоматизированное машинное обучение (назовём эту концепцию AutoML) не могут сами начать работу, отталкиваясь от запроса бизнеса. Аналогично AutoML также не знает, какие источники данных нужно искать. AutoML способно объединить окончательный набор данных, но оно не сможет найти исходные данные до того, как они будут преобразованы.

Рассмотрим ключевые аспекты исследования данных (поиска нужных данных для модели машинного обучения) в разрезе того, кто им занимается — человек или AutoML.

Чтобы AutoML могло исследовать данные, в первую очередь нужны сами данные, которые собирает датасаентист.
Датасаентист должен просмотреть различные сайты, источники, платформы в поисках данных, которые подойдут для модели.
Для AutoML было бы также затруднительно писать письма компаниям, да и в целом знать, какие данные следует искать: данные о трафике, о потребителях или любые другие.

К последнему пункту следует добавить, что при исследовании данных необходимо понимать, какого типа данные нужны, в какой отрасли их следует искать, каких правил придерживаться и когда прекращать поиск. Всё это должен знать датасаентист (или инженер по работе с данными – название должности зависит от компании).

Генерация признаков

На этом шаге можно воспользоваться преимуществами AutoML, но тут требуется понимание бизнеса, продукта и потребителей — без этого невозможно знать, какие новые признаки нужно создавать.

Основные примеры генерации признаков, AutoML vs специалист:

Датасаентисты знают, как можно объединить две переменные в одну, перемножив их или разделив одну на другую: так два показателя «количество кликов» и «пользователь» можно объединить в переменную «кликов на одного пользователя».
Эксперты умеют группировать определённые переменные так, чтобы они не теряли смысл. Возможно, AutoML попыталось бы создать переменную вроде «кликов на тип дома», если бы узнала, что переменные нужно делить друг на друга (и если у этой системы есть данная функция). Таким образом она бы ввела переменную, которая в принципе не имеет смысла, потому что у автоматической системы нет представления об индустрии, в которой она работает. А человек создал бы переменную «количество кликов на пользователей, сгруппированных по почтовому индексу» – она хранила бы полезную информацию.

Понимание индустрии

Этот пример – логичное продолжение темы, затронутой в предыдущих пунктах: в data science нужны люди, которые знают своё дело. С учетом сказанного, я буду краток.

Трудно автоматически определить, какой тип данных нужен в конкретной отрасли.
Индустрии очень отличаются друг от друга, и рекомендательная система в медицине может быть не так полезна, как в сервисе, связанном с киноиндустрией.

Внедрение модели в бизнес и/или продукт

Все предыдущие примеры касались подготовительного (начального) этапа работы датасаентиста, последний же пример будет посвящён завершающей стадии.

Предположим, вам удалось-таки разработать идеальную платформу для подбора моделей, которая работает с потрясающей точностью. Что будет дальше? Именно на этом этапе без эксперта не обойтись.

Даже если автоматизация зайдёт так далеко, понадобится специалист, знающий, в каком месте приложения/сайта следует применить результат.
Специалисты знают, с какой периодичностью нужно обучать модель, как часто выводить результат или делать новые прогнозы – часто это обсуждается на этапе оценивания.
Датасаентисты знают, как делать выводы на основании сложных результатов и представлять их стейкхолдерам. Даже если AutoML удастся как-то подвести итоги по результатам, человек лучше справится с ответами на вопросы, которые обязательно появятся у стейкхолдеров, покупателей и высшего руководства.

Заключение

Наверняка вы уже заметили закономерность в этих примерах: большинство описанных шагов относятся к подготовительному этапу, и только один – к окончанию работы.

Это значит, что все промежуточные шаги возможно автоматизировать, и платформы, которые на это способны, чрезвычайно полезны. Но всё зависит от того, с чего вы начнёте работу и как её закончите – именно эти этапы без эксперта не реализуемы.

Я верю, что вакансии в области data science никуда не денутся. Напротив, они будут постоянно обновляться.

Надеюсь, эта статья вам понравилась заставила задуматься о значимости профессии data scientist. Спасибо за внимание!

От редакции Techrocks: а пока Data Science не автоматизировали совсем, вы можете почитать про лучшие инструменты для понимания моделей машинного обучения.

[customscript]techrocks_custom_after_post_html[/customscript]

[customscript]techrocks_custom_script[/customscript]