г. Минск, ул. К. Маркса, 32
+375 (29) 636 65 85
г. Минск, ул. К. Маркса, 32
Томас Дэвенпорт и Дж. Патил в своем материале для Harvard Business Review называют Data Scientist «наиболее желанной профессией в XXI-м веке».
Однако каким образом можно стать дата-сайентистом? Как утверждают большая часть источников, понадобиться может, как минимум, полноценная ученая степень в различных областях – нужно разбираться и в разработке софта, и в обработке информации, и уметь работать с базами данных, и иметь познания в сфере статистики, визуализации информации, машинного обучения, и т.п.
Однако по опыту уже можно сказать, что все это – не главное. Не потребуется быстро изучать много новых сведений, уж точно не нужно стремиться подряд освоить все навыки – на это запросто уйдет полжизни. Вместо этого нужно, прежде всего, освоить один важный навык – научиться читать внимательно описание должностных обязанностей. Именно это позволит вам выбирать для себя и претендовать на те вакансии, для работы на которых вы уже обладаете нужными навыками. Либо же вы можете развить конкретные навыки для работы с такими вакансиями, чтобы потом получить нужное вам место. Далее приводятся восемь важнейших навыков для Data Scientist.
Вне зависимости от того, в какую компанию вы пойдете, от вас потребуется знание стандартных профессиональных инструментов, в том числе:
Базовое понимание данных очень важно в Data Science. На самом деле, очень многие кандидаты даже не могут на собеседованиях внятно сформулировать определение P-значения. Приходя на собеседование, будущий сотрудник уже должен иметь представление, что такое статистические тесты, а также распределения, что такое метод максимального правдоподобия и т. п. Обязательно нужно вспомнить, чему вы обучались на занятиях по статистике, это также пригодится и в работе с машинным обучением.
Но важнее всего — точно представлять, когда и какой именно подход потребуется использовать. Знания статистики будут нужны для работы где угодно, но особенно они будут важны в компаниях, которые полностью ориентированы на работу с информацией, и где акционеры будут принимать свои решения, ориентируясь на те данные, что им предоставлены.
Методы машинного обучения отлично подойдут при работе с большим количеством информации и в компаниях, продукты которых целиком основаны на информации. Это означает, что придется знать значения всех слов, которые сейчас на слуху в том, что касается машинного обучения: k-ближайшие соседи, ансамблевые методы и случайные леса.
Многие из данных методов хорошо реализуемы при помощи библиотек R или Python — по этой причине вам не нужно будет изобретать велосипед, если, конечно, вы не являетесь ведущим специалистом с мировым именем. Намного важнее будет умение видеть полностью всю ситуацию, понимать, в какое время лучше использовать какие именно методы.
Возможно, на собеседовании от вас потребуется назвать примеры результатов, полученных вами на предыдущем месте работы, применяя при этом статистику или машинное обучение. Если таковых нет, интервьюер вполне может задавать вопросы, которые сопряжены с большим количеством переменных, или же связаны с линейной алгеброй, потому что это — основа большого количества методов.
Вы можете поинтересоваться – зачем вам нужно понимать данный материал, если имеется множество встроенных реализаций в sklearn или R? На самом деле, это нужно на тот случай, если команда разработчиков когда-нибудь примет решение создать собственную реализацию – тогда вам такие знания пригодятся.
Понимание данных концепций будет очень важно в тех компаниях, где продукты определяют данные, а маленькие улучшения в планируемой производительности или же в области оптимизации алгоритма в итоге приводят к очень большим выигрышам.
Очень часто те данные, которые анализируются вами, должным образом не организованы, потому и работать с ними трудно. А значит, очень важно уметь бороться с этой разрозненностью информации. Это могут, к примеру, быть различные пропущенные значения, или же непоследовательное форматирование строк (к примеру, «нью-йорк» и «нй» вместо «Нью-Йорк») и форматирование дат (’01 / 01/2014′ вместо ‘2014-01-01’ и т.д.). Этот навык будет иметь важность как для маленьких компаний, где вы только начинаете работу с данными, так и для разнообразных data-driven компаний.
Визуализация, а также передача данных обладают очень большой важностью. Особенно это важно для молодых компаний, в которых впервые принимаются решения, основанные на информации. Или же в таких компаниях, в которых дата-сайентист — человек, помогающий принимать решения остальным сотрудникам, основываясь при этом на данных.
Передача данных значит, что вам нужно будет описывать ваши выводы или ваши методы работы как для технической, так и для нетехнической аудитории.
Что же до визуализации информации, то будет полезно знать о таких инструментах, как ggplot и d3.js. Причем важно не только лишь узнать, как именно работать с инструментами для визуализации информации, но и понимать принципы кодирования информации и ее передачи.
Если вы проходите собеседование на устройство в маленькую компанию и станете одним из ее первых специалистов по данным, тогда вам непременно пригодится опыт создания софта. Ведь вы будете в ответе за обработку большого количества данных, а также, возможно, за разработку продуктов, управляемых этой информацией.
Компаниям очень важно иметь уверенность в том, что вы обладаете умением решать задачи, основываясь на данных.
Это значит, что в определенный момент собеседования вам могут задать вопрос о проблеме, относящейся к более высокому уровню, нежели ваш нынешний. К примеру, о тесте, который работодатель планирует запускать, или о некоем продукте, который ему понадобится для разработки. Важно понять, что в данном случае будет важным, а что – не будет. Как бы вы на посту Data Scientist взаимодействовали с менеджерами и с разработчиками продукта? Какие бы вы методы использовали?
Наука работы с данными пока только лишь зарождается, не имея еще четких границ. Чтобы получить работу, необходимо будет выбрать компанию, потребности которой отвечают вашим навыкам – это лучше, чем вхолостую развивать данные навыки.