Пет въпроса за интервю за прогнозиране на добър учен с данни

За тези от нас в професията постоянно ни напомнят за драстичния недостиг на учени с данни. Това ще стане още по-лошо, преди да стане по-добро, тъй като търсенето на технологии като машинно обучение, AI и задълбочено обучение са на такава възходяща траектория. В резултат на този дефицит виждаме много хора, които усещат високоплатени възможности за заетост и правят преход от други професии. В резултат на този натиск проблемът за работодателите е ясен: не винаги получавате най-добрите кандидати за вашите отворени позиции.

Какво да правя? Много фирми изработват реклами за заетост, които на пръв поглед са предназначени да изплашат кандидатите. Не всеки може да изпълни ролята на науката за данни „еднорог“, призоваваща за докторска степен. в областта на компютърните науки и приложната статистика, заедно с години опит, специфичен за домейна. Разбира се, има смели души, които кандидатстват за тези работни места без необходимите знания и опит. Просто трябва ефективно да филтрирате импостерите.

Краткият списък по-долу е нещо, което измислих, за да бъда използван от наемането на мениджъри за позиции в областта на науката за данни (четете: не инженери на данни), за да помогна на хората да разпръснат реалността по отношение на техните способности. Вярно е, че много технологични фирми ще включват изтощителни тестове за кодиране по време на интервюта, но тези въпроси са по-нюансирани, като се съсредоточават повече върху основополагащи знания, опит в прехода на траншеи и здрав разум за науката за данни. Идеята е да се види дали те знаят основите, могат да създадат жизнеспособна стратегия и могат да решат на практика проблем.

  • Какво е значението на нормалното разпространение в науката за данни? Този въпрос е предназначен да демонстрира разбиране на един от най-основните елементи на науката за данните. Би било чудесно, ако отговорът включва дискусия за теоремата за централния лимит, но може би това е твърде много за искане. И може би получаването на математическата формула за функцията на разпределение на вероятността на Гаус е надхвърляне. Но освен споменаването на „кривата на звънеца“, би било хубаво да чуете нещо по линиите на: средната му стойност, средната стойност и режимът са еднакви или цялото разпределение може да бъде определено като се използват само два параметъра - средно и отклонение, или може би описание на неговото значение за линейна регресия (работната лоша на науката за данните).
  • Разкажете ми за вашата страст към науката за данни. Вие присъствате ли на местни срещи, участвате в предизвикателства за данни като Kaggle, работите за използване на данни за общо благо като хакване на публични данни, говорите на конференции, пишете книги или статии и т.н.? Смисълът на този въпрос е да се определи дали кандидатът смята, че науката за данни е тяхното истинско призвание. Мислят ли и мечтаят ли за данни? Виждат ли проблем и мигновено търсят решение, включващо модели в данните? Какви книги има в библиотеката им? Свързан въпрос е доколко математическата основа за науката за данните играе роля в това как мислят по темата? Учен с данни, който разбира математиката зад алгоритмите, обикновено се представя много по-добре.
  • Опишете, че последния път, когато сте изпитали неудовлетвореност в проект за научни данни, над който работите, и как го преодоляхте? Не всички проекти за научни данни се развиват бързо, тъй като могат да възникнат много потенциални препятствия. Този въпрос изследва дълбочината на истинския им опит и как успяват да се справят с неизбежните проблеми. Хората с оскъдни знания и опит лесно ще бъдат изложени тук.
  • Помислете за миналия проект за научни данни, върху който сте работили. Ако правомощията, които ще бъдат помолени да промените някой от източниците си на данни и по този начин да използвате различни прогнози, как бихте променили решението си? Този въпрос се отнася до предишната роля, която кандидатът е изиграл, и доколко те са се приспособили към променящите се изисквания, като въвеждане на нови масиви данни. Много пъти учените с данни от по-ниско ниво просто получават набор от данни със списък от предиктори, които да използват, без да предоставят никакъв принос за тяхната пригодност. По-тежките участници, от друга страна, ще бъдат ангажирани с подбора на набор от данни, проектирането на функции и статистическия анализ. Вероятно искате по-добре обозначен кандидат за вашия екип.
  • Изследванията посочват, че 2,3 милиарда души са били засегнати от наводнения през последните две десетилетия. Опишете как да подходите към проект за научни данни, за да прогнозирате предстоящи наводнения в следващите 100–500 години. Тези прогнози могат да се използват за изграждане на язовири на правилни места, за да се намалят до минимум загубите. Този вид въпрос или още един, съобразен с вашата специфична индустрия, призовава за разглеждане на „процеса на научните данни“, включително формулирането на проблеми, събирането на данни, борбата с данни, проучвателния анализ на данните, конструирането на функции, моделирането на данните (изграждане, напасване, и валидирайте модел) и разказване на данни с резултатите. Кандидатът трябва да бъде добре запознат с работния процес на учен.

Ако търсите добър учен с данни спрямо човек, който просто претендира за заглавие, горепосочените въпроси са изненадващо ефективни за бързо разграничаване между двете. Хубавото на тези въпроси е, че можете да прецизирате приемливите отговори по отношение на вашата индустрия или дори вашата компания.

- - - - - - - - - - - - - - - - -

Прочетете още статии за научни данни на OpenDataScience.com, включително уроци и ръководства от начинаещи до напреднали нива! Абонирайте се за нашия седмичен бюлетин тук и получавайте най-новите новини всеки четвъртък.