12 неща, които бих искал да знам, преди да започна като Data Scientist

Аз бях учен по данни от малко повече от три години. От студентите получавам съвети за полето, така че ето няколко от моите мисли. Първо, ще изброя няколко неща, за които бих искал да са известни с влизането си в полето, и второ - моя стандартен съвет за студенти, които биха искали да станат учени по данни след дипломирането.

Какво бих искал да знам за Data Science

Толкова много инструменти, за които да се тревожите, толкова малко всъщност ще използвате

„Науката за данни“ е неясен термин, така че го третирайте съответно

Науката за данните може да обхване практически всякаква количествена работа. Двама учени за данни в различни компании или дори в рамките на една и съща компания биха могли да вършат съвсем различни видове работа. Полето постепенно се разделя на по-конкретни заглавия за работа, като например инженер на данни, анализатор на данни, инженер за машинно обучение и т.н. Този процес на специализация със сигурност ще се ускори в бъдеще. Ето защо, когато говорите за наука за данни или кандидатствате за работни места, опитайте се да разберете какво е конкретното релевантно определение на науката за данни за тази ситуация и се уверете, че съответства на вашето. По-специално е полезно да разберете какви резултати ще бъдат в конкретна роля в науката за данни. Ще трябва ли да напишете код, който живее в производствена система? Ще трябва ли да създавате тръбопроводи за данни? Ще правите ли анализи на офлайн данни и ако да, какви анализи? Измислянето на резултатите, за които ще отговаряте, често е по-добре от четенето на действителни длъжностни характеристики, тъй като длъжностните характеристики са писани, за да привличат широк кръг от кандидати за роля, а не подробно какво ще доведе до работата.

Синдромът на Imposter е нормална част от работата

Всеки учен с данни изпитва синдром на самоуправление. Открих, че една значима част от работата е в навигацията му. Просто винаги ще бъдат неща, които не познавате. Както бе споменато по-горе, полето е слабо дефинирано, така че има невероятно голям брой теми, които биха могли да попаднат под дефиницията на „науката за данни“. във всяко умение да бъдете учен с данни: доктор по статистически науки на Станфорд, инженер в Google-калибур и бизнес експерт от маккинси, всички обвити в едно. Реалността е, че никой не е перфектен във всичко. Дори ако по някакъв начин магически сте били перфектни във всяко умение, ще използвате само подмножество от тези умения за всеки проект и ще загубите практика с тези, които не сте използвали. Всичко, което трябва да направите, за да бъдете добър учен с данни, е да намерите начин да използвате данните, за да бъдете полезни. Има много различни начини за това. Добре е от време на време да усещате синдрома на самоубийството. Просто знайте, че е нормално и не позволявайте да ви сваля. Вместо това, опитайте се да приемете ситуации, в които имате нещо ново, за да научите като вълнуващи възможности за растеж и не забравяйте да имате това усещане следващия път, когато срещнете някой друг, който не знае нещо, което правите.

Никога няма да трябва да знаете всички инструменти

Hadoop, Spark, Прежда, Джулия, Kafka, Airflow, Scalding, Redshift, Hive, TensorFlow, Kubernetes ... има привидно безкраен брой научни данни, кодиращи езици, рамки и инструменти. Когато досега не сте работили на работа в областта на научните данни, изглежда, че трябва да знаете всички, за да сте истински учен по данни. Всеки път, когато чух някой да споменава инструмент, който не съм познавал в разговор, използвах безмълвно вътрешно измисляне и мислене, за да намеря клас на Coursera по темата, която бих могъл да питам, stat. За щастие, можете спокойно да игнорирате 99% от инструментите за наука за данни. В крайна сметка вашата компания ще разполага със собствен набор от инструменти. Всички в компанията ще се справят добре с използването на тези инструменти и ще бъдат напълно разбрани за повечето от останалите. Плюс това, нито една добра компания няма да се интересува дали сте използвали техния набор от инструменти преди. Освен ако нямате наистина специализирана роля, те ще очакват, че можете да научите техния набор от работа. Просто трябва да знаете достатъчно, за да преминете интервю. Изберете малък набор от инструменти, които работят за вас. Удобствайте се с тях и не се притеснявайте да се разклоните прекалено много, докато не сте на работа.

Научете обаче основните си инструменти добре

Не е нужно да знаете всеки инструмент, но трябва да задълбочите основните инструменти, които използвате ежедневно. Никога няма да съжалявате, че сте научили скучните части на каквото и да е SQL диалект, използван от вашата компания, например как да напишете оптимизирана заявка. Ако използвате R, научете доходите на ggplot2 и dplyr. Ако използвате Python, опитайте се наистина да разберете панди, numpy и scipy. Преструвах се, че познавам git от месеци, но винаги се връзвах в git-knots. Накрая се прекъснах и прочетох страхотен урок за инструмента. Тогава се почувствах непобедим. Ако откриете, че използвате нещо редовно, отделете време, за да прочетете просто ръководството му.

Вие сте експерт в областта, а не само методите

Науката за данните възникна като компромис между ролите на научните изследвания и ролите на бизнес анализатора. Първите използват мощни методи, но само косвено влияят върху бизнес решенията, докато вторите пряко влияят върху собствениците на фирми, но притежават ограничени инструменти за това. Учените за данни оказват най-голямо въздействие, когато комбинират двете страни заедно, смесвайки дълбоко познаване на домейни с правилните статистически и инженерни инструменти за вземане на по-добри решения или полезни продукти за данни.

Според мен повечето учени за данни се накланят твърде далеч в посока на изследователския изследовател и не са достатъчно далеч към пътя на бизнес анализатора. Те обичат да използват фантазия техники, но те не инвестират в обучение за тяхната област. Те отиват на конференции за машинно обучение, но по-рядко посещават конференции за, да речем, маркетинг или риск. Много учени за данни дори не осъзнават, че имат домейн. Всеки екип с натрупани знания за това, което работи и няма знания за домейна, и можете да научите за това от вашите бизнес партньори или като говорите със сходни екипи от други компании. Познаването на вашия домейн е половината от битката, така че инвестирайте време там, както правите за своите „трудни умения“.

Най-важното умение е критичното мислене

Голяма част от всяка работа в областта на знанието е да се определи кое е важно и кое не. Можете да направите перфектния анализ, но ако се окаже, че сте решили грешен проблем или прозрението ви не е решаващо, няма да има значение. Струва си активно да отделяте време за размисъл за по-широкия контекст на вашата работа. Кои са най-важните предизвикателства пред вашия екип и защо? Вашата настояща пътна карта е най-добрият начин да помогнете на вашия екип или трябва да измените плана си? Отговорите на тези въпроси могат да се променят с течение на времето, така че е важно да се регистрирате редовно. Видях много учени от данни твърде дълго да тръгват по пътека, просто поради инерция.

Какво да направите като студент, за да станете Data Scientist

Вземете съответните класове - не само технически часове

Разбира се, уроците по статистика и компютърни науки ще бъдат полезни за работата. Въпреки това, много класове могат да бъдат полезни. Всичко, което ви накара да практикувате критично да мислите и да правите писмени аргументи, като философия, история или английски, може да бъде полезно, тъй като това е много от това, което правите в науката за данни. Обществените предмети като икономика или количествена психология могат да бъдат чудесни за натрупване на опит в каузални изводи. Клас, за който се сещам често, е убедителният говорски клас, който взех, който редовно призовавам на работата си. Вземете справедливия си дял от техническите класове, но научете широко и следвайте вашите интереси. Моята стратегия беше винаги да ходя с големи преподаватели по страхотни учебни програми. Все още препоръчвам това на всеки студент, научен за данни или не.

Практикувайте комуникация - писмена, визуална и словесна

Комуникационните умения са изключително важни и хронично подценявани в науката за данни. Вашето въздействие може да бъде толкова добро, колкото и вашите комуникационни умения, тъй като трябва да убеждавате другите да вземат решения или да помагате за изграждането на продукти въз основа на вашите анализи. По този начин, много кариери на учените с много технически данни са имплицитно ограничени, защото не могат да пишат или говорят ясно. Практиката - и в трите форми, писмена, визуална и словесна - прави истинска промяна. Вземете класове с много писане, особено ако смятате, че сте слаб писател или английският не е първият ви език. Много от кампусите имат центрове за писане, които да ви помогнат да получите обратна връзка. Това е ресурс, от който да се възползвате, докато го имате.

Работете върху реални проблеми с данните

Kaggle е чудесен за учене на моделиране. С Kaggle обаче вече е направена най-трудната част за вас: събиране, почистване и определяне на проблема, който трябва да бъде решен с тези данни. Най-добрият начин да се подготвите за работа като учен с данни е да използвате реални данни, за да отговорите на реални въпроси. Причината е проста: това е най-близкото, до което можете да стигнете до действителна работа, без всъщност да я имате. Намерете нещо, което ви интересува, и получете свои собствени данни. Изтриването на данни от интернет е много по-лесно, отколкото повечето начинаещи реализират с пакети като BeautifulSoup, Scrapy и rvest. Уикипедия и Reddit са добри цели, ако се нуждаете от вдъхновение, но най-добрият избор е нещо, което наистина се вълнувате от проучването. След това задайте някои въпроси, които ви интересуват и вижте колко добре можете да отговорите на тях. Почистете данните, направете някои графики и модели и след това напишете заключенията си някъде публично. В началото ще е бавно, но това е така, защото се учите Ако можете, опитайте се да решите реални проблеми в реалния свят за хората от вашата общност, като например да правите статистически данни за училищен спортен екип или да правите анализ на анкети за училищния вестник, за да получите практика и с управлението на заинтересованите страни.

Публикувайте работата си и получавайте обратна връзка, колкото можете

Единственият начин да се подобрите във всичко е да получите обратна връзка. Работата с данни не е изключение. Днес е толкова лесно да публикувате тефтери на Github или на лични уебсайтове. Ако пишете по тема, която вашите приятели се интересуват, можете да научите много от това как те отговарят. Какво беше убедително във вашата презентация? Какво беше неясно? Успяхте ли да ги убедите в основния си аргумент? Отегчиха ли се от четенето и не успяха да стигнат до края? Най-важното е да направите кода си на разположение и да се опитате да получите кодови рецензии от други ученици, за да можете да се подобрите един друг. Ако използвате техника от клас, който вземате, дори можете да покажете на професор какво сте направили и да получите отзиви от експерти, докато показвате някаква инициатива. И, кой знае, ако някой от вашите анализи стане вирусен в Интернет, може дори да получите работа от него!

Отидете на събития - хакатони, конференции, срещи

Доколкото вашата география и бюджет ви позволяват, опитайте се да взаимодействате с външния свят на научните данни, докато сте студент. Това ще ви даде по-добро разбиране на реалностите на полето и ще ви даде начало на работата в мрежа. В повечето големи градове има срещи за наука за данни и хакатони и според моя опит повечето хора са много приятелски настроени към студентите в тях. Конференциите обикновено имат драматично намалени билети за студенти. Ходенето с приятели може да направи и забавно полево пътуване заедно!

Бъдете гъвкави с това как влизате в полето

Науката за данните е конкурентно поле. Има ограничен брой технологични компании с страхотни марки за научни данни и битката за летните им стажове и роли на входно ниво е ожесточена. Въпреки това, след като имате дори малко количество реален опит в областта на научните данни, е много по-лесно да получите втора работа в тази област. Учените за данни с няколко години под коланите, дори от малко известни компании, често имат малки проблеми при наемането на най-добрите компании. По този начин, ако искате да бъдете учен по данни и не получите оферта веднага от една от известните компании, помислете за разширяване на търсенето на работа. Има много компании с интересни проблеми за решаване.

Благодаря за четенето! Ще се радвам да чуя вашите мисли - според горепосочения куршум за обратна връзка! - така че не се колебайте да оставите коментар по-долу.