Ако искате да научите Data Science, вземете няколко от тези класове по статистика

Кредитен имидж

Преди година бях момче с номера, без кодиране на фона. След като пробвах онлайн курс по програмиране, бях толкова вдъхновен, че се записах в една от най-добрите програми за компютърни науки в Канада.

Две седмици по-късно разбрах, че мога да науча всичко необходимо чрез edX, Coursera и Udacity. Така че отпаднах.

Решението не беше трудно. Бих могъл да науча съдържанието, което исках по-бързо, по-ефективно и за част от разходите.

Вече имах висше образование и, може би по-важното, вече имах университетския опит. Плащането на $ 30 000 + за връщане в училище изглежда безотговорно.

Започнах да създавам своя собствена степен на магистър по наука за данни, използвайки онлайн курсове, след като разбрах, че това е по-подходящо за мен от компютърните науки. Разгледах въвеждането на програмния пейзаж. За първата статия от тази серия препоръчах няколко класа кодиране за начинаещия учен с данни.

Сега върху статистиката и вероятността.

Изпил съм няколко курса и ревизиран част от много. Знам опциите там и какви умения са необходими на учащите се да се подготвят за анализатор на данни или роля на учен за данни.

За това ръководство прекарах 15+ часа, опитвайки се да идентифицирам всяко онлайн запознаване със статистиката и вероятностния курс, предлагани от ноември 2016 г., извличайки ключови битове информация от техните учебни програми и рецензии и съставяйки техните оценки. За тази задача се обърнах към никой друг, освен към отворения код общността на Class Central и нейната база данни с хиляди оценки и рецензии на курсове.

Началната страница на Class Central

От 2011 г. основателят на Class Central Dhawal Shah следи по-внимателно онлайн курсовете, отколкото може би някой друг в света. Dhawal лично ми помогна да сглобя този списък с ресурси.

Как избрахме курсове за разглеждане

Всеки курс трябва да отговаря на четири критерия:

  1. Това трябва да бъде въвеждащ курс с малко или никаква статистика или опит с вероятност.
  2. Той трябва да бъде по поръчка или да се предлага на всеки няколко месеца.
  3. Тя трябва да бъде с прилична продължителност: най-малко десет часа за очакваното приключване.
  4. Трябва да е интерактивен онлайн курс, така че да няма книги или уроци само за четене. Въпреки че това са жизнеспособни начини за научаване на статистики и вероятност, това ръководство се фокусира върху курсовете.

Вярваме, че покрихме всеки забележителен курс, който отговаря на горните критерии. Тъй като привидно има стотици курсове за Udemy, избрахме да разгледаме само най-прегледаните и най-високо оценените. Винаги има шанс да сме пропуснали нещо. Така че, моля, уведомете ни в секцията за коментари, ако оставихме добър курс.

Как оценявахме курсовете

Съставихме средна оценка и брой отзиви от Class Central и други сайтове за преглед. Изчислихме среднопретеглена оценка за всеки курс. Ако серия имаше няколко курса (като Университета на Тексас в серията „Основи на анализа на данните“ в Остин), изчислихме среднопретеглената оценка за всички курсове. Прочетохме текстови рецензии и използвахме тази обратна връзка, за да допълним числовите оценки.

Направихме субективни призиви за преценка на учебната програма въз основа на три фактора:

  1. Степента, до която всеки курс преподава статистика чрез кодиране на примери - за предпочитане в R или Python.
  2. Покриване на основите на вероятността и статистиката. Покриването на описателна статистика, инфекциозна статистика и теория на вероятностите е идеално.
  3. Колко от учебната програма е от значение за науката за данни? Програмата има ли специализирано съдържание като геномика, както правят няколко курса по биостатистика? Програмата обхваща ли усъвършенствани понятия, които не се използват често в науката за данни?
R и Python са двата най-популярни езика за програмиране за наука за данни.

Защо целева кодировка?

Уилям Чен, учен по данни от Quora, който има магистърска степен по приложна математика от Харвард, написа следното в този популярен отговор на Quora на въпроса: „Как да науча статистики за науката за данни?“

За всеки амбициозен учен с данни бих силно препоръчал да научите статистики с голям акцент върху кодирането на примери, за предпочитане в Python или R.

Тъй като голяма част от статистическата работа на учен с данни се извършва с код, запознаването с най-популярните инструменти е полезно.

Статистика И вероятност

Вероятността не е статистика и обратното. Любимото ми обяснение на различията им е от университета Stony Brook:

Вероятността се занимава с прогнозиране на вероятността от бъдещи събития, докато статистиката включва анализ на честотата на минали събития.

Те обясняват, че „вероятността е преди всичко теоретичен клон на математиката, който изучава последиците от математическите дефиниции“, докато „статистиката е предимно приложен клон на математиката, който се опитва да осмисли наблюденията в реалния свят“.

Обикновено статистиката се счита за един от стълбовете на науката за данни. Вероятността - макар да генерира по-малко внимание - също е важна част от учебната програма за научни данни.

Джо Блицщайн, професор в отдела за статистика в Харвард, заяви в този популярен отговор на Quora, че амбициозните учени трябва да имат добра основа и в теорията на вероятностите.

Джъстин Райз, учен по данни с докторска степен. в статистиката от Уортън, поясни, че тази „добра основа“ означава да се чувствате удобни с вероятност за студенти.

Нашите избори за най-добри статистически и вероятностни курсове за учени с данни са ...

  • Основи на анализа на данните - Част 1: Статистически данни, използващи R от Университета на Тексас в Остин (edX)
  • Основи на анализа на данните - Част 2: Инференциална статистика от Тексаския университет в Остин (edX)

„Основи на анализа на данните“ включва два от най-добре прегледаните статистически курсове със средно претеглена оценка 4,48 от 5 звезди над 20 отзива. Поредицата е единственият курс в горния ешелон на рейтингите за преподаване на статистика с акцент върху кодиране на примери. Въпреки че не се споменава в нито един от заглавията на курса, учебната програма съдържа достатъчно съдържание на вероятността, за да задоволи критериите ни за тестване. Тези курсове заедно имат страхотна комбинация от основни покрития и обхват за начинаещия учен с данни.

Майкъл Дж. Махомета, преподавател и старши статистически консултант в Тексаския университет в Остин, е инструктор от серията „Основи на анализа на данни“. И двата курса от поредицата са безплатни. Прогнозната времева линия е 6 седмици по 3–6 часа седмично за всеки курс. Един виден рецензент каза:

Отличен курс! Участвах 1 и ми хареса много, така че беше много лесно да реша да продължа с част 2. Д-р Махомета и екипът са много добри преподаватели и материалът им е с много високо качество. Упражненията са интересни, а материалите (видеоклипове, лаборатории и проблеми) са подходящи и добре подбрани. Препоръчвам този курс на всеки, който се интересува от статистически анализ (като въведение в машинното обучение, големите данни, науката за данни и др.). По скала от 1 до 10 давам 50!

Моля, обърнете внимание, че описанието и учебната програма на всеки курс са достъпни чрез връзките, предоставени по-горе.

Университетът на Тексас на страницата edX на Остин.

Звездна специализация

Актуализация (5 декември 2016 г.): Нашата първоначална втора препоръка, поредицата „Stat2x: Въведение в статистиката“ на UC Berkeley, приключи записването си няколко седмици след излизането на тази статия. Популяризирахме съответно нашата топ препоръка в раздел „Конкуренцията“.

  • Статистика с R специализация от университета Duke на Coursera

... който съдържа следните пет курса:

  • Въведение в вероятността и данните
  • Полезна статистика
  • Линейна регресия и моделиране
  • Байесова статистика
  • Статистика с R Capstone

Тази специализация с пет курса се основава на отличния курс за анализ на данни и статистически изводи на Duke, който има среднопретеглена оценка от 4,82 звезди над 55 отзива. Специализацията се преподава от същия професор, плюс няколко допълнителни преподаватели. Ранните прегледи на новите отделни курсове, които имат среднопретеглена стойност 3,6 звезди над 5 отзива, трябва да се вземат със зърно сол поради малкия размер на пробата. Програмата е изчерпателна и има пълни секции, посветени на вероятността.

Д-р Мине Четинкая-Рундел е основният инструктор за специализацията. Отделните курсове могат да бъдат одитирани безплатно, въпреки че нямате достъп до класиране. Прегледите предполагат, че специализацията е „добре струва парите“. Всеки курс има приблизителна продължителност от 4–5 седмици при 5–7 часа седмично. Един виден рецензент каза следното за първоначалния курс, на който се основава специализацията:

Един от най-великите курсове, които изкарах досега. [Д-р Моя Четиная-Рундел] е страхотна учителка, много участва в обмена със своите ученици. Голямо разнообразие от учебни подходи и инструменти. Много практика чрез кратки тестове, лаборатории за R програмиране и задълбочен проект. Много оживен форум с много помощ за справяне с трудностите. Курсът не е твърде труден, но разнообразието от предложения материал изисква студентите да се включат доста съществено. Много хубава книга, достъпна безплатно с много упражнения.
Страница на курса на университета Дюк.

Искате повече вероятност?

  • Въведение в вероятността - Науката за несигурността от Масачузетския технологичен институт (MIT)

Обмислете горния курс на MIT, ако искате по-дълбоко гмуркане в света на вероятностите. Това е шедьовър със средно претеглена оценка 4,91 от 5 звезди над 34 отзива. Внимавайте: това е предизвикателство и много по-дълго от повечето MOOC. Нивото, на което курсът покрива вероятността, също не е необходимо за начинаещия наука за данни.

Джон Цициклис и Патрик Джайлт, и двамата са преподаватели в катедрата по електротехника и компютърни науки в MIT, преподават курса. Съдържанието на този курс по същество е същото като това на съответния клас MIT (вероятностен системен анализ и приложна вероятност) - курс, който се предлага и непрекъснато усъвършенства в продължение на повече от 50 години. Прогнозната времева линия е 16 седмици на 12 часа седмично. Един виден рецензент каза:

Много онлайн курсове са напоени по някакъв начин, но този се чувства като подходящ строг курс, управляван от упражнения, подобен на този, който ще получите лично в висше училище като MIT. Професорите представят концепции в лекции, които очевидно са били насочени към лазерен фокус през години на педагогически опит - няма нито една пропилена секунда в презентациите и те отиват точно с правилното темпо и подробности, за да разберете понятията. Упражненията ще ви накарат да работите за своите знания и са от решаващо значение за наистина интернализиране на концепциите. Това е най-добрият онлайн курс, който съм взел по всеки предмет.

Съветвам ви да посетите страницата на Class Central за този курс, за да прочетете останалите отзиви.

Страницата edX на MIT

Състезанието

Нашият избор №1 имаше среднопретеглена оценка 4,48 от 5 звезди над 20 отзива. Нека разгледаме другите алтернативи.

  • MedStats: Статистика в медицината (Станфордски университет / Stanford OpenEdx): Страхотна програма, където примерите имат медицинско внимание. Покрива малко R програмиране в края, макар и не толкова, колкото серията на UT Austin. Достоен вариант за всеки, дори и за тези, които не са насочени към лекарства. Той има среднопретеглена оценка от 4,58 звезди над 32 отзива.
  • SOC120x: I „Heart“ Статистика: Учене да обичам статистиката (Университет на Нотр Дам / edX): Насочва към нетехническа аудитория, макар че вероятно би била добра за всеки. Без кодиране Добра производствена стойност. Курсът и инструкторите изглеждат наистина забавно. Той има среднопретеглена оценка 4,54 звезди над 12 отзива.
  • QM101x: Статистика за бизнеса (Индийски институт за управление Бангалор / edX): Част от серия от 4 курса. Бизнес фокус. Добър учебен план, който използва кодиране. Последните два курса от поредицата не са публикувани от ноември 2016 г., така че все още не може да се направи преценка. Той има среднопретеглена оценка от 4,43 звезди над 27 отзива.
  • Семинар по вероятност и статистика (Udemy): Преподава от д-р Джордж Ингерсол, доцент по изпълнителни програми по MBA в Училището по мениджмънт на UCLA Anderson. Разходи пари. Използва Excel. Той има среднопретеглена оценка от 4,4 звезди над 452 отзива.
  • Въведение в описателната статистика (Държавен университет Сан Хосе / Udacity): Част от поредица от 2 курса. Видеоклипове с размер на хапки. Без кодиране Той има среднопретеглена оценка от 3,88 звезди над 8 отзива.
  • Въведение в референтната статистика (Държавен университет Сан Хосе / Udacity): Част от серия от 2 курса. Взех и двата курса като опреснители за курсовете си по подграждане и отидох с по-дълбоко разбиране. Наистина се наслади на стила на преподаване на Кейти Корманик (вижте видеото по-долу). Видеоклипове с размер на хапки. Без кодиране Той има среднопретеглена оценка от 4,4 звезди над 5 отзива.
  • 6.008.1x: изчислителна вероятност и извод (Масачузетски технологичен институт / edX): Един от двата курса / серии за преподаване на статистика с фокус на кодиране на примери в Python. Прегледите предполагат, че е необходима предварителна опит със статистика и че курсът е малко неорганизиран. Той има среднопретеглена оценка с 4 звезди над 12 отзива.
  • Основна статистика (Университет в Амстердам / Coursera): Един от двата курса по статистика в методите на Университета в Амстердам и статистика в областта на социалните науки. Един изключително положителен отзив за сериала и неговите инструктори. Без кодиране Той има средно претеглена оценка 4,0 звезди над 8 отзива.
  • Интерференционна статистика (Университет в Амстердам / Coursera): Един от двата курса по статистика в методите на Университета в Амстердам и статистиката в социалните науки. Един изключително положителен отзив за сериала и неговите инструктори. Без кодиране Той има среднопретеглена оценка с 4 звезди над 3 отзива.
Методите и статистиката на социалните науки на Университета в Амстердам съдържа основна статистика и полезна статистика.
  • PH525.1x: Статистика и R (Harvard University / edX): Част от серия от 7 курса на edX. Фокус на науките за живота. Използва R програмиране, но прегледите предполагат, че серията на UT Austin е по-добра. Той има среднопретеглена оценка от 3,96 звезди над 26 отзива.
  • PH525.3x: Статистически изводи и моделиране на експерименти с висока пропускателна способност (Harvard University / edX): Част от серия от 7 курса на edX. Фокус на науките за живота. Използва R програмиране, но прегледите предполагат, че серията на UT Austin е по-добра. Той има среднопретеглена оценка от 4,63 звезди над 4 отзива.
  • Въведение в статистиката (Udacity): Това е един от най-ранните курсове на Udacity и има своите недостатъци, както е описано в този запомнящ се преглед от преподавател в колежа. Без кодиране Той има среднопретеглена оценка от 3,93 звезди над 41 отзива.
  • Математическа биостатистика Boot Camp 1 (University of Johns Hopkins / Coursera): Част от серия от 2 курса. Фокус върху биостатистиката. Той има среднопретеглена 3,1-звездна оценка над 23 отзива.
  • Математическа биостатистика Boot Camp 2 (University of Johns Hopkins / Coursera): Част от серия от 2 курса. Фокус върху биостатистиката. Той има среднопретеглена оценка от 3,83 звезди над 3 отзива.
  • KIexploRx: Проучете статистиката с R (Karolinska Institutet / edX): Повече от курс за проучване на данни, отколкото от курс по статистика. Използва кодиране. Той има среднопретеглена оценка от 3,77 звезди над 22 отзива.
  • Статистически изводи (Университет на Джон Хопкинс / Coursera): Един от двата курса по статистика в специализацията на научните данни на JHU. Лоши отзиви. Той има среднопретеглена оценка от 2,9 звезди над 29 отзива.
  • Регресионни модели (Университет на Джон Хопкинс / Coursera): Един от двата курса по статистика в специализацията на научните данни на JHU. Лоши отзиви. Той има 2.73-звездна средно претеглена оценка над 30 отзива.
  • DS101X: Статистическо мислене за наука и анализи на данни (Columbia University / edX): Част от сертификата за професионална програма на Microsoft в науката за данни. Кратка учебна програма. Лоши отзиви. Той има 2.77-звездна среднопретеглена оценка над 24 отзива.
  • Разбиране на клиничните изследвания: Зад статистиката (Университет Кейптаун / Курсера): „Това не е цялостен курс по статистика, но предлага практическа ориентация към областта на медицинските изследвания и често използвания статистически анализ.“ Фокусът в здравеопазването. Той има среднопретеглена 5-звездна оценка над 15 отзива.
  • MED101x: Въведение в приложната биостатистика: Статистика за медицинските изследвания (Университет Осака / edX): Биостатистически фокус. Използва кодиране. Той има среднопретеглена 4,5-звездна оценка над 3 отзива.
  • Вероятност и статистика (Станфордски университет / Stanford OpenEdx): Учебната програма изглежда страхотно. Един отзив е наистина положителен. Без кодиране Той има средно претеглена оценка с 4,5 звезди за 1 преглед.
Курсът за вероятност и статистика на Станфорд изглежда страхотно, но липсват отзиви.
  • Интерференционна и прогнозна статистика за бизнеса (Университет на Илинойс в Урбана-Шампан / Курса): Част от 7-курс специализирана мениджмънт икономика и бизнес анализ. Използва Excel. Той има среднопретеглена оценка с 5 звезди над 1 преглед.
  • Проучване и предоставяне на данни за вземане на бизнес решения (Университет на Илинойс в Урбана-Шампан / Курса): Част от 7-курс специализация по мениджърска икономика и бизнес анализ. Използва Excel. Той има среднопретеглена оценка с 5 звезди над 1 преглед.
  • Въведение в вероятност, статистика и случайни процеси (Университет в Масачузетс Амхерст / Независими): Видеоклипове не са достъпни за целия курс. Той има среднопретеглена 2,5-звездна оценка над 2 отзива.
  • 005x: Въведение в статистическите методи за генетично картографиране (Kyoto University / edX): Генетичен фокус. Нуждаете се от предварителна статистика и R знания. Той има среднопретеглена 2,5-звездна оценка над 1 преглед.
  • Статистика за геномните научни данни (Университет на Джон Хопкинс / Coursera): Геномен фокус. Не е добър уводен курс: „Честен клас за някой с интерес в тази област, който също има приличен опит в програмирането на R.“ Той има средно оценен 2-звезден рейтинг над 2 отзива.

Следващите курсове нямаха отзиви към ноември 2016 г.

  • Статистическо мислене в Python (част 1) и статистическо мислене в Python (част 2) (DataCamp): Използва кодирането и Python конкретно, което го прави един от малкото достойни курсове или серии, които използват този език. Седем часа видео и 120+ упражнения. DataCamp е популярна опция.
  • Ръчно въведение в статистиката с R (DataCamp): Използва кодиране. 26 часа видео и 150+ упражнения. Отново, DataCamp е популярна опция.
  • Статистически изчисления с R - леко въведение (University College London / Independent): Използва кодиране.
  • Вероятност и статистика (Carnegie Mellon): Използва R. Основно текстова инструкция. Проектиран за еквивалент на един семестър от курс по статистика в колежа.
  • Въведение в вероятността и статистиката (Масачузетски технологичен институт / MIT OCW): Традиционен лекционен формат (видеозапис).
  • Основи на инженерния статистически анализ (Университета в Оклахома / Janux): Инженерни фокуси.
  • Елементарна бизнес статистика (Университетът в Оклахома / Янукс): Бизнес фокус.
  • STAT101x: Биостатистика за приложения за големи данни (University of Texas Texas Branch / edX): Фокус върху биостатистиката.
  • 416.1x: Вероятност: Основни понятия и дискретни случайни променливи (Университет Пърдю / edX): Част от серия от 2 курса.
  • 416.2x: Вероятност: Модели на разпространение и непрекъснати случайни променливи (Университет Пърдю / edX): Част от серия от 2 курса.
  • Специализация на бизнес статистиката и анализа (Rice University / Coursera): използва Excel.
  • Статистика 110: Вероятност (Харвардски университет): Традиционен формат на лекциите (видеозапис). Често се препоръчва на Quora.
  • Статистика (Dataquest): Мултикурсова серия с около 12 часа съдържание. Изисква се абонамент. Един от два курса / серии за преподаване на статистика с фокус на кодиране на примери в Python. Бележка от Dataquest: „Към момента курсовете за статистика се презаписват изцяло, трябва да бъдат пуснати в края на ноември.“

Опаковане

Това е втората от серия от шест части, която обхваща най-добрите MOOC за стартиране в областта на научните данни. В първата статия разгледахме програмирането, а останалата част от поредицата ще обхване няколко други основни компетенции на науката за данни: процесът на науката за данни, визуализацията на данните и машинното обучение.

Последната част ще бъде обобщение на тези курсове и най-добрите MOOCs за други ключови теми като борба с данни, бази данни и дори софтуерно инженерство.

Ако търсите пълен списък с MOOC на Data Science, можете да ги намерите на темата на Data Central и темата за големите данни на Class Central.

Ако ви хареса да четете това, разгледайте някои от другите парчета от Class Central:

Ако имате предложения за курсове, които пропуснах, уведомете ме в отговорите!

Ако сте намерили това полезно, щракнете върху , така че повече хора ще го видят тук на Medium.

Това е съкратена версия на оригиналната статия, публикувана на Class Central, където са включени описания на курсове, учебни програми и множество прегледи.