25 забавни въпроса за интервю за машинно обучение

Може ли въпросите за машинно обучение за интервю да бъдат едновременно смешни и дълбоки?

Източник на изображения: https://xkcd.com/1838/

Много от учените за данни изучават машинно обучение (ML) най-вече от гледна точка на практикуващия данни. Следователно е възможно да се съсредоточим върху изучаването на колкото се може повече нови пакети, рамки, техники и да се концентрираме по-малко върху задълбоченото изследване на основните теоретични аспекти. И тук моята дефиниция за машинно обучение обхваща цялото стандартно статистическо обучение (т.е. не представлява само задълбочено обучение).

Въпреки това, проучвайки и обмисляйки с известни усилия, човек може да излезе с толкова много прекрасни въпроси за МЛ, които, когато бъдат получени отговори и анализирани, могат да разкрият красиво по-дълбоки аспекти. По принцип тези въпроси могат да ни помогнат да извадим главата си от тази купчина, показана по-горе. Ние просто не искаме да разбъркваме набор от данни през целия ден, искаме да се потопим дълбоко в свойствата, измислиците и тънкостите на техниките за машинно обучение и да ги възприемем…

В крайна сметка в интернет има много статии за „стандартни въпроси за интервю за машинно обучение“. Можем ли да направим малко по-различни и интересни?

Отказ от отговорност: Аз просто публикувам въпросите за мислене и стимулиране на дискусията. Не е даден готов отговор. Някои въпроси имат намек, но наистина са за повече дискусия, отколкото за окончателен отговор. Всеки въпрос си струва да бъде обсъден по-подробно. Няма зададен отговор. Някои въпроси са измислени, някои са само за забавление. Просто се наслаждавайте :-) За да се зареждам, имам смешен мем, вмъкнат след всеки 5-ти въпрос ...

Забавни въпроси

  • Създадох линеен регресионен модел, показващ 95% доверителен интервал. Означава ли това, че има 95% вероятност коефициентите на моя модел да са истинската оценка на функцията, която се опитвам да приближа? (Съвет: Това всъщност означава 95% от времето ...)
  • Какво е сходството между файловата система на Hadoop и алгоритъма на k-най-близкия съсед? (Съвет: „мързелив“)
  • Коя структура е по-мощна по отношение на експресивността (т.е. може да представлява точно определена булева функция) - еднослоен персептрон или двуслойно дърво за решения? (Съвет: XOR)
  • И кое от тях е по-мощно - двуслойно дърво с решения или двуслойна невронна мрежа без никаква функция за активиране? (Съвет: нелинейност?)
  • Може ли невронната мрежа да се използва като инструмент за намаляване на размерите? Обяснете как.
  • Всички злоупотребяват и омаловажават прихващащия термин в линеен регресионен модел. Кажете ми една от неговите комунални услуги. (Съвет: шум / колектор за боклук)
  • Регулирането на LASSO намалява коефициентите до точна нула. Регресията на гребена ги намалява до много малка, но не нулева стойност. Можете ли да обясните различно интуитивно разликата от сюжетите на две прости функции | x | и x²? (Подсказка: онези остри ъгли в сюжета | x |)
  • Нека да кажем, че не знаете нищо за разпространението, от което идва набор от данни (непрекъснато остойностявани числа) и ви е забранено да приемате, че е нормално гаусско. Покажете чрез най-прости възможни аргументи, че без значение каква е истинската дистрибуция, можете да гарантирате, че ~ 89% от данните ще се намират в рамките на +/- 3 стандартни отклонения далеч от средната стойност (Съвет: докторският съветник на Марков)
  • Повечето алгоритми за машинно обучение включват някакъв матричен манипулация като умножение или инверсия. Дайте прост математически аргумент защо мини-пакетната версия на такъв ML алгоритъм може да бъде изчислително по-ефективна от обучение с пълен набор от данни. (Съвет: Сложна време на умножение на матрицата ...)
  • Не мислите ли, че времевата серия е наистина прост проблем с линейна регресия със само една променлива променлива и един единствен предиктор - време? Какъв е проблемът с подхода на линейна регресия (не непременно с единичен линеен термин, но дори и с термини от степен на полином) в случай на данни от времеви серии? (Съвет: Миналото е показател за бъдещето ...)
  • Покажете чрез прост математически аргумент, че намирането на оптимални дървета за решение за проблем с класификацията сред всички възможни дървесни структури може да бъде експоненциално труден проблем (Съвет: Колко дървета има в джунглата, така или иначе?)
  • Както дърветата на решенията, така и дълбоките невронни мрежи са нелинеен класификатор, т.е. те разделят пространството чрез сложна граница на решение. Защо тогава е толкова по-лесно за нас интуитивно да следваме модел на дърво на решения срещу дълбока невронна мрежа?
  • Обратното разпространение е работният кон на задълбоченото обучение. Назовете няколко възможни алтернативни техники за трениране на невронна мрежа, без да използвате обратно разпространение. (Съвет: Случайно търсене ...)
  • Да кажем, че имате два проблема - линейна регресия и логистична регресия (класификация). Кой от тях е по-вероятно да се възползва от новооткрития свръхбърз алгоритъм за умножение с голяма матрица? Защо? (Съвет: Кой е по-вероятно да използва матрица манипулация?)
  • Какво е влиянието на корелацията между прогнозите върху анализа на основните компоненти? Как можете да се справите с него?
  • От вас се изисква да изградите класификационен модел за въздействието на метеоритите със Земята (важен проект за човешката цивилизация). След предварителен анализ получавате 99% точност. Трябва ли да сте щастлив? Защо не? Какво можете да направите за това? (Съвет: Редки събития ...)
  • Възможно ли е да улови корелацията между непрекъсната и категорична променлива? Ако да, как?
  • Ако работите с данни за генна експресия, често има милиони променливи променливи и само стотици извадка. Дайте прост математически аргумент защо обикновеният най-малък квадрат не е добър избор за такава ситуация, ако искате да изградите регресионен модел. (Съвет: Някаква матрична алгебра ...)
  • Обяснете защо k-кратната кръстосана проверка не работи добре с модела от времеви серии. Какво можете да направите за това? (Съвет: Незабавното минало е близък индикатор за бъдещето ...)
  • Простата случайна извадка от данни за обучение, зададена в набор за обучение и валидиране, работи добре за проблема с регресията. Но какво може да се обърка с този подход за проблем с класификацията? Какво може да се направи за това? (Съвет: Преобладават ли всички класове в една и съща степен?)
  • Кое е по-важно за вас - точността на модела или производителността на модела?
  • Ако бихте могли да се възползвате от няколко ядра на процесора, бихте ли предпочели алгоритъм с усилено дърво над произволна гора? Защо? (Съвет: ако имате 10 ръце, за да направите задача, вие се възползвайте от нея)
  • Представете си, че вашият набор от данни се знае, че е линейно разделим и трябва да гарантирате конвергенцията и максималния брой повторения / стъпки на вашия алгоритъм (поради причина за изчислителни ресурси). Бихте ли избрали градиентно спускане в този случай? Какво можете да изберете? (Съвет: Кой прост алгоритъм осигурява гаранция за намиране на решение?)
  • Да речем, че имате изключително малко памет / памет. Какъв алгоритъм бихте предпочели - логистична регресия или k-близък съсед? Защо? (Съвет: Космическа сложност)
  • За да изградите модел на машинно обучение първоначално имате 100 точки от данни и 5 функции. За да намалите пристрастията, удвоихте функциите, за да включите още 5 променливи и събрахте още 100 точки от данни. Обяснете дали това е правилен подход? (Съвет: В машинното обучение има проклятие. Чували ли сте за това?)

Ако имате някакъв друг забавен въпрос за ML или идеи за споделяне, моля, свържете се с автора тук. Добрите въпроси са трудни за генериране и предизвикват любопитство и принуждават човек да мисли задълбочено. Задавайки забавен и интересен въпрос, вие правите учебното преживяване едновременно приятно и обогатяващо. Дано ви е харесало този опит да го направите.