xgboost срещу произволна гора


Отговор 1:

Има две разлики, едната е алгоритмична, а друга е практическата.

Алгоритмичната разлика е; Случайни гори се обучават с произволна извадка от данни (още по-рандомизирани случаи, като например рандомизация на характеристиките) и се доверява на рандомизацията, за да има по-добри резултати от обобщаване извън влака. В другия спектър алгоритъмът с усилени градиентни дървета допълнително се опитва да намери оптимална линейна комбинация от дървета (предположим, че крайният модел е претеглената сума от прогнози на отделни дървета) във връзка с дадени влакови данни. Тази допълнителна настройка може да се счита за разликата. Имайте предвид, че има и много вариации на тези алгоритми.

От практическата страна; Благодарение на този етап на настройка, градиентните бусирани дървета са по-податливи на джигинг данни. Този последен етап прави GBT по-вероятно да надвишава, следователно, ако тестовите случаи са склонни да бъдат толкова многословни в сравнение с влакови случаи, този алгоритъм започва да липсва. Напротив, Случайните гори са по-добре да се натоварват с преобладаването, въпреки че липсва обратното.

Така че най-добрият избор зависи от случая, който имате както винаги.


Отговор 2:

Освен страхотни отговори за това как Boosting може да изтръгне повече, LABEL NOISE (т.е. „неправилни етикети“ в Training) е друг фактор, който кара RF да надхвърля GBM.

  1. Шумът с етикети е ПО-ОБЩО в реалния живот, отколкото може да се мисли
  2. Източник на случайно шумни етикети: например при моделиране на „намерение на клиента“ въз основа на проучване, малка / субективна разлика между 2 класа в многокласова класификация
  3. Източник на асиметричен шум: напр. Измама. Не всички измами се откриват. Също така не можем да си позволим да чакаме дълги години, за да го наблюдаваме най-накрая, когато изграждаме модел. Следователно y = 0 може да бъде „не измама“ или „ние не знаем“. (Нарича се също PU обучение)
  4. Етикетът шум нарушава доверието в ОФЛАЙН ОЦЕНКА
  5. тъй като набор от данни за валидиране също има шумни етикети.
  6. Това е като оценка на най-добрите ученици в училище въз основа на изпит с грешни отговори!
  7. Различните функции за загуба и ML алгоритмите имат различни РОБОТНОСТ спрямо етикета на шум.
  8. Увеличаването на дизайна може да направи GBM особено податливи на „погрешно“ научаване твърде много от шумни етикети (в следващите дървета). Тежката повреда на Adaboost (друг вид усилващ алго) на Label Noise е добре установена
  9. с добавяне на регуларизация към цел + ранно спиране въз основа на доста голям набор от данни за валидиране, този риск се намалява малко.
  10. Но (за разлика от xgboost) по-мащабируемите реализации на разпределени данни на GBM не изглежда да имат правилна регуларизация по време на писането

Препратки:

Класификация в присъствието на шум от етикети: анкетаhttps://arxiv.org/pdf/1109.5231.pdf

Отговор 3:

Практически в почти всички случаи, ако трябва да изберете един метод. Подсилените дървета (GBM) обикновено се предпочитат от RF, ако настройвате внимателно параметъра.

Основната причина е по отношение на целта на обучението, Boosted Trees (GBM) се опитва да добави нови дървета, които комплиментират вече изградените. Това обикновено ви осигурява по-добра точност с по-малко дървета.

Като се има предвид, че идеите за подсилиране и пакетиране в РФ са важни. Те могат лесно да бъдат включени в обучения за усилено дърво. Това наистина ще помогне на представянето обикновено.

Има историческа причина такава, че RF е по-лесно да се паралелизира. Това може да се направи и за подсилени дървета, макар и по-малко тривиални. Подсилени дървета

може да се разпространява и много бързо.

Направихме го във

dmlc / xgboost

и работи доста добре.

Едно последно предимство на подсилените дървета е свързано с моделиране, тъй като подсилените дървета се получават чрез оптимизиране на обективна функция, в основата му може да се използва за решаване на почти всички цели, които можете да напишете градиент. Това включва неща като класиране, регресия на отровите, което RF е по-трудно постижимо. Имаме урок, описващ тази перспектива

Въведение в подсилени дървета

Отговор 4:

Различните проблеми с машинното обучение имат различни характеристики. По-специално засилените алгоритми са чувствителни към свръхфитинга, ако данните са шумни - усилването показва по-големи разлики (по смисъла на компромис с отклонение от дисперсия, обсъден тук: http://en.wikipedia.org/wiki/Superzed_learning#Bias-variance_tradeoff) , но когато работи, работи добре.

Случайните гори, от друга страна, показват много малка разлика, тъй като ансамблите не са изградени върху остатъците, както прави Машините, подсилени с градиент.

Накратко: трябва да изпробвате и двете в проблемния си домейн; Понякога случайните гори ще съответстват по-добре на пристрастията на данните, а понякога GBM ще.


Отговор 5:

Има една основна разлика в производителността между двете, която може да ви принуди да изберете Случайни гори над градиентни бустери (GBM). Тоест, Случайните гори могат лесно да бъдат разгърнати по разпределен начин поради факта, че те могат да работят паралелно, докато машините с усилване на градиента тестват само след изпитване. Така че, ако сте ограничени или от размера на данните или броя на опитите, които искате да опитате, може да се наложи да отидете с произволни гори.

Личен сигнал за мнение:

От друга страна, бих предпочел градиентните усилени машини над произволна гора, ако не бяха ограничени от размера. Идеята за засилени кликвания за учене с мен, е като когато се подготвяте за изпит, след един подготвителен тест определено бихте отделили известно време за проверка на тези грешки, които сте направили, вместо да бързате към следващия подготвителен тест.

Както се казва, толкова често ние се ограничаваме от размера и е по-лесно да управляваме RF с 2000 дървета, отколкото GBM с 2000 изпитания.


Отговор 6:

Има две основни причини, поради които бихте използвали Случайни гори над градиентни подсилени дървета на решения и двете са доста свързани:

  1. RF са много по-лесни за настройване от GBM
  2. RF са по-трудни за надценяване от GBM

Свързан с (1), RF в основата си има само един хиперпараметър, който трябва да зададе: броя функции, които да се избират произволно на всеки възел. Въпреки това има правило за използване на квадратния корен на броя на общите функции, който работи доста добре в повечето случаи. От друга страна, GBM имат няколко хиперпараметра, които включват броя на дърветата, дълбочината (или броя на листата) и свиването (или степента на учене).

И що се отнася до (2), макар че не е вярно, че RF не прекалява (за разлика от мнозина са подтикнати да вярват от силните твърдения на Брейман), вярно е, че те са по-здрави за преоборудване и изискват по-малко настройки, за да го избегнат.

В някакъв смисъл RF е дървесен ансамбъл, който е по-"plug'n'play" от GBM. Обикновено обаче е вярно, че добре настроен GBM може да превъзхожда RF.

Също така като

Тианки Чен

споменахме, че RF традиционно е по-лесен за паралелизъм. Това обаче вече не е добра причина, като се има предвид, че има ефикасни начини да го направите и с GBM.