Zobecněný aditivní model - Generalized additive model

v statistika, a generalizovaný aditivní model (GAM) je zobecněný lineární model ve kterém proměnná lineární odezvy lineárně závisí na neznámém plynulé funkce některých predikčních proměnných a zájem se zaměřuje na odvození těchto hladkých funkcí. Hry GAM původně vyvinul Trevor Hastie a Robert Tibshirani[1] kombinovat vlastnosti zobecněné lineární modely s aditivní modely.

Model se týká proměnné jednorozměrné odezvy, Y, k některým predikčním proměnným, Xi. An exponenciální rodina distribuce je specifikována pro Y (například normální, binomický nebo jed distribuce) spolu s a funkce propojení G (například funkce identity nebo protokolu) týkající se očekávané hodnoty Y na predikční proměnné prostřednictvím struktury, jako je

Funkce Fi mohou to být funkce se specifikovaným parametrickým tvarem (například polynom, nebo nepenalizovaná regresní křivka proměnné) nebo mohou být specifikovány neparametricky nebo semiparametricky, jednoduše jako „hladké funkce“, které odhadne neparametrické prostředky. Takže typická GAM by mohla použít vyhlazovací funkci scatterplot, jako je lokálně vážený průměr, pro F1(X1), a poté použijte faktorový model pro F2(X2). Tato flexibilita umožňující neparametrické přizpůsobení s uvolněnými předpoklady o skutečném vztahu mezi odpovědí a prediktorem poskytuje potenciál pro lepší přizpůsobení datům než čistě parametrické modely, ale pravděpodobně s určitou ztrátou interpretovatelnosti.

Teoretické základy

Bylo známo od padesátých let (přes Kolmogorov – Arnoldova věta o reprezentaci ) kteroukoli vícerozměrnou funkci lze reprezentovat jako součty a složení jednorozměrných funkcí.

Bohužel však Kolmogorov – Arnoldova věta o reprezentaci tvrdí existenci funkce této formy, neposkytuje žádný mechanismus, kterým by bylo možné sestrojit. Existují určité konstruktivní důkazy, ale mají tendenci vyžadovat velmi komplikované (tj. Fraktální) funkce, a proto nejsou vhodné pro modelování přístupů. Proto je zobecněný aditivní model[1] klesne vnější součet a místo toho požaduje, aby funkce patřila do jednodušší třídy.

kde je plynulá monotónní funkce. Psaní pro inverzi , to je tradičně psáno jako

.

Když se tato funkce přibližuje očekávání určité pozorované veličiny, lze ji zapsat jako

Což je standardní formulace zobecněného aditivního modelu. Poté se ukázalo[1][jak? ] že algoritmus backfitting bude pro tyto funkce vždy konvergovat.

Všeobecnost

Třída modelu GAM je vzhledem k tomu poměrně široká plynulá funkce je poměrně široká kategorie. Například kovariát mohou být vícerozměrné a odpovídající plynulá funkce několika proměnných nebo může být funkce mapující úroveň faktoru na hodnotu náhodného efektu. Dalším příkladem je proměnný koeficient (geografická regrese), například kde a jsou oba kovariáty. Nebo když je samo o sobě pozorováním funkce, můžeme zahrnout pojem jako (někdy známý jako výraz regrese signálu). může být také jednoduchá parametrická funkce, kterou lze použít v jakémkoli zobecněném lineárním modelu. Třída modelu byla zobecněna v několika směrech, zejména mimo exponenciální distribuce odpovědí rodiny, mimo modelování pouze průměrných a nad jednorozměrná data.[2][3][4]

Metody montáže GAM

Původní metoda přizpůsobení GAM odhadla hladké součásti modelu pomocí neparametrických vyhlazovačů (například vyhlazovacích splajnů nebo lokálních lineárních regresních vyhlazovačů) prostřednictvím algoritmus backfittingu.[1] Backfitting funguje iterativním vyhlazením částečných zbytků a poskytuje velmi obecnou metodu modulárního odhadu, která je schopná použít širokou škálu vyhlazovacích metod k odhadu podmínky. Nevýhodou backfittingu je, že je obtížné jej integrovat s odhadem stupně hladkosti modelových výrazů, takže v praxi je uživatel musí nastavit, nebo vybrat mezi skromnou sadou předdefinovaných úrovní vyhlazení.

Pokud jsou reprezentovány pomocí vyhlazovací splajny[5] pak lze stupeň hladkosti odhadnout jako součást přizpůsobení modelu pomocí zobecněné křížové validace nebo pomocí omezená maximální věrohodnost (REML, někdy známý jako „GML“), který využívá dualitu mezi vyhlazením spline a Gaussovými náhodnými efekty.[6] Tento plný spline přístup nese výpočetní náklady, kde je počet pozorování proměnné odezvy, což je pro středně velké datové sady poněkud nepraktické. Novější metody řešily tyto výpočetní náklady buď přímým zmenšením velikosti základny použité pro vyhlazení (zmenšení pořadí)[7][8][9][10][11] nebo vyhledáním řídkých reprezentací vyhlazení pomocí Markovova náhodná pole, které lze použít řídká matice metody výpočtu.[12] Tyto výpočetně efektivnější metody používají GCV (nebo AIC nebo podobné) nebo REML nebo berou plně Bayesianský přístup pro odvození míry hladkosti komponent modelu. Odhad stupně hladkosti pomocí REML lze považovat za empirická Bayesova metoda.

Je třeba použít alternativní přístup se zvláštními výhodami ve vysoce dimenzionálním nastavení posílení, i když to obvykle vyžaduje bootstrapping pro kvantifikaci nejistoty.[13][14] Bylo zjištěno, že GAM fit pomocí pytlování a posilování obecně překonávají GAMs fit pomocí metod spline.[15]

Rámec snížený

Mnoho moderních implementací GAM a jejich rozšíření je postaveno na přístupu vyhlazování se sníženou hodností, protože umožňuje řádně podložený odhad hladkosti vyhlazování komponenty při poměrně skromných výpočtových nákladech a také usnadňuje implementaci řady rozšíření modelu způsobem, který je obtížnější s jinými metodami. Nejjednodušší je myšlenka nahradit neznámé plynulé funkce v modelu základními rozšířeními

Kde jsou známé základní funkce, obvykle zvolené pro dobré aproximační teoretické vlastnosti (například B splajny nebo snížená hodnost tenké dlahy ) a jsou koeficienty, které lze odhadnout jako součást přizpůsobení modelu. Základní dimenze je zvolen tak velký, že očekáváme, že převýší data, která jsou k dispozici (čímž se zabrání zkreslení kvůli přílišnému zjednodušení modelu), ale dostatečně malý, aby si zachoval výpočetní účinnost. Li pak budou výpočetní náklady na odhad modelu tímto způsobem .

Všimněte si, že jsou identifikovatelné pouze v rámci odposlechového termínu (můžeme přidat libovolnou konstantu do při odečtení od beze změny modelových předpovědí), takže k odstranění této nejednoznačnosti je třeba uvalit omezení na identifikovatelnost plynulých podmínek. Nejostřejší závěr o se obecně získá použitím omezení součtu k nule

tj. trváním na tom, že součet každého z nich vyhodnoceno při pozorovaných kovariančních hodnotách by mělo být nula. Taková lineární omezení lze nejsnadněji uložit reparametrizací ve fázi základního nastavení,[10] takže níže se předpokládá, že to bylo provedeno.

Poté, co nahradil všechny v modelu s takovými základními expanzemi jsme z GAM udělali a Zobecněný lineární model (GLM), s modelovou maticí, která jednoduše obsahuje základní funkce vyhodnocené na pozorovaném hodnoty. Protože však základní rozměry, , byly vybrány tak, aby byly o něco větší, než se předpokládá, že jsou pro data nezbytná, model je nadměrně parametrizován a převýší data, pokud je odhadován jako běžný GLM. Řešením tohoto problému je penalizovat odklon od hladkosti v procesu tvarování modelu, řízení váhy dané vyhlazovacím pokutám pomocí vyhlazovacích parametrů. Zvažte například situaci, ve které jsou všechny vyhlazování jednorozměrné funkce. Zápis všech parametrů do jednoho vektoru, , předpokládejme to je odchylka (dvojnásobek rozdílu mezi nasycenou pravděpodobností logu a pravděpodobností logu modelu) pro model. Minimalizace odchylky obvyklými iterativně převáženými nejmenšími čtverci by vedla k přeplnění, proto hledáme minimalizovat

kde integrované derivátové tresty se čtvercovou sekundou slouží k penalizaci kroutí (nedostatek plynulosti) během lícování a parametry vyhlazení ovládat kompromis mezi dobrem uchycení modelu a hladkostí modelu. V příkladu by zajistilo, že odhad by byla přímka dovnitř .

Vzhledem k základní expanzi pro každého pokuty za krutost lze vyjádřit jako kvadratické formy v modelových koeficientech.[10] To je to, co můžeme psát

,

kde je matice známých koeficientů vypočítatelných z trestu a základu, je vektor koeficientů pro , a je jen polstrovaný nulami, aby druhá rovnost platila, a můžeme psát penaltu ve smyslu celého vektoru koeficientu . Mnoho dalších pokut za vyhlazení lze zapsat stejným způsobem a vzhledem k parametrům vyhlazování se nyní problém s přizpůsobením modelu stává

,

které lze najít pomocí potrestané verze obvyklého iterativně vyvažované nejméně čtverce Algoritmus (IRLS) pro GLM: algoritmus se nezmění, až na to, že součet kvadratických pokut je přidán k funkčnímu objektu nejmenších čtverců při každé iteraci algoritmu.

Penalizace má několik účinků na závěr, ve srovnání s běžným GLM. Za prvé, odhady podléhají určitému zkreslení, což je cena, kterou je třeba zaplatit za omezení rozptylu odhadu penalizací. Pokud jsou však parametry vyhlazení vybrány vhodně, mělo by být (čtvercové) zkreslení vyhlazení zavedené penalizací menší než snížení rozptylu, které vytváří, takže čistým efektem je snížení střední chyby odhadu čtverce ve srovnání s ne penalizací. Souvisejícím účinkem penalizace je, že pojem stupňů volnosti modelu musí být upraven tak, aby zohledňoval působení sankcí při snižování variability koeficientů. Například pokud je diagonální matice váh IRLS při konvergenci a je matice modelu GAM, pak je efektivní stupeň volnosti modelu dán vztahem kde

,

je efektivní matice stupňů volnosti.[10] Ve skutečnosti sečteme jen diagonální prvky odpovídající koeficientům dává efektivní stupně volnosti pro odhad .

Bayesovské vyhlazovací předky

Vyhlazení zkreslení komplikuje odhad intervalů pro tyto modely a ukázalo se, že nejjednodušší přístup zahrnuje Bayesovský přístup.[16][17][18][19] Pochopení tohoto bayesovského pohledu na vyhlazování také pomáhá porozumět REML a úplným Bayesovým přístupům k vyhlazování odhadu parametrů. Na určité úrovni jsou ukládány vyhlazovací pokuty, protože věříme, že plynulé funkce jsou pravděpodobnější než ty nejasné, a pokud je to pravda, mohli bychom tuto představu také formalizovat tak, že dáme přednost modelové krutosti. Může to být velmi jednoduchý

(kde je parametr měřítka GLM zavedený pouze pro pozdější pohodlí), ale můžeme jej okamžitě rozpoznat jako a vícerozměrný normální předchozí se střední hodnotou a přesná matice . Vzhledem k tomu, že pokuta umožňuje některé funkce prostřednictvím nepenalizované (přímé čáry, vzhledem k příkladu pokut), je hodnost nedostatečná a předchozí je ve skutečnosti nesprávná, s kovarianční maticí danou Moore-Penroseova pseudoinverze z (nevhodnost odpovídá připisování nekonečné odchylky nepenalizovaným složkám hladké).[18]

Nyní, pokud je tento předchozí kombinován s pravděpodobností GLM, zjistíme, že zadní režim pro je přesně to nalezeno výše potrestanými IRLS.[18][10] Kromě toho máme výsledek velkého vzorku

které lze použít k vytvoření důvěryhodných / důvěryhodných intervalů pro hladké komponenty, Gaussovy hladkosti jsou rovněž základem pro plně Bayesiánský závěr s GAM,[8] stejně jako metody odhadu GAM jako smíšených modelů[11][20] to jsou v podstatě empirické Bayesovy metody.

Vyhlazení odhadu parametrů

Doposud jsme zacházeli s odhady a závěry vzhledem k vyhlazovacím parametrům, , ale také je třeba je odhadnout. Jedním z přístupů je plně Bayesiánský přístup, definování priorit na (log) vyhlazovacích parametrech a použití stochastické simulace nebo metod aproximace vysokého řádu k získání informací o zadní části modelových koeficientů.[8][12] Alternativou je výběr vyhlazovacích parametrů k optimalizaci kritéria chyby predikce, například Generalized křížová validace (GCV) neboInformační kritérium Akaike (AIC).[21] Nakonec se můžeme rozhodnout maximalizovat mezní pravděpodobnost (REML) získanou integrací modelových koeficientů, ze společné hustoty ,

.

Od té doby je jen pravděpodobnost , můžeme to považovat za výběr maximalizovat průměrnou pravděpodobnost náhodných losování z předchozího. Předchozí integrál je obvykle analyticky neřešitelný, ale lze jej aproximovat pomocí poměrně vysoké přesnosti Laplaceova metoda.[20]

Vyhlazování odvození parametru je výpočetně nejnáročnější částí odhadu / odvození modelu. Například optimalizovat GCV nebo mezní pravděpodobnost obvykle vyžaduje numerickou optimalizaci pomocí Newtonovy nebo Quasi-Newtonovy metody, přičemž každá zkušební hodnota pro (log) vyhlazovací parametr vektoru vyžaduje penalizovanou IRLS iteraci k vyhodnocení odpovídající spolu s dalšími složkami skóre GCV nebo Laplaceovy přibližné mezní pravděpodobnosti (LAML). Dále získat deriváty GCV nebo LAML, které jsou nutné pro optimalizaci, zahrnuje implicitní diferenciaci k získání derivátů w.r.t. parametry vyhlazování protokolu, což vyžaduje určitou péči, aby byla zachována účinnost a numerická stabilita.[20]

Software

Backfit GAM byly původně poskytovány gam funkce v S,[22] nyní přeneseno do Jazyk R. jako gam balík. SAS proc GAM také poskytuje backfit GAM. Doporučený balíček v R pro GAM je mgcv, což znamená smíšený výpočetní prostředek GAM,[10] který je založen na přístupu se sníženou hodností s automatickým výběrem parametrů vyhlazení. SAS proc GAMPL je alternativní implementace. V Pythonu existuje InterpretML balíček, který implementuje pytlování a posílení přístupu.[23] Existuje mnoho alternativních balíčků. Mezi příklady patří balíčky R. mboost,[13] který zavádí posilovací přístup; gss, který poskytuje metody vyhlazení celého spline;[24] VGAM který poskytuje vektorové GAM;[3] a gams, který stanoví Zobecněný aditivní model pro umístění, měřítko a tvar. `BayesX 'a jeho rozhraní R poskytuje GAM a rozšíření prostřednictvím MCMC a penalizovaných metod pravděpodobnosti.[25] Software `INLA 'implementuje plně Bayesianský přístup založený na Markovových reprezentacích náhodných polí využívajících metody řídké matice.[12]

Jako příklad toho, jak lze modely v praxi odhadnout pomocí softwaru, zvažte balíček R. mgcv. Předpokládejme, že náš R pracovní prostor obsahuje vektory y, X a z a chceme odhadnout model

V rámci R jsme mohli vydávat příkazy

knihovna (mgcv) # načíst balíčekb = gam (y ~ s (x) + s (z))

Společné s většinou funkcí modelování R. gam očekává, že bude dodán modelový vzorec, který specifikuje strukturu modelu, aby se vešel. Proměnná odezvy je uvedena nalevo od ~ zatímco specifikace lineárního prediktoru je uvedena vpravo. gam nastavuje základy a pokuty za hladké výrazy, odhaduje model včetně jeho vyhlazovacích parametrů a standardním způsobem R vrací namontovaný model objektu, které pak mohou být dotazovány pomocí různých pomocných funkcí, jako je souhrn, spiknutí, předpovědět, a AIC.

Tento jednoduchý příklad použil několik výchozích nastavení, která je důležité si uvědomit. Například se předpokládá Gaussova distribuční a identitní vazba a kritériem výběru vyhlazovacího parametru bylo GCV. Rovnoměrné výrazy byly také zastoupeny pomocí „penalizovaných tenkých deskových regresních splajnů“ a základní rozměr pro každou z nich byl nastaven na 10 (z čehož vyplývá maximálně 9 stupňů volnosti po zavedení omezení identifikovatelnosti). Druhý příklad ukazuje, jak můžeme tyto věci ovládat. Předpokládejme, že chceme model odhadnout

pomocí výběru REML vyhlazovacího parametru a očekáváme být relativně komplikovanou funkcí, kterou bychom chtěli modelovat pomocí penalizovaného kubického regresního spline. Pro musíme se také rozhodnout, zda a jsou přirozeně ve stejném měřítku, takže izotropní hladší, jako např tenká deska spline je vhodné (zadáno pomocí `s (v, w) '), nebo zda jsou skutečně v různých měřítcích, takže potřebujeme samostatné vyhlazovací tresty a vyhlazovací parametry pro a jak poskytuje plynulejší tenzorový produkt. Předpokládejme, že jsme se v tomto případě rozhodli pro druhou možnost, pak by následující R kód odhadl model

b1 = gam (y ~ x + s (t, bs = "cr", k = 100) + te (v, w), family = poisson, method = "REML")

který používá základní velikost 100 pro vyhlazení . Specifikace distribuce a funkce odkazu používá objekty `rodiny ', které jsou standardní při montáži GLM v R nebo S. Všimněte si, že k lineárnímu prediktoru lze také přidat Gaussovy náhodné efekty.

Tyto příklady jsou zamýšleny pouze k poskytnutí velmi základní chuti způsobu, jakým je software GAM používán, podrobněji viz dokumentace k softwaru pro různé balíčky a odkazy níže.[10][24][3][22][13][25]

Kontrola modelu

Stejně jako u každého statistického modelu je důležité zkontrolovat předpoklady modelu GAM. Zbytkové grafy by měly být zkoumány stejným způsobem jako u jakéhokoli GLM. To znamená, že zbytky odchylky (nebo jiné standardizované zbytky) by měly být zkoumány kvůli vzorům, které by mohly naznačovat podstatné porušení předpokladů nezávislosti nebo střední odchylky modelu. To obvykle zahrnuje vykreslení standardizovaných reziduí proti přizpůsobeným hodnotám a kovariátám, aby se hledaly problémy se střední odchylkou nebo chybějící vzor, ​​a může to také zahrnovat zkoumání Correlograms (ACF) a / nebo Variogramy zbytků ke kontrole porušení nezávislosti. Pokud je vztah střední hodnoty odchylky modelu správný, pak by měřítkové zbytky měly mít zhruba konstantní rozptyl. Všimněte si, že protože GLM a GAM lze odhadnout pomocí Kvazi-pravděpodobnost, z toho vyplývá, že podrobnosti rozdělení zbytků nad rámec vztahu střední odchylky mají relativně malý význam.

Jedním problémem, který je častější u GAM než u jiných GLM, je nebezpečí nesprávného závěru, že data jsou nahuštěna na nulu. Obtíž nastává, když data obsahují mnoho nul, které lze modelovat pomocí Poissona nebo binomika s velmi nízkou očekávanou hodnotou: flexibilita struktury GAM často umožní reprezentaci velmi nízké střední hodnoty v určité oblasti kovariančního prostoru, ale distribuce standardizované rezidua nebudou vypadat jako přibližná normálnost, kterou nás úvodní třídy GLM učí očekávat, i když je model naprosto správný.[26]

Jednou další kontrolou, kterou GAM zavádějí, je potřeba zkontrolovat, zda jsou zvolené stupně volnosti vhodné. To je obzvláště akutní při použití metod, které automaticky neodhadují plynulost komponent modelu. Při použití metod s automatickým výběrem parametrů vyhlazení je stále nutné zkontrolovat, zda volba základní dimenze nebyla omezeně malá, i když je-li efektivní míra volnosti odhadu termínu pohodlně pod její základní dimenzí, je to nepravděpodobné. V každém případě kontrola je založen na zkoumání vzoru reziduí s ohledem na . To lze provést pomocí částečných zbytků překrytých na grafu , nebo pomocí permutace reziduí k vytvoření testů reziduálního vzoru (jako ve funkci `gam.check 'v R balíčku` mgcv').

Výběr modelu

Když se vyhlazovací parametry odhadují jako součást přizpůsobení modelu, pak se do procesu přizpůsobení vstřebalo mnoho z toho, co by se tradičně počítalo při výběru modelu: odhad vyhlazovacích parametrů si již vybral mezi bohatou rodinou modelů s různou funkční složitostí. Odhad vyhlazovacího parametru však typicky neodstraní z modelu hladký člen úplně, protože většina sankcí ponechává některé funkce nepenalizované (např. Přímé čáry jsou nepenalizovány výše uvedenou spline derivací). Zůstává tedy otázka, zda by měl být pojem v modelu vůbec. Jedním z jednoduchých přístupů k tomuto problému je přidat další trest ke každému hladkému termínu v GAM, který penalizuje komponenty plynulého, které by jinak byly nepenalizovány (a pouze ty). Každý extra trest má svůj vlastní vyhlazovací parametr a odhad pak probíhá jako dříve, ale nyní s možností, že podmínky budou zcela penalizovány na nulu.[27] Ve vysokodimenzionálním nastavení může mít větší smysl pokusit se o tento úkol pomocí Laso (statistika) nebo Elastická regularizace sítě. Boosting také provádí výběr termínů automaticky jako součást přizpůsobení.[13]

Alternativou je použití tradičních Postupná regrese metody pro výběr modelu. Toto je také výchozí metoda, když nejsou vyhlazovací parametry odhadovány jako součást tvarování, v takovém případě je každému vyhlazenému členu obvykle povoleno převzít jednu z malé sady předdefinovaných úrovní hladkosti v modelu a tyto jsou vybrány mezi v postupným způsobem. Krokové metody fungují tak, že iterativně porovnávají modely s konkrétními pojmy modelu nebo bez nich (nebo případně s různými úrovněmi složitosti pojmů) a vyžadují opatření vhodnosti modelu nebo významnosti pojmu, aby se rozhodlo, který model zvolit v každé fázi. Mohli bychom například použít p-hodnoty pro testování každého termínu pro rovnost na nulu, abychom se rozhodli o kandidátských podmínkách pro odebrání z modelu, a mohli bychom je porovnat Informační kritérium Akaike (AIC) hodnoty pro alternativní modely.

Výpočet hodnoty P pro vyhlazení není přímý kvůli účinkům penalizace, ale jsou k dispozici aproximace.[1][10] AIC lze pro GAM vypočítat dvěma způsoby. Mezní AIC je založen na Mariginal Likelihood (viz výše) s integrovanými modelovými koeficienty. V tomto případě je trest AIC založen na počtu vyhlazovacích parametrů (a všech parametrů odchylky) v modelu. Avšak kvůli dobře známé skutečnosti, že REML není srovnatelný mezi modely s různými strukturami pevných efektů, nemůžeme obvykle použít takovou AIC k porovnání modelů s různými hladkými podmínkami (protože jejich nepenalizované komponenty fungují jako fixní efekty). Založení AIC na mezní pravděpodobnosti, ve které jsou integrovány pouze penalizované efekty, je možné (počet nepenalizovaných koeficientů se nyní přidá k počtu parametrů pro penalizaci AIC), ale tato verze mezní pravděpodobnosti trpí tendencí přehnaně hladký, který poskytl původní motivaci pro vývoj REML. Vzhledem k těmto problémům jsou GAM často porovnávány pomocí podmíněného AIC, ve kterém je v AIC použita pravděpodobnost modelu (nikoli mezní pravděpodobnost) a počet parametrů je považován za efektivní stupně volnosti modelu.[1][21]

Ukázalo se, že naivní verze podmíněného AIC jsou za určitých okolností příliš pravděpodobné, že vyberou větší modely, což je obtíže způsobené zanedbáním vyhlazování nejistoty parametrů při výpočtu účinných stupňů volnosti,[28] oprava účinných stupňů volnosti pro tento problém však obnoví přiměřený výkon.[2]

Upozornění

Overfitting může být problém s GAM,[21] zvláště pokud existuje nemodelovaná zbytková autokorelace nebo nemodelovaná nadměrný rozptyl. Křížová validace lze použít k detekci a / nebo snížení nadměrných problémů s GAM (nebo jinými statistickými metodami),[29] a software často umožňuje zvýšit úroveň penalizace, aby se dosáhlo hladších záchvatů. Odhad velmi velkého počtu parametrů vyhlazování bude pravděpodobně také statisticky náročný a jsou známy tendence k tomu, aby kritéria chyby predikce (GCV, AIC atd.) Občas podstatně podhladila, zejména při střední velikosti vzorků, přičemž REML je v tomto ohledu o něco méně problematický považovat.[30]

Kde je to vhodné, jednodušší modely jako např GLM může být vhodnější než GAM, pokud GAM podstatně nezlepší prediktivní schopnost (v sadách ověřování) pro danou aplikaci.

Viz také

Reference

  1. ^ A b C d E F Hastie, T. J .; Tibshirani, R. J. (1990). Zobecněné aditivní modely. Chapman & Hall / CRC. ISBN  978-0-412-34390-2.
  2. ^ A b Wood, S.N .; Pya, N .; Saefken, B. (2016). Msgstr "Vyhlazení výběru parametrů a modelů pro obecné vyhlazené modely (s diskusí)". Journal of the American Statistical Association. 111 (516): 1548–1575. arXiv:1511.03864. doi:10.1080/01621459.2016.1180986.
  3. ^ A b C Yee, Thomas (2015). Vektorové zobecněné lineární a aditivní modely. Springer. ISBN  978-1-4939-2817-0.
  4. ^ Rigby, R.A .; Stasinopoulos, D.M. (2005). Msgstr "Zobecněné aditivní modely pro umístění, měřítko a tvar (s diskusí)". Journal of the Royal Statistical Society, Series C. 54 (3): 507–554. doi:10.1111 / j.1467-9876.2005.00510.x.
  5. ^ Wahba, Grace. Spline modely pro pozorovací data. SIAM.
  6. ^ Gu, C .; Wahba, G. (1991). „Minimalizace skóre GCV / GML s několika vyhlazovacími parametry pomocí Newtonovy metody“ (PDF). Časopis SIAM o vědeckých a statistických výpočtech. 12 (2): 383–398. doi:10.1137/0912021.
  7. ^ Wood, S. N. (2000). „Modelování a vyhlazení odhadu parametrů s několika kvadratickými pokutami“ (PDF). Journal of the Royal Statistical Society. Řada B. 62 (2): 413–428. doi:10.1111/1467-9868.00240.
  8. ^ A b C Fahrmeier, L .; Lang, S. (2001). "Bayesiánský závěr pro generalizované aditivní smíšené modely založené na Markovových náhodných polích". Journal of the Royal Statistical Society, Series C. 50 (2): 201–220. CiteSeerX  10.1.1.304.8706. doi:10.1111/1467-9876.00229.
  9. ^ Kim, Y.J .; Gu, C. (2004). "Vyhlazení spline Gaussovy regrese: škálovatelnější výpočet pomocí efektivní aproximace". Journal of the Royal Statistical Society, Series B. 66 (2): 337–356. doi:10.1046 / j.1369-7412.2003.05316.x. S2CID  41334749.
  10. ^ A b C d E F G h Wood, S. N. (2017). Generalized Additive Models: An Introduction with R (2nd ed). Chapman & Hall / CRC. ISBN  978-1-58488-474-3.
  11. ^ A b Ruppert, D .; Wand, M.P .; Carroll, R.J. (2003). Semiparametrická regrese. Cambridge University Press.
  12. ^ A b C Rue, H .; Martino, Sara; Chopin, Nicolas (2009). "Přibližná bayesiánská inference pro latentní gaussovské modely pomocí integrovaných vnořených Laplaceových aproximací (s diskusí)". Journal of the Royal Statistical Society, Series B. 71 (2): 319–392. doi:10.1111 / j.1467-9868.2008.00700.x.
  13. ^ A b C d Schmid, M .; Hothorn, T. (2008). "Posílení aditivních modelů pomocí P-splajnů jednotlivých komponent". Výpočetní statistika a analýza dat. 53 (2): 298–311. doi:10.1016 / j.csda.2008.09.009.
  14. ^ Mayr, A .; Fenske, N .; Hofner, B .; Kneib, T .; Schmid, M. (2012). „Zobecněné aditivní modely pro umístění, měřítko a tvar pro vysoce dimenzionální data - flexibilní přístup založený na podpoře“. Journal of the Royal Statistical Society, Series C. 61 (3): 403–427. doi:10.1111 / j.1467-9876.2011.01033.x.
  15. ^ Lou, Yin; Caruana, bohatý; Gehrke, Johannes (2012). "Srozumitelné modely pro klasifikaci a regresi". Sborník z 18. mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat - KDD '12. str. 150. doi:10.1145/2339530.2339556. ISBN  9781450314626.
  16. ^ Wahba, G. (1983). „Intervaly Bayesovské důvěry pro křížem ověřenou vyhlazovací spline“ (PDF). Journal of the Royal Statistical Society, Series B. 45: 133–150.
  17. ^ Nychka, D. (1988). "Bayesovské intervaly spolehlivosti pro vyhlazení splajnů". Journal of the American Statistical Association. 83 (404): 1134–1143. doi:10.1080/01621459.1988.10478711.
  18. ^ A b C Silverman, B.W. (1985). „Některé aspekty vyhlazení splajnu k přizpůsobení křivky neparametrické regrese (s diskusí)“ (PDF). Journal of the Royal Statistical Society, Series B. 47: 1–53.
  19. ^ Marra, G .; Wood, S.N. (2012). "Vlastnosti pokrytí intervalů spolehlivosti pro zobecněné komponenty modelu doplňku" (PDF). Scandinavian Journal of Statistics. 39: 53–74. doi:10.1111 / j.1467-9469.2011.00760.x.
  20. ^ A b C Wood, S.N. (2011). „Rychle stabilní omezená maximální pravděpodobnost a odhad mezní pravděpodobnosti semiparametrických zobecněných lineárních modelů“ (PDF). Journal of the Royal Statistical Society, Series B. 73: 3–36. doi:10.1111 / j.1467-9868.2010.00749.x.
  21. ^ A b C Wood, Simon N. (2008). "Rychlé stabilní přímé lícování a výběr hladkosti pro zobecněné aditivní modely". Journal of the Royal Statistical Society, Series B. 70 (3): 495–518. arXiv:0709.3906. doi:10.1111 / j.1467-9868.2007.00646.x.
  22. ^ A b Chambers, J.M .; Hastie, T. (1993). Statistické modely v S. Chapman a Hall.
  23. ^ Nori, Harsha; Jenkins, Samuel; Koch, Paul; Caruana, Rich (2019). "InterpretML: Unified Framework for Machine Learning Interpretability". arXiv:1909.09223 [cs.LG ].
  24. ^ A b Gu, Chong (2013). Vyhlazování Spline modelů ANOVA (2. vydání). Springer.
  25. ^ A b Umlauf, Nikolaus; Adler, Daniel; Kneib, Thomas; Lang, Stefan; Zeileis, Achim. „Strukturované modely aditivní regrese: rozhraní R pro BayesX“ (PDF). Žurnál statistického softwaru. 63 (21): 1–46.
  26. ^ Augustin, N.H .; Sauleau, E-A; Wood, S.N. (2012). „Na grafech kvantilu a kvantilu pro zobecněné lineární modely“ (PDF). Výpočetní statistika a analýza dat. 56 (8): 2404–2409. doi:10.1016 / j.csda.2012.01.026.
  27. ^ Marra, G .; Wood, S.N. (2011). "Praktický výběr proměnných pro zobecněné aditivní modely". Výpočetní statistika a analýza dat. 55 (7): 2372–2387. doi:10.1016 / j.csda.2011.02.004.
  28. ^ Greven, Sonja; Kneib, Thomas (2010). "O chování okrajových a podmíněných AIC v lineárních smíšených modelech". Biometrika. 97 (4): 773–789. doi:10.1093 / biomet / asq042.
  29. ^ Brian Junker (22. března 2010). „Aditivní modely a křížová validace“ (PDF).
  30. ^ Reiss, P.T .; Ogden, T.R. (2009). "Vyhlazení výběru parametrů pro třídu semiparametrických lineárních modelů". Journal of the Royal Statistical Society, Series B. 71 (2): 505–523. doi:10.1111 / j.1467-9868.2008.00695.x.

externí odkazy