GLMM/GA(M)Mの文献案内

先日紹介したLL論文は語数の関係から、書きたくても書けなかったトピックや削らざるを得なかった箇所が多くあります。その中のいくつかはOnline Supporting Documentとして公開していますが、最終的に完全に削除してしまい、Online Supporting Documentにすら残さなかった箇所の一つとして文献案内があります。一般化混合効果モデル(GLMM)については既に優れた文献が日本語・英語を問わず多くありますが、一般化加法モデル(GAM)・一般化加法混合モデル(GAMM)に関する文献については専門性が高いものが多く、一般的な言語研究者にとっては敷居が高いものがほとんどです。そのため、言語研究者がGA(M)Mを用いる際に参考になる文献(言い換えると私がLL論文を書くに当たり参考になった文献)を紹介するのは有益だと考えました。しかし語数の関係から結局はLL論文から全て削らざるを得なかったので、ここでその内容を紹介します。

削除した段落は以下のようなものでした。

Due to space limitations, this paper was not able to discuss many issues that are worth discussing in relation to GLMMs, GAMs, and GAMMs. These include the details of estimation procedure such as the choice of optimizers for GLMMs, the issue of calculating p-values in all of the three models, equivalent measures to R2, and, in particular, model diagnostics. For further details and/or practical tutorials, readers are referred to Bolker et al. (2009), Baayen (2008), Baayen et al. (2008), and Gelman and Hill (2007) for GLMMs. There is less accessible literature on GA(M)Ms, but James et al. (2013), Hastie et al. (2009), Zuur et al. (2009), Baayen (in preparation, Chapter 8) and Wieling (2014) should be helpful. The documentation of the mgcv packages in R (Wood, 2014) and some of the slides on the developer’s website 1 are also good resources. Readers are also welcome to look at the author’s R codes on IRIS [注: 最終的にIRISではなくOSFにRコード等はアップロードしました→こちら].

まずは上で挙げたGLMM関連のものから順に紹介していきます。

Bolker, B. M., Brooks, M. E., Clark, C. J., Geange, S. W., Poulsen, J. R., Stevens, M. H. H., & White, J.-S. S. (2009). Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology & Evolution, 24(3), 127–35. doi:10.1016/j.tree.2008.10.008

Rで混合効果モデルを構築する際によく用いられるlme4パッケージの開発者であるBen Bolker氏が筆頭著者を務める、一般化混合効果モデルに関する論文です。生態学分野に向けての論文であるため、モデルの推定方法による差異や自由度の算出方法など、一般的な言語研究者にとってはやや高度なトピックが扱われています。しかし各種ソフトやRパッケージ間の違いが数式等を用いることなく説明されていて、LL論文を書くにあたり非常に助けられました。

Baayen, R. H. (2008). Analyzing linguistic data: A practical introduction to statistics using R. Cambridge: Cambridge University Press.

言わずと知れた言語統計の名著です。言語研究者向けですが、特に6-7章はなかなか高度で、“introduction to statistics”には“for those who have been mathematically trained”などの句が隠れていると考えた方が良いと思います。第一刷がここで無償で公開されています。近々GA(M)Mの章を加えた第二版が出ると聞いています。

Baayen, R. H., Davidson, D. J., & Bates, D. M. (2008). Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language, 59(4), 390–412. doi: 10.1016/j.jml.2007.12.005

言語研究で混合効果モデルが広まるきっかけとなった論文です。内容的には上掲書の混合効果モデルの章と似ています。本論文はJMLにこの10年間に出た論文で、最も引用されているのではないでしょうか。現在でもJMLの「過去90日間に最もダウンロードされた論文」のトップです。因みに現時点で同ランキングの2位のBarr, Levy, Scheepers, and Tily (2013)も混合効果モデルに関する論文で、変量効果にはデザイン上可能な限り多くのrandom interceptとrandom slopeを入れるべき(maximal modelを使うべき)だと主張するものですが、これにはBaayen氏らが反論論文を出しています(こちらこちらこちら)。しかしそのBaayen氏らの論文にも疑問が呈されており(これこれ)、現時点でも決着のついていない問題です。

Gelman, A., & Hill, J. (2007). Data analysis using regression and multilevel/hierarchical models. New York, NY: Cambridge University Press.

ベイズ統計の大家でStanの開発者でもあるAndrew Gelman氏による回帰モデルの書籍です。私は一部しか読んでいませんが、読んだ部分に関しては、非常にわかりやすかったです。先述したBarr et al. (2013)と同じく、本書もmaximal modelを推奨しています。またこちらも第二版(あるいはそれに相当する後続本)が出るよう2、第二版は二巻セットとなり、それぞれにStanコードが付くとのことです。

続いてGA(M)Mの文献。

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Datamining, inference, and prediction (second edition). New York, NY: Springer.

こちらから一冊丸ごと無料でダウンロードできます。最近邦訳も出版されました。統計的学習の金字塔的な文献で、著者の最初の二名(HastieとTibshirani)は一般化加法モデルの提唱者です。本書は基本的に専門家向けであるため、数式も多く、一般的な言語研究者が読み解くのは容易ではないと思います。しかしテンソル積(tensor product)を用いた平滑化スプラインなど、一般化加法モデルを扱うために必要・有用ながら他書には載っていない事項に関する説明も含まれています。

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in R. New York, NY: Springer.

こちらから一冊丸ごと無料でダウンロードできます。統計学やその関連分野の専門家を対象とした上記Hastie et al. (2009)に対し、本書はそれら以外の分野の研究者(=非専門家)を対象としています。数式フリーとはいきませんが、一般化加法モデルを扱った文献としては比較的読むのが容易な部類に入ると思います。一般化加法モデルを理解するのに必要な平滑化スプラインのセクションを含め、個人的には学ぶことが多くありました。

Zuur, A. F., Ieno, E. N., Walker, N. J., Saveliev, A. A., & Smith, G. M. (2009). Mixed effects models and extensions in ecology with R. New York, NY: Springer.

本書では、生態学分野での混合効果モデルや一般化加法モデル、一般化加法混合モデルなどの使用が扱われています。上記のJames et al. (2013)よりも更に読みやすく、またRコードも多く記載されているため、言語研究者が一般化加法モデルを学ぶ場合、本書から始めれば良いのではないかと思います。また、統計学の研究者以外に向けられた書籍で、一般化加法混合モデルを扱っているものは本書を除き私は把握していません。ただし、本書での一般化加法混合モデルの扱い方はBaayen氏らのアプローチとは違うので、その点に関しては注意が必要です。

Wieling (2014)はこのスライドを指していますが、現在ではよりアップデートされたスライドがここに公開されている(上に随時アップデートされている)ので、そちらを参考にするのが良いと思います。私がLL論文の一般化加法(混合)モデルを用いた分析を行うにあたり、公開されている文献・資料の中で最も参考になったのがこれらのスライドです。言語研究者を対象としており数式は用いていない点、それでいて内容は相当に高度な点、Rコードが多用されている点において、一般化加法(混合)モデルを用いることを考えている一般的な言語研究者にとって有益なスライドであることは間違いありません。惜しむらくはスライドであるため、十分に細部の説明が含まれていないことでしょうか。その点については先述したBaayen (2008)の第二版を待ちましょう。

最後はRで一般化加法モデルを構築する際によく用いられるmgcvパッケージの開発者である、Simon Wood氏のスライドです。氏は最近バース大学からブリストル大学に移られたようで、それに伴い氏のウェブサイトのURLが変わり、私がLL論文の参考文献欄に記した関連URLは既に繋がらなくなってしまっています。mgcv関係のスライドは現在はここからアクセスできます。氏は統計学者ですので内容は専門性が極めて高く、一般的な言語研究者では細部は理解できないと思います。しかしRコードが掲載されていることも多く、またところどころ直感的な説明もあるので、少なくともざっと眺める価値はあると思います。また、スライドとは別資料ですが、mgcvパッケージのヘルプファイルも大変参考になりました。本記事最初の引用部内のWood (2014)はヘルプファイルを指しています。例えば「?summary.gam」のページには、p値の計算方法が詳しく記述されています。

Notes:

  1. http://people.bath.ac.uk/sw283/mgcv/
  2. ただしこのコメントを読む限り、もうしばらくは出なさそうです
Standard

Leave a Reply

Your email address will not be published. Required fields are marked *