GLMM/GA(M)Mの文献案内

先日紹介したLL論文は語数の関係から、書きたくても書けなかったトピックや削らざるを得なかった箇所が多くあります。その中のいくつかはOnline Supporting Documentとして公開していますが、最終的に完全に削除してしまい、Online Supporting Documentにすら残さなかった箇所の一つとして文献案内があります。一般化混合効果モデル(GLMM)については既に優れた文献が日本語・英語を問わず多くありますが、一般化加法モデル(GAM)・一般化加法混合モデル(GAMM)に関する文献については専門性が高いものが多く、一般的な言語研究者にとっては敷居が高いものがほとんどです。そのため、言語研究者がGA(M)Mを用いる際に参考になる文献(言い換えると私がLL論文を書くに当たり参考になった文献)を紹介するのは有益だと考えました。しかし語数の関係から結局はLL論文から全て削らざるを得なかったので、ここでその内容を紹介します。

削除した段落は以下のようなものでした。

Due to space limitations, this paper was not able to discuss many issues that are worth discussing in relation to GLMMs, GAMs, and GAMMs. These include the details of estimation procedure such as the choice of optimizers for GLMMs, the issue of calculating p-values in all of the three models, equivalent measures to R2, and, in particular, model diagnostics. For further details and/or practical tutorials, readers are referred to Bolker et al. (2009), Baayen (2008), Baayen et al. (2008), and Gelman and Hill (2007) for GLMMs. There is less accessible literature on GA(M)Ms, but James et al. (2013), Hastie et al. (2009), Zuur et al. (2009), Baayen (in preparation, Chapter 8) and Wieling (2014) should be helpful. The documentation of the mgcv packages in R (Wood, 2014) and some of the slides on the developer’s website 1 are also good resources. Readers are also welcome to look at the author’s R codes on IRIS [注: 最終的にIRISではなくOSFにRコード等はアップロードしました→こちら].

まずは上で挙げたGLMM関連のものから順に紹介していきます。

Bolker, B. M., Brooks, M. E., Clark, C. J., Geange, S. W., Poulsen, J. R., Stevens, M. H. H., & White, J.-S. S. (2009). Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology & Evolution, 24(3), 127–35. doi:10.1016/j.tree.2008.10.008

Rで混合効果モデルを構築する際によく用いられるlme4パッケージの開発者であるBen Bolker氏が筆頭著者を務める、一般化混合効果モデルに関する論文です。生態学分野に向けての論文であるため、モデルの推定方法による差異や自由度の算出方法など、一般的な言語研究者にとってはやや高度なトピックが扱われています。しかし各種ソフトやRパッケージ間の違いが数式等を用いることなく説明されていて、LL論文を書くにあたり非常に助けられました。

Baayen, R. H. (2008). Analyzing linguistic data: A practical introduction to statistics using R. Cambridge: Cambridge University Press.

言わずと知れた言語統計の名著です。言語研究者向けですが、特に6-7章はなかなか高度で、“introduction to statistics”には“for those who have been mathematically trained”などの句が隠れていると考えた方が良いと思います。第一刷がここで無償で公開されています。近々GA(M)Mの章を加えた第二版が出ると聞いています。

Baayen, R. H., Davidson, D. J., & Bates, D. M. (2008). Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language, 59(4), 390–412. doi: 10.1016/j.jml.2007.12.005

言語研究で混合効果モデルが広まるきっかけとなった論文です。内容的には上掲書の混合効果モデルの章と似ています。本論文はJMLにこの10年間に出た論文で、最も引用されているのではないでしょうか。現在でもJMLの「過去90日間に最もダウンロードされた論文」のトップです。因みに現時点で同ランキングの2位のBarr, Levy, Scheepers, and Tily (2013)も混合効果モデルに関する論文で、変量効果にはデザイン上可能な限り多くのrandom interceptとrandom slopeを入れるべき(maximal modelを使うべき)だと主張するものですが、これにはBaayen氏らが反論論文を出しています(こちらこちらこちら)。しかしそのBaayen氏らの論文にも疑問が呈されており(これこれ)、現時点でも決着のついていない問題です。

Gelman, A., & Hill, J. (2007). Data analysis using regression and multilevel/hierarchical models. New York, NY: Cambridge University Press.

ベイズ統計の大家でStanの開発者でもあるAndrew Gelman氏による回帰モデルの書籍です。私は一部しか読んでいませんが、読んだ部分に関しては、非常にわかりやすかったです。先述したBarr et al. (2013)と同じく、本書もmaximal modelを推奨しています。またこちらも第二版(あるいはそれに相当する後続本)が出るよう2、第二版は二巻セットとなり、それぞれにStanコードが付くとのことです。

続いてGA(M)Mの文献。

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Datamining, inference, and prediction (second edition). New York, NY: Springer.

こちらから一冊丸ごと無料でダウンロードできます。最近邦訳も出版されました。統計的学習の金字塔的な文献で、著者の最初の二名(HastieとTibshirani)は一般化加法モデルの提唱者です。本書は基本的に専門家向けであるため、数式も多く、一般的な言語研究者が読み解くのは容易ではないと思います。しかしテンソル積(tensor product)を用いた平滑化スプラインなど、一般化加法モデルを扱うために必要・有用ながら他書には載っていない事項に関する説明も含まれています。

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in R. New York, NY: Springer.

こちらから一冊丸ごと無料でダウンロードできます。統計学やその関連分野の専門家を対象とした上記Hastie et al. (2009)に対し、本書はそれら以外の分野の研究者(=非専門家)を対象としています。数式フリーとはいきませんが、一般化加法モデルを扱った文献としては比較的読むのが容易な部類に入ると思います。一般化加法モデルを理解するのに必要な平滑化スプラインのセクションを含め、個人的には学ぶことが多くありました。

Zuur, A. F., Ieno, E. N., Walker, N. J., Saveliev, A. A., & Smith, G. M. (2009). Mixed effects models and extensions in ecology with R. New York, NY: Springer.

本書では、生態学分野での混合効果モデルや一般化加法モデル、一般化加法混合モデルなどの使用が扱われています。上記のJames et al. (2013)よりも更に読みやすく、またRコードも多く記載されているため、言語研究者が一般化加法モデルを学ぶ場合、本書から始めれば良いのではないかと思います。また、統計学の研究者以外に向けられた書籍で、一般化加法混合モデルを扱っているものは本書を除き私は把握していません。ただし、本書での一般化加法混合モデルの扱い方はBaayen氏らのアプローチとは違うので、その点に関しては注意が必要です。

Wieling (2014)はこのスライドを指していますが、現在ではよりアップデートされたスライドがここに公開されている(上に随時アップデートされている)ので、そちらを参考にするのが良いと思います。私がLL論文の一般化加法(混合)モデルを用いた分析を行うにあたり、公開されている文献・資料の中で最も参考になったのがこれらのスライドです。言語研究者を対象としており数式は用いていない点、それでいて内容は相当に高度な点、Rコードが多用されている点において、一般化加法(混合)モデルを用いることを考えている一般的な言語研究者にとって有益なスライドであることは間違いありません。惜しむらくはスライドであるため、十分に細部の説明が含まれていないことでしょうか。その点については先述したBaayen (2008)の第二版を待ちましょう。

最後はRで一般化加法モデルを構築する際によく用いられるmgcvパッケージの開発者である、Simon Wood氏のスライドです。氏は最近バース大学からブリストル大学に移られたようで、それに伴い氏のウェブサイトのURLが変わり、私がLL論文の参考文献欄に記した関連URLは既に繋がらなくなってしまっています。mgcv関係のスライドは現在はここからアクセスできます。氏は統計学者ですので内容は専門性が極めて高く、一般的な言語研究者では細部は理解できないと思います。しかしRコードが掲載されていることも多く、またところどころ直感的な説明もあるので、少なくともざっと眺める価値はあると思います。また、スライドとは別資料ですが、mgcvパッケージのヘルプファイルも大変参考になりました。本記事最初の引用部内のWood (2014)はヘルプファイルを指しています。例えば「?summary.gam」のページには、p値の計算方法が詳しく記述されています。

Notes:

  1. http://people.bath.ac.uk/sw283/mgcv/
  2. ただしこのコメントを読む限り、もうしばらくは出なさそうです
Standard

LL論文

昨日のSSLA論文に引き続き、今回はLanguage Learning誌に掲載された以下の論文の紹介&裏話です。

Murakami, A. (2016). Modeling systematicity and individuality in nonlinear second language development: The case of English grammatical morphemes. Language Learning. Advance online publication. doi: 10.1111/lang.12166 [リンクプレプリント] [データやRコード]

本論文は一般化線形混合効果モデル(GLMM)と一般化加法混合モデル(GAMM)を第二言語習得研究者コミュニティーに紹介することを目的としています。SSLA論文同様、本論文も博士論文の章が基になっているのですが、実はこの分析を行うことに決めたのは、博士課程の三年目が終わり、いわゆるwrite-up periodに入る直前(2012年12月)でした。「材料はあるのでとりあえず博士論文のドラフトを書く」というのがクリスマス休暇中の課題だったのですが、書いている内にこの分析を足した方が良い気がして足早に分析を行い、当初は別の章の一部でしたが後ほど一つの章として独立させました。

博士論文の章が基になっているものの、本ジャーナル論文はそこから大幅に変更を加えています。実は博士論文ではGAMMは用いていません。行いたかったモデル比較ができないと思い込んでいたためです。しかしその後に出席したワークショップで当時想定していたようなモデル比較が可能であるということを学び、本論文ではGAMMを用いました。

しかし、そこそこいけるだろうと内心思っていたSSLA論文とは対照的に、この論文がLLに掲載されることは実はほとんど期待していませんでした。LLの2015年の特集号が計量データ分析に関するものでしたが、それ以前に統計手法を中心に据えた論文がLLに掲載された例は近年だと私の知る限りGudmestad et al. (2013)しかなく、この論文もタイトルこそ統計手法の色が強いですが、実際に読んでみると統計以外の内容もしっかりとしている(少なくともそう見える)論文です。つまり私が投稿した2014年時点では統計手法を紹介するという類の論文はLLに掲載されたことがなく、かと言って手法ではなく内容面を中心に据えるにはインパクトが足らないと思っていたので 1、まあ有益なフィードバックがもらえればいいやくらいの気持ちで最初は投稿しました。また当初はmethodological reviewではなくproblem-drivenな研究として投稿しました。上記を鑑み、あまり統計色を前面に押し出さない方が良いのではないかと考えたためです。結果、査読者&Editorに「problem-drivenな実証研究なのか手法面に焦点のある論文なのかはっきりしろ」とフィードバックを受け、なんだ統計手法を中心に据えても良いのかと思い、その後は開き直って統計モデリングを紹介するという主旨の論文に修正しました。それと同時に、それで良いのであれば掲載されるかもしれないとも感じました。

本論文は投稿からオンライン上での掲載まで1年半かかりました。SSLA論文(1年3ヶ月)よりも時間がかかったのは査読が2ラウンドあったためですが、それでもトータルでは割とスムーズに進んだ印象です。1年半の内、8ヶ月ほどはこちらで止めていました。査読者は各ラウンドで3名ずつ(ラウンド2ではラウンド1から1人引き継ぎ)でした。面白かったのが、計5人の査読者の内、2人が記名付きの査読コメントだったことです。話には聞いたことがありましたが、第二言語習得研究分野では珍しいと思います。後日、記名査読だったお二方にお礼のメールをさせて頂いたところ、その内お一人から実験心理学では3-4人の査読者がいれば1-2人は記名であること 2など、色々と面白い話を伺うことができました。

また、査読者の内一名のコメントが専門的ながら非常に的を射たもので、一体どういう方なのだろうかと思いながら読んでいったところ、コメントの最後にお名前を発見しました(上述した記名査読の方の一名)。存じあげない方でしたが、検索すると納得の所属と業績でした。LLでガチガチの統計手法に関するコメントをもらえると思っていなかったこともあって、この査読者を当ててもらえて良かったと感じました。

時系列でジャーナルとの主なやり取りを記すと以下のようになります。

2014年8月4日: 投稿
2014年10月23日: 査読者三人の内、二人がMajor Revision、もう一人がMinor Revisionで総合的にMajor Revision。
2015年1月8日: ほぼ全面的に書き直し(初稿から残ったのは用いたコーパスの説明くらい)、完全に統計モデリングを主眼に据えた論文として修正版を投稿。
2015年1月9日: 「あなたが投稿した114ページに亘る23214語の論文はジャーナル論文ではなくshort monographだ。短くしなさい」という(たいへん真っ当な)指示を受ける。
2015年2月18日: 余剰分の大半をOnline Supporting Informationに移して、他の箇所も削り、なんとか指示された12000語以内に抑えて再投稿。割と長いOnline Supporting Informationが付いているのはこのため。
2015年4月16日: 査読結果の通知。conditional to your satisfying the minor revisions requested in the reviewsでacceptとのこと。前回全面的に書き直していたこともありもう1ラウンドを覚悟していたため、ちょっと拍子けしました。しかし査読者レベルで見ると、Minor Revisionが一人、Acceptが一人、Major Revisionが一人と、結構割れていました。
2015年8月7日: 再度分析からやり直し、修正版を投稿。
2015年9月4日: 「in its current formでacceptする」旨の連絡。
2015年12月3日: Editorからのproofが送られてくる。
2015年12月10日: proofに色々と手を入れて返信。
2016年1月-2月: 出版社(Wiley)よりe-proofが送られてくる→数点修正しe-proofを返信、を3サイクル
2016年2月17日: オンライン上に掲載される

博士論文からは可能であればもう一本ジャーナル論文を出したいと思っています。その部分に関しても予稿集の論文としては出ることが確定しているので、そちらもオンラインに公開され次第、こちらで紹介します。

(追記:2016年11月22日)紙媒体でも公開されたようです

Notes:

  1. 今から考えれば内容面でも勝負する方法はあったと思います
  2. いわゆる「大御所」の研究者ばかりだそうですが
Standard

SSLA論文

ブログをお休みしていた二年間の間に、二本ジャーナル論文が出ました。いずれも博士論文を基にしたものです。 今回は昨年の11月にオンラインで公開された下記論文の紹介並びに裏話です。

Murakami, A., & Alexopoulou, T. (2015). L1 influence on the acquisition order of English grammatical morphemes: A learner corpus study. Studies in Second Language Acquisition. Advance online publication. doi:10.1017/S0272263115000352 [リンクプレプリント]

この研究は私が主に博士課程の一年目から二年目の半ば(2010年-2011年夏)にかけて行ったもので、ケンブリッジ学習者コーパスに基づき、英語文法形態素の習得順序における母語の影響を実証的に検証すると共に、文法形態素によって母語の影響の強さが異なることを示した論文です。第二言語習得論の入門レベルの授業で必ず扱われる文法形態素習得順序研究に位置づけられる研究ということもあり、何人もの方が自身の第二言語習得論の授業で課題論文に挙げると仰ってくださっています。

結果自体は現代では特に驚くべきものではありませんが、大規模学習者コーパスを用いて文法形態素の習得順序が母語によって異なることを示したのは一定の意義があると考えています。また、母語の影響の強さが文法形態素によって異なる点も、博士論文(こちら)では別の学習者コーパス(EFCAMDAT)を用いて再現できていますし(Researchセクション参照)、実在する現象を捉えていると思っています。

こちらの連続ツイートにも記しましたが、私が第二言語習得研究を初めて面白いと感じたのは、学部時代に受講した第二言語習得論入門の授業 1でnatural orderについて学んだ時で、博士論文でそれを扱い、否定することになるとは奇縁を感じます。

本SSLA論文ですが、投稿してからオンラインに掲載されるまでトータルで1年3ヶ月かかりました。しかしこちら側が結構止めていて(inhouse evaluationの後と査読後に計6ヶ月)、査読自体は1ラウンドのみで2ヶ月でした。時系列でジャーナルとの主なやり取りを記すと以下のようになります。

2014年7月下旬: 初稿をメールにて投稿
2014年8月6日: Inhouseで見たが査読に回すには問題が多いので、XX等を改善せよ、と当時のEditorからのメールを受信
2015年1月18日: 修正した原稿をメールにて投稿
2015年2月9日: 査読に回す旨の連絡。査読に回れば50%はacceptされるとのこと。
2015年4月8日: Accept pending final revisionsとの通知。
2015年7月18日: 修正版を投稿。
2015年8月6日: LaTeXで書いていたためここまでの投稿は全てPDF形式で行っていたが、ここに来てWord形式で提出してくれということなので、完全手動でWordに移して再提出
2015年9月25日: proofが送られてくる
2015年10月3日: proofに修正が必要な箇所を送信
2015年11月2日: オンライン上に掲載される

見聞きした範囲内では、これは投稿から掲載まで割とスムーズに進んだパターンかと思います。

この研究は博士論文の中では最も手堅い部分なので、それなりのジャーナルに掲載が決まってほっとしました。次回は本論文と平行して進めていたもう一本の論文について書きます。

(追記:2016年9月1日)紙媒体でも公開されたようです。

(追記:2017年3月2日)本論文はSSLAに出版された中でその年に最もoutstandingであった論文に贈られるAlbert Valdman賞を受賞しました(参照)!

Notes:

  1. こちらに一部が公開されています。
Standard

Tier 2 visaの更新

バーミンガム大学を2015年10月に任期満了に伴い退職し、同月から古巣のケンブリッジ大学にてResearch Associateという職(実態はポスドク)に就いています。現職の研究内容についてはまた追々書くとして、今回は気を揉んだビザ更新の話を。

英国で日本人が働くためには、現在のところTier 2というビザを取得しなければいけません。このビザには「一度切れると向こう一年間は同種のビザを申請することはできない」という規則があり、今回はそれが焦燥の種となりました。

昨年7月時点での状況(と私が理解していたこと)は

  • 当時のビザは10月中旬に失効する
  • 現プロジェクトのPIと現プロジェクトのスポンサー企業の間では、ポスドクとして私を雇うことの合意ができている
  • しかし雇用を含め、プロジェクトに関する契約にはケンブリッジ大学とスポンサー企業双方の弁護士が関わってくる
  • ケンブリッジ大学がポスドクを雇うには、大学とスポンサー企業の間で正式な契約が必要

というものでした。つまり、ケンブリッジ大学とスポンサー企業が正式に契約を結び、その後10月中旬までに私がビザの更新をできなければ、私はケンブリッジ大学でのポスドク職を諦めなければいけないばかりか、少なくともその先一年間は英国で働けなくなる可能性が高いという状態でした。

実はビザ問題に加え、当時はバーミンガム大学での契約は8月末までの予定だったので、「いつ」ケンブリッジでの職を始められるかも大きな関心事でした。しかしこちらはたまたまバーミンガム大学でのプロジェクトで雇用されていたもう一人のポスドクの次の就職先が早くに決まり、彼の残りの任期を私の任期に上乗せしてもらえたため、バーミンガム大学での雇用も10月中旬までとなり、事なきを得ました。しかしビザの期間がそれに伴い伸びるわけではないので、10月中旬までに私がビザの更新を行わなければいけないという点は変わりませんでした。

結論から言えば、大学とスポンサー企業の契約は10月中旬までには締結されませんでした。どちらが良い悪いという話ではなく、弁護士を通した契約とは時間のかかるものなのだと思います。しかし、契約の締結間近であったためそれ以降に覆ることはないだろうと判断され、結局は学科が一旦私の給与等を建て替え、契約締結後にプロジェクトの予算から払い戻すという形で了承されました。文字で書けば数行ですが、渦中にいた身としては落ち着かない日々を過ごしていました。最終的にゴーサインが出たのは10月の上旬で、それから10月12日にバーミンガムでビザの更新を申請し 1、即日許可されました。

またこれには後日談があり、実はビザ申請はもう一ヶ月猶予があったかもしれません。当時のビザは10月中旬に失効する予定でしたが、ビザが失効してもその後一ヶ月間は英国に滞在することができます。私はその期間は国外に退去するための準備期間であり、ビザの申請などはできないと思っていたのですが、後から友人に聞いたところによると、その期間にも申請は可能だそうです(私は未確認の情報です)。更に、これも同じ友人に聞いた話ですが、パスポートなどビザ申請に必要な書類の一部のみでも英国のビザ担当機関に送ると審査が始まるので、その他の書類はその後に求められた時に提出すれば良いらしく、もしそれが可能だとすると一部の書類提出(私の場合は雇用者から発行してもらう必要のあるCertificate of Sponsorshipの提出)を遅らせることができることになります。こういった抜け道は調べなかったのですが、今から思えばこの辺りももう少し調べておくべきだったかもしれません。

Notes:

  1. ケンブリッジ大学がスロットを押さえていたため、大学を通して容易に予約を取れました。通常ルートで都合の良い場所と時間で予約を取るのは難しく、2013年に初めてTier 2ビザを取得した際はケンブリッジからリバプールまで片道4時間以上かけて申請しに行きました。ロンドンやバーミンガムなど立地の良い場所の申請スロットはその多くの部分を大学やビザ申請斡旋企業が押さえているようです。
Standard

ブログ開設

以前のブログに最後に投稿してから二年近くが経ちました。以前のブログは私の留学生活を記録することを目的としていたため、学位授与式に出席してPhDの学位を正式に取得した旨の報告を最後に更新していません。当初はすぐに次のブログを立ち上げるつもりでいたのですが、就職活動等にかまけている間に億劫になり、二年近く経ってしまいました。これではいけないと思い、以前から作ろうと思っていた自分のウェブページ 1を開設するのと同時に、ブログも再開します。

Notes:

  1. ブログやSNSサイトではない自分のホームページを持つのは2000年前後以来です。当時はホームページビルダーで各ページを作り、その時に流行っていたジオシティーズでホストしていました。
Standard