RMAL誌に単著論文が掲載されました

“Towards more appropriate modelling of linguistic complexity measures: Beyond traditional regression models”と題した単著論文がResearch Methods in Applied Linguistics誌に掲載されました。本論文は、“Decision-Making in Selecting, Compiling, Analysing and Reporting on the Use of Corpora in Applied Linguistics Research”という特集号に収録されています。論文はオープンアクセスで公開されており、こちらからご覧いただけます。また、RコードはこちらのOSFレポジトリにてダウンロード可能です。

【概要】

本研究では、統語的複雑性の指標を分析する際に、線形混合効果モデルやANOVAを含む、正規分布を仮定する従来の回帰モデルを用いることの妥当性を批判的に検討しました。統語的複雑性の指標は、節数/文数のように、カウント変数の比率として表されることが多くあります。しかし、従来の線形回帰は、このような指標の特性を十分に考慮していないため、構造的に忠実(structurally faithful)とは言えないモデルとなり、様々な問題を引き起こしかねません。

具体的には、正規分布を仮定した回帰モデルを使用すると、例えば以下のような問題点が考えられます。

  • 理論的な上限・下限を考慮に入れない。多くの統語的複雑性の指標は、理論的に上限や下限を持ちます(例えば、負の値を取ることがない、等)。しかし、従来の線形回帰ではこの点が考慮されないため、予測区間が理論的な下限を下回るような状況が生じ得ます。
  • 分母のカウント数による標本変動性(sampling variability:標本間のばらつきの大きさ)の差異: 比率を構成するカウント数(例えば、2/10と6/30)が異なると、標本変動性も異なります。これにより、カウント数と残差の標準偏差との間に強い負の相関が生じ、等分散性の仮定が満たされない可能性が上がります。

そこで本研究では、上記の問題が起こり得るのを実データを用いて示すと共に、後者に関しては、実データに基づく人工データを用いたシミュレーションを行い、異分散性が推論に与える影響を検証しました。具体的には、従来の回帰モデルと、対数変換を行い分母で重み付けをした回帰モデル、そして負の二項回帰モデルの3種類の回帰モデルを、検定結果と信頼性区間が真値を含む確率の2つの指標を用いて比較しました。

その結果、真の効果が0で2群の分散が異なる場合、対数変換と重み付けを行った回帰モデルと負の二項回帰モデルは、従来の回帰モデルよりも第一種過誤率と、80%信頼性区間の真の値の包含率において優れていることが示されました。また、真の効果が小さく2群の分散が異なる場合には、対数変換と重み付けを行った回帰モデルが他のモデルよりも良い包含率を示しました。しかし、効果が大きい場合には、どのモデルでも包含率は低い結果となりました。

カウントに基づいた変数は、第二言語研究(例えば、CAF指標)やコーパス言語学(例えば、コロケーション指標)で広く使用されており、現在はその多くが線形回帰モデルで分析されているため、それらの分析方法の見直す必要があると言えそうです。またその結果、場合によってはそれぞれの指標に特化した統計モデルの開発にも取り組む必要が出てくる可能性もあり、その際には統計学など他分野の研究者との共同研究も必要になるのではないかと考えています。

以上から明らかなように、「重み付け回帰や負の二項回帰を用いれば全ての問題が解決する!」という単純な話ではなく、L2研究やコーパス研究が扱う変数に適した(structurally faithfulな)モデルを模索していく必要性を本論文では主張しています。そのため、「これが適切なモデリングだ!」と断言するものではなく、タイトルにおける最も重要な語は”towards”です。1

【きっかけ】

本論文のきっかけは10年以上前に遡ります。JSLWの2014年の特集号には、同じコーパスを用いてさまざまな指標を分析した研究が収録されています。その中で、複雑性の指標を分析した研究では有意な発達が報告される一方で、正確性の指標を分析した研究では有意な発達が見られなかった、という結果が示されました。この事実を基に、Connor-Linton and Polio (2014) はL2ライティングでは複雑性が正確性よりも先に発達する旨を記しています。2

しかし、これらは複数の研究をまとめた結果であるため、単一の研究内で複雑性と正確性の発達を直接比較しようと思い立ったのが2014年頃のことです。その研究結果はLearner Corpus Research (LCR) 2015で報告しましたが、その過程で「そもそも複雑性と正確性をフェアに比較することは可能なのか」という疑問が生じました。

例えば、ある英作文で過去形の-edの正確性をTLUスコアを用いて計算する場合を考えます。このとき、作文が1語増えたとしても、その語が過去形の-edやそれを用いるべき語(obligatory context)でなければ、TLUスコアは変わりません。一方で、平均文長などの長さを基準とした複雑性の指標の多くは、作文が1語増えるとその値も変化します。つまり、テキストの一定単位(例えば語)が持つ情報量(の平均値)が、指標によって異なると言えます。

このように考えると、ある指標が有意差を示し、別の指標が非有意だった場合でも、その差が当該指標が表す構成概念の発達や差の有無を示しているとは限りません。単に、それらの指標のテキストの変化に対する感度の差を反映している可能性があります。従って、前述のように複雑性の指標が有意で正確性の指標が非有意だったからといって、複雑性の方が先に発達すると結論付けることはできないのではないかと考えられます。3

発達を捉えられる指標とそうではない指標の差の少なくとも一部は、それらの指標のテキストの変化に対する感度の差によって説明できる可能性がある、という考えは面白く、それを実証しようと考えました。2015年末頃には、この差が複雑性や正確性の指標を計算する際の分母に現れている(例えば、平均文長は語数/文数で計算されますが、文数が大きければ指標がより感度が高くなる)と考えました。指標間にも同様のことが言える(分母が大きい傾向にある指標ほど感度が高くなる)と考え、簡単な分析を試みたものの、当時はどのようにそれに統計的にアプローチすればよいのかわかりませんでした。

その後、しばらくこの問には取り組んでいなかったのですが、2018年に現職に着任し、その後、Murakami (2020) として出版されたブックチャプターの案を考えている際に、(具体的な経緯は忘れたのですが)この問と関連する問題を再び考えることになりました。対数線形モデルなどを調べる中で、ポアソン回帰(や負の二項回帰)とオフセットを用いることで、この問題を表現できることに気付きました。その結果、Murakami (2020) では、それらのモデルを用いて分析を行いました。4

続いて、2021年にミシガン州立大学のSLSプログラムでの勉強会(Donuts & Distributions)において、シミュレーションに関する講演をオンラインで行いました。この講演では、複雑性の指標の分析における負の二項回帰モデルと正規分布を仮定する回帰モデルをシミュレーションで比較しました。その後、LCR 2022で同じトピックで発表した後、RMALの先述の特集号のCFPを見て、締め切りを利用して(取り組まざるを得ない状況に自分を追い込んで)この研究を書き上げようと考え、アブストラクトを提出することにしました。

【その後の経緯】

  • 2023年7月:アブストラクトをゲストエディターに送る
  • 同年同月:アブストラクトがアクセプトされた旨の通知
  • 2024年2月:フルペーパーを投稿
  • 2024年3月:査読結果の通知(査読者は2人)
  • 2024年6月:修正版を投稿
  • 2024年8月:査読結果の通知(査読者は同じ2人)
  • 2025年1月:修正版を投稿→翌日にアクセプト

著者側でかなり止めてしまい、その結果、催促に対する謝罪メールを書くスキルが上がった気がします。5 進行が滞っていたのは、初回の査読後の修正に手間取ったことに加え、2度目の査読後の修正に取りかかる時間が、授業や採点に追われて取れなかったためです。2度目の査読結果は昨年8月に受け取っていましたが、修正に着手したのはクリスマスイブで、作業日数は10日ほどでした。6

査読コメントについて言えば、両査読者とも本研究の重要性や妥当性に関しては、ほとんど言及がありませんでした。しかし、現在のL2研究やコーパス研究で用いられている統計分析の水準を考慮すると、本研究で採用した分析手法やシミュレーションの手順は、多くの読者にとって馴染みが薄い可能性が高い上、論文自体が長く、ほとんどの読者にとって理解が難しいのではないか、との指摘が両査読者からありました。

ただし、査読者間の意見には大きな差があり、1人は「このままでは大半の読者には理解されないだろうが、幾つか微修正してくれればOK」とする一方で、もう1人は「多くの読者に理解されないので、分析などを簡略化するか、論文を複数本に分けるか、あるいはCUPのElementシリーズのような他の出版媒体を検討すべき」というスタンスでした。論文の修正は主に後者の査読者を念頭に行わざるを得えません。当初はベイズ統計の枠組みで分析を行っていましたが、頻度主義の手法に変更し、非線形を加えたりやめたりと、査読の過程で分析手法にいくつか大きな変更を加えました。

私としては、今回の論文は主にL2研究・コーパス研究の計量手法の方法論者を主な想定読者としており、多少読者を選ぶのは仕方がないと考えています。また、技術面から批判的に読むのでなければ、(L2研究やコーパス言語学を基準として)高度な統計の知識がなくても概ね内容を理解できるように書いたつもりです。それでも、査読者の1人が想定する「理解しやすさ」の基準には最後まで達していなかった可能性があります(最終的には査読者に戻っていないため、厳密にはわかりません)。このように、読者を選ぶであろう手法の研究に対する査読者間の違いを当事者として観察できたのは面白い経験でした。

  1. 以前『◯◯への挑戦』という書籍を上梓された先生が、「あくまで挑戦だから」という旨のことを仰っていたことが思い出されます ↩︎
  2. 相当マイルドな言い方で、強い主張ではありません ↩︎
  3. それとは別に「有意と非有意の差自体が有意とは限らない」という問題もありますが、それはここでは置いておきます。 ↩︎
  4. 実は、このあたりの話はすべて久保先生の緑本に載っていることに、昨年頃になって気付きました。出版直後に読んでいたので、もっと早く気付くべきでした。また、当時同僚がコーパス分析にポアソン回帰を推していたことにも影響を受けたと思います。 ↩︎
  5. それに加えて生成AIのおかげでだいぶ効率的に謝罪ができるようになりました ↩︎
  6. しかしこの研究に集中できる10日間を授業期間中に捻出するのが至難の業です・・ ↩︎
Standard

Leave a Reply

Your email address will not be published. Required fields are marked *