トピックモデルの論文が出ました

トピックモデルをコーパス言語学コミュニティーに紹介することを目的とした下記の論文がCorpora誌に掲載されました。オープンアクセスですので、どなたでもご覧頂けます。

Murakami, A., Hunston, S., Thompson, P., & Vajn, D. (2017). ‘What is this corpus about?’ Using topic modelling to explore a specialized corpus. Corpora, 12(2), 243–277. doi:10.3366/cor.2017.0118 [リンク]

本論文は2013年8月から2015年10月まで勤務していたバーミンガム大学でのIDRDプロジェクトの成果の一部です。プロジェクトも中盤に差し掛かった2014年の春頃に、プロジェクトミーティングで頻繁に「トピック」という語が出てくるようになり、当時名称を聞いたことがあった 1程度のトピックモデルが使えるのではないかと思って調べてみたことと、プロジェクトメンバーの一人が発表した学会で計算言語学系の研究者にトピックモデルを薦められたことが、本手法を用いるきっかけとなりました。

本論文ではトピックモデルの直感的な説明の後にGlobal Environmental Changeというジャーナルに1990年-2010年に出版された論文を対象にトピックモデルを構築し、論文内でのトピックの遷移(例えば論文の前半で顕著なトピック vs 後半で顕著なトピック)、ジャーナルの時系列変化(1990年→2010年で扱うトピックがどう変わったか)、異なるトピック構造を持つ論文の特定(例えば特定のトピックのみを扱った論文 vs 複数の主題がある論文)、語の多義性解消を事例研究として扱っています。更に意味タグとキーワード分析というコーパス言語学ではより伝統的な手法との比較を行っています。トピックモデルは文脈を考慮に入れないbag-of-wordsアプローチであるにもかかわらず、比較的直感的な結果が出ているのが面白いところです。

なお、本論文がオンラインに掲載される一週間ほど前に、ランカスター大学のAndrew Hardie氏がトピックモデルの使用を批判する基調講演をCorpus Linguistics 2017で行っています。本論文にも言及されていますし、こちらも併せてご覧ください。

本論文に関わるジャーナルとのやり取りは以下のように進行しました。

2015年10月7日: 投稿
2015年10月20日: 長すぎるので1万語以内に抑えるようにとの指示を受ける
2015年11月2日: 1万語まで削って再投稿
2015年12月14日: 査読結果の通知(minor corrections × 2人)
2016年1月28日: 修正後に再投稿
2016年1月29日: Accept通知
2017年4月〜7月: proofの確認や微修正等々を数ラウンド
2017年8月1日: オンラインに掲載される

Notes:

  1. 松浦さんのブログを通してだと思い込んでいましたが、トピックモデルに関する記事の投稿日を確認したところ2015年初頭だったので、私の記憶の誤りのようです。追記:これはブログを引っ越されたからであるとご本人に伺いました(下記)。ご指摘ありがとうございました。元の記事は2014年2月のものとのことで、私がトピックモデルを初めて知ったのはやはり松浦さんのブログを通してだと思います。 それはそうと、松浦さんのブログのこの記事の②の図はトピックモデルを直感的に理解するのに非常に役立ちました。改変版を学会発表等でも使用させて頂きました。
Standard