「物理-超伝導+人生=天文学」~FastTextを使ったCond-matのアブストラクト分析~



【イントロ】
今回の記事では、Pythonの自然言語処理ライブラリ、FastTextの一連の利用方法を習得することを目指しました。題材として、Cond-matのアブストラクトの分析をとりあげます。
【方法】
コードはこちらのGithubにあげています。
実行はGoogle colabを利用して行いました。
手順は以下の通りです。
  1. ArxivのAPIを利用して、対象カテゴリの論文のアブストラクトをCSVに保存する。
  2. 収集したアブストをFastTextに読み込み学習させ、単語ベクトルを生成する。
  3. 学習させたモデルを利用して、対象単語の類似単語、単語ベクトルの足し引きをおこなう。
以上です。簡単ですね。
詳細はコードを確認してみてください。
今回、Cond-matのカテゴリとして「Super-con」(超伝導)と「Str-el」(強相関電子系)の2つを1万件ずつ抽出しました。Cond-matの各カテゴリは、月当たり200件ほどアップロードされているので、おおよそ5年分程度の論文数になっています。
他のカテゴリも学習させればもっと賢くなりますね。知性、知性。

【結果】
主だった結果です。
まず、「Cuprates」(銅酸化物)の類似単語を調べてみました。類似単語には擬ギャップ、オーバー/アンダードープといった銅酸化物超伝導に関連した単語が見て取れます。またNickelates(ニッケル酸化物)といった超伝導メカニズムの関連性が指摘される物質の名前も上がっています。

次は、「Graphene」(グラフェン)です。二層グラフェンや、捻りグラフェンといった最近話題のマジックアングルグラフェン関連の単語がみてとれます。またグラフェンを支える基板であるh-BNを表す「Nitride」も関連単語として現れています。NIMSが誇るW&Tの影響力はここにも現れています。
さて、最後に単語ベクトルの足し引きを行ってみました。
「パリーフランス+日本=東京」のように単語の意味合いを維持したまま、異なるベクトルを持つ単語に変換する手法です。
試しに、「物理ー超伝導+人生」を計算してみたところ、最も類似度の高い単語は「天文学」になりました。
つまり、「人生=超伝導+天文学ー物理」、人生とは物理のない超伝導天文学ということですね。どういうことだよ。
他にも色々面白い関係性を探せそうですね。
【まとめ】
FastTextの使い方を学ぶ一環として、Cond-matのアブストを分析(初歩)してみました。
まだまだいろいろ調べられそうです。



コメント

このブログの人気の投稿

学振採用者はどこへ消えた?

物理系研究関係者、ツイッターやりすぎランキング(ぶひん調べ)

オレ達はあと何本論文を書けば東大教授になれるんだ?