これはブログではない

生物学(主に理論生物学)の論文を書くために読みます

言語埋め込み法を用いる微生物言語の解読と炎症性腸疾患における応用

Christine A. Tataru ,Maude M. David(2020.5, PLOS COMPUTATIONAL BIOLOGY)[Decoding the language of microbiomes using word-embedding techniques, and applications in inflammatory bowel disease]

 

理由

ラボで紹介されてた論文

 

概要

微生物はヒトの疾患から気候変動まで自然現象の理解における重要な役割を果たす複雑な生態系である。特に、ヒトの腸内細菌研究において、臨床サンプルを集めることは難しいが、一つの研究で考慮されている系統の数はしばしば10から100倍のサンプル数を越える。この矛盾によって、サンプル間で意味のある差異を同定するような研究の有効性が下がり、偽の類異性の結果やそれに伴う再現性の限界が増加する。幅広い微生物データが既に手に入るにも関わらず、微生物構造の群特異的なパターンは現在研究に活用されていない。ここでは、埋め込みアルゴリズムを応用することで微生物レベルの特性を引き出し、アメリカの腸プロジェクト(AGP)クラウドソーシングの結果から18000以上のサンプルにおける系統の共生パターンを定量化する。次に、特性や正規化した系統数データ、そして炎症性腸疾患(IBD)と健康な対照群から分類したサンプルにおいて、次元縮退法として他に用いられる主成分分析を用いて学習させたモデルの予測能力を比較する。特性データを用いて学習させた予測モデルが、最も正確、頑健かつ一般的であること、そして特性ベースのモデルが一つのデータにおいて強化され、かつ陽性の結果と互いに配置されることが示された。さらに、特性が既知の代謝経路と有意に相関することが分かった。これらの特性を用いて、2つの完全に独立な研究を横断して、炎症性腸疾患に関連する既知のものと新しい細菌の代謝経路を抽出することができる。事前に学習させた埋め込みのセットを与えることで、v4 16Sアンプリコン研究に公的に知られた特性を応用させ、統計的な能力や再現性、そして解析の一般性を増加させることができる。

 

印象的な図

Fig6. 埋め込み空間と系統の関係

 

雑記

家にあった「英単語の語源図鑑」良い本だと思ったが、絵が多すぎて「本」として時間を取って読むには絵が多くて流し見てしまうため、英文を読むときの英和辞典として使うことにした