| 要旨トップ | 本企画の概要 | 日本生態学会第65回全国大会 (2018年3月、札幌) 講演要旨
ESJ65 Abstract


シンポジウム S19-3  (Presentation in Symposium)

トピックモデルを用いた野外トランスクリプトームデータの解析

*岩山幸治(滋賀大学, JST さきがけ), 永野惇(龍谷大学)

転写産物であるRNAの配列情報を次世代シーケンサにより決定することで遺伝子の網羅的な発現、すなわちトランスクリプトームを定量するRNA-Seq法の利用が広がっており、大きなサンプルサイズのトランスクリプトームを得られるようになってきている。野外の様々な環境下で収集された、サイズの大きなトランスクリプトームデータを分析することで、複雑に変動する環境に対する応答のメカニズムを遺伝子発現レベルで明らかにできると期待される。
一般に、RNA-Seqでは、読んだ配列の数(総リード数)が多いほど、ノイズの少ない質の高い発現量データが得られるが、コストが増えるために定量できるサンプルサイズが小さくなる。一方、総リード数を少なくすることでより大きなサンプルサイズを同じコストで扱うことができるが、発現量の定量精度は低下してしまう。
総リード数が少ないRNA-Seqデータから遺伝子発現量を精度よく推定し、環境条件との関係を明らかにするため、本研究では自然言語処理の分野で用いられる機械学習の手法であるトピックモデルを用いる。トピックモデルでは、文書データは複数のトピックで構成され、トピックそれぞれは単語の生成分布と関連付けられ、各文書の単語の出現頻度に基づいてこれらを推定する。一つのサンプルを文書、遺伝子を単語と考えることで、RNA-Seqデータにトピックモデルを適用できる。
RNA-Seqのカウントデータは、負の二項分布でよく説明できることが知られている。そこで、各遺伝子のリード数が負の二項分布に従うトピックモデルを提案する。提案モデルにより、総リード数の少ないRNA-Seqデータからでも精度よく発現量を推定できることを示す。また、トピックの出現確率と環境条件の関係をモデリングすることで、トランスクリプトームと環境条件の関係を、トピックを介して明らかにすることを試みる。


日本生態学会