| | 要旨トップ | 目次 | | 日本生態学会第73回全国大会 (2026年3月、京都) 講演要旨 ESJ73 Abstract |
一般講演(口頭発表) M01-08 (Oral presentation)
塩基配列に基づいてそのDNAの宿主生物を推定するのは、DNAバーコーディングやメタバーコーディングの根幹をなすステップである。現在使用されている方法は、単純ベイズ分類器かそれに類する機械学習アルゴリズムと、参照データベースからBLASTなどの類似性検索によって得られる既知塩基配列に基づいて同定する手法に大別できる。前者は処理速度を優先し、後者は対象分類群や遺伝子座が限定されないことや正確性を重視している。また、前者はマーカーとなるゲノム領域に限定された高品質の参照塩基配列を教師データとして要求するが、後者は分類群情報を持っていればどのような参照データベースでも使用可能である。将来的にはトランスフォーマーなどのより高度な深層学習法が使用される可能性が高いと思われるが、参照データベースが巨大で現在も肥大化し続けているため、当面は両者の改善が現実的な方策となる。今回、演者は大規模言語モデルを用いたプログラミングを補助する生成AIを利用して、速度と正確性の両立を目指した新しい塩基配列類似性検索法を実装した。全文検索分野では標準的に使用されている転置索引をk-merと組み合わせた本手法は、転置リストが巨大になるものの、辞書は現在の計算機では主記憶に収まるように設計されている。転置リストへのアクセスは、高速なSSD上に配置することで補うことができる。しかし、参照塩基配列内の出現回数と出現位置を省略しているため、配列としては類似していない染色体レベルの参照塩基配列が、短いクエリ塩基配列にk-merの有無では類似してマッチしてしまう。この問題に対しては、長い配列を数百塩基の重複を持たせて短く分割することで対処した。DNAバーコーディングやメタバーコーディングでは短い塩基配列クエリしか使用しないため、このような対処が可能となる。本発表では、この手法の実装について概説し、現実の塩基配列検索に適用した結果を報告する。