【発表】学部4年生 小林君が研究内容を電子情報通信学会 第50回情報論的学習理論と機械学習研究会(IBISML)で発表しました – ‘Potential of Domain-agnostic Encoder for Long-range DNA Sequences’

【発表】学部4年生 小林君が研究内容を電子情報通信学会 第50回情報論的学習理論と機械学習研究会(IBISML)で発表しました – ‘Potential of Domain-agnostic Encoder for Long-range DNA Sequences’

概要: 約13万塩基対分のDNA配列情報から、タンパク質の発現量やクロマチンの構造状態を効率的に予測する際に、「ドメイン非依存エンコーダ」が効果的に機能することを示す実験結果を公表しました。この研究では、Enformerモデルと比較した実験を通じて、PerceiverモデルのCross-Attention機構がDNA配列情報解析に有効に働くことを確認しました。
オミクスデータの解析においては、特徴量選択が行われることが多く、これはモデルの推論精度や解釈可能性を高める目的で用いられます。特定の疾患や形質に与えるDNA中の各塩基の影響力は大きく異なり、DNA配列情報解析においては、データの最小単位である塩基単位での特徴量選択が特に重要な役割を果たすと考えられます。しかし、これまでのDNA配列情報解析における深層学習モデルのアプローチでは、畳み込み機構を利用した局所領域への特徴量抽出が主に行われてきました。本研究では、目的変数への各塩基の影響を考慮しない絶対位置依存の情報集約であると解釈される、これまでの畳み込み機構の使用、そして既存の手法では目的変数の完全な予測が達成できていないという事実から、DNA配列情報解析への畳み込み機構の適用性を再評価しました。