こんにちは。 コンピューティング研究所ゲノムAIチーム 村上勝彦 です。 説明可能AI(XAI)とナレッジグラフを使った世界初の融合遺伝子むけXAIを開発し、がん専門誌 Cancers (Basel) (Impact Factor 5.2)に論文
を掲載しましたので、その技術を紹介します。本内容の概要については、共著である東京大学医科学研究所からもプレスリリースが出されています。このBlogでは、技術的な部分について少し詳しく書くことにします。
- がんゲノム医療における融合遺伝子解析と説明可能なAI(XAI)の重要性
- ナレッジグラフを活用した説明可能なAI(XAI)の開発 ~世界トップの予測精度とがんの発生メカニズムに基づく説明性を実現~
- 開発したXAIの性能評価
- おわりに
がんゲノム医療における融合遺伝子解析と説明可能なAI(XAI)の重要性
がんの発症と進行には、様々な遺伝子変異が関与していることが知られています。従来、特定の遺伝子における一塩基変異や欠失、挿入など、遺伝子の読み取り方に影響を与える小さな変化が注目されてきました。しかし近年、全ゲノム解析技術の進展により、遺伝子融合という現象もがんの重要な原因の一つとして認識されるようになってきました。遺伝子融合とは、本来別々であるはずの遺伝子が異常に結合して融合遺伝子という全く新しい遺伝子を形成する現象です。この融合遺伝子が生み出すタンパク質が、細胞の正常な機能を乱し、がんの発症や進行を引き起こすことがあります。しかしながら、ある患者に観察された融合遺伝子ががんの原因であるかを解析することは、複雑で時間がかかり、高度な専門知識を必要とするため、効率的かつ正確な解析方法の開発が急務となっています。
この課題に対処するアプローチとして、AIによって重要な融合遺伝子に解析対象を絞る「病原性予測」が注目されています。AIは膨大なデータを効率的に処理し、人間の専門家を支援する役割を果たします。
しかしながら、AIの導入には新たな課題も生じます。特に、説明可能なAI(XAI)の重要性が近年強調されています。医療現場での信頼性を確保するためには、AIの判断プロセスを透明化し、ブラックボックス問題を解決する必要があります。
ナレッジグラフを活用した説明可能なAI(XAI)の開発 ~世界トップの予測精度とがんの発生メカニズムに基づく説明性を実現~
我々のチームがこの問題に取り組む以前に、富士通では、複雑なデータ間の関係を理解し、高精度の予測とその理由を説明できる人工知能技術(DeepTensorアルゴリズム)を開発していました(Maruhashi, Kojiほか. 「Learning Multi-Way Relations via Tensor Decomposition With Neural Networks」. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 32, no. 1, Apr. 2018)。我々のチームは、この技術を基盤に、専門知識を体系化したデータ(ナレッジグラフ)を組み込むことで、より賢く学習し、高い精度で予測を行い、さらにその判断理由を明確に説明できるシステムを開発しました(プレスリリース ; Fuji, etl al., 2018)。さらに、その応用として、がんでメジャーな変異タイプである一塩基変異に対する病原性予測XAIを開発しました(Abe et al., 2023)。
今回、Deep Tensor技術を活用し、融合遺伝子の病原性を高精度に予測し、さらに予測に寄与した特徴量を解釈し文章で予測理由を説明できるXAIを開発しました(世界初の融合遺伝子向けXAI)。このために、融合遺伝子解析のためのナレッジグラフを新たに構築する必要がありました。そこで、世界トップクラスの医学研究者らと共同研究チームを組み、タンパク質機能ドメインなど融合遺伝子解析に必要な情報を選別し、有用性の検討を繰り返した結果、予測や説明に有効な形で表現されたナレッジグラフを構築出来ました(図1)。
さらに、予測の理由と関連文をLLM(GPT-4)に入力することで、文章生成を行い、解釈を容易にしています。これにより、専門家にとって理解しやすくなり、実用性が高まります。LLMへの入力には、あらかじめ用意したテンプレートを用いて生成したプロンプトを使います。
私たちの技術の核となるのは、まず、学習と説明に利用する独自のナレッジグラフです。このナレッジグラフには、通常のゲノム情報に加えて、融合遺伝子で変異と疾患の因果関係をつなぐために重要となるタンパク質機能ドメイン情報が付加されており、予測精度の向上に大きく寄与するばかりでなく、説明に使われます。次に、大規模言語モデル(LLM)との連携により、AIの判断根拠を自然言語で説明する機能を実現しています。この説明生成メカニズムにより、AIの判断プロセスの透明性が大幅に向上しました。
開発したXAIの性能評価
ベンチマークセットによる予測精度で世界トップレベル
我々は、2つの評価実験を行いました。 実験1では、Dataset A(Cosmic Fusion Export (v97)を正例、正常細胞で観察された融合遺伝子を負例)について10分割交差検証を実行し、評価をしました。その結果、ChimerDriver (既存技術での世界トップ)と同じ正解率 (98%)でした。 実験2では、Dataset Aで学習し、それと独立な事例であるDataset B でテストをしました。結果として、本技術のF1スコアは84.5%であり、ChimerDriver の83.2%を超えました。上記を総合すると、世界トップレベルの予測精度といえます。
説明性の評価(体内で起こる現象の因果関係と整合する説明がなされていることを事例検討で確認)
XAIの重要な特徴である説明機能については、具体的な融合遺伝子ケースを用いてその有効性を確認しています。図2の事例では、融合遺伝子 KIF5B::RET に対して、AIが着目した特徴量が3つ(左下のBasis)あることが示され、特に Pkinase(キナーゼドメインを示す)が大きな数字になっています。これだけでは慣れないとわかりにくいため、大規模言語モデルを用いた文章の説明も(右側)が出力されます。この説明部分では、「この融合遺伝子がキナーゼドメインの恒常的活性化をもたらし、細胞の増殖を経て癌化にいたる。」という文章により、予測理由や根拠を、がんがすすむ現象の因果関係とともに明確に示すことができます。これらの説明は、専門家にとって理解しやすく、臨床的にも意義のある情報を提供しています。
おわりに
本技術は、がんゲノム医療に大きく貢献する可能性を秘めています。診断精度の向上や治療選択の最適化だけでなく、新たな研究知見の創出にも寄与すると期待されます。さらに、この技術は他の遺伝子関連疾患への応用も可能であり、医療AI全般における説明可能性の重要性を示す好例となるでしょう。
しかしながら、今後も取り組むべき課題は存在します。説明性において有効性を確認した事例の数は十分でなく、様々ながんの事例でうまく機能するかどうかを調べる必要があります。さらに、融合遺伝子を伴わない他のタイプの構造異常についての病原性予測は、今後の重要な課題です。
近い将来のゲノム医療では、全ゲノム解析がますます重要になります。そこでは、一塩基変異のみならず、大きな染色体異常にも繫がる構造異常も網羅的に同定できるようになります。その場面で、本技術が多く貢献することになるでしょう。
我々は上記の課題に取り組みながら、本技術をさらに発展させ、全ゲノム解析に対応したがんゲノム医療の進歩に貢献していきたいと考えています。XAIによる融合遺伝子解析の進化は、より精密で信頼性の高い医療の実現に向けた重要なステップとなるでしょう。