【概要】
特許データを seq2seq モデルで学習して逆合成解析できるシステムを作製した。
seq2seq モデルは end to end で学習するため、ルールベースのモデルより利点がある。
機械翻訳と類似の手法。
seq2seq モデルを反応予測(逆合成解析)に応用した最初の事例。

Retrosynthetic reaction prediction using neural sequence-to-sequence models

特徴
「目標化合物」と「反応タイプ」のふたつを指定して逆合成解析する。

データベース
Lowe の USPTO データベース。
単一の生成物ができるように前処理した。複数の生成物ができている反応は、生成物ごとに分割した。

アルゴリズム
seq2seq (bidirectional LSTM, beam search, attention mechanism)

特徴量
SMILES を利用した。
SMILES は反応前後で反応箇所以外は文字列が維持されるため、シーケンスからシーケンスへのマッピングタスクが簡単になる。
InChI を使うと精度が低下した。

結果
seq2seq を利用した本論文の方法は、保護反応や脱保護反応などで優れていた。これらの共通点は反応前後で大きな原子団が消えていることで、このような反応は反応中心に注目するルールベースのモデルは精度が低い。
一方で、本論文の方法は複素間の形成反応は精度が低い。これは反応前後で SMILES 文字列が大きく変わるため。

SMILES モデルのエラー分析
(1) SMILES の文法が無効。
(2) SMILES の文法は有効だが、置換位置などが変わっているなど化学的に間違い。
(3) SMILES の文法や化学的にも正確だが、データセットと一致しない。

Discussion
seq2seq モデルは反応前後の化合物を SMILES で読み込んで end to end で学習するだけで、ルールベースモデルと違ってルールを作成する必要がない。
seq2seq モデルは分子全体の情報を読み込むため、基質特異的な反応の特徴も学習できる。ルールベースのモデルでは反応中心に注目したルールをもとに反応予測するため、反応中心から離れた位置の情報を考慮しにくい。

【所見】
逆合成解析とはいっても、反応タイプの指定が必要であったり、1段階反応にしか対応していない。

【引用】
Bowen Liu, Orcid, Bharath Ramsundar, Orcid, Prasad Kawthekar, Jade Shi, Joseph Gomes, Quang Luu Nguyen, Stephen Ho, Jack Sloane, Paul Wender, Orcid, and Vijay Pande*
ACS Cent. Sci. 2017, 3, 10, 1103–1113