化学とAI

調べたことのメモ

【引用】
Is machine learning overhyped?(C&EN)

【ごく概要】
機械学習は過剰に期待されている?
化学者は意見が割れている。
Yes
・機械学習は、実際的には、非線形回帰だ
No
・人間が見過ごすデータの傾向を発見できる

創薬では以下の条件のため、機械学習を活用する動機がある。
・アルゴリズムを訓練するための小分子や生物学的標的に関するデータが豊富にある。
・創薬は人間が理解して推測できるほど単純ではない

Is machine learning overhyped?
・Strongly Agree 13.9%
・Agree 31.8%
・Disagree 24.5%
・Strongly Disagree 7.9%
Not Sure 21.2%

【所見】
ハイプサイクルの頂点と谷?
いずれは適切な評価を受けるようになるということか。

【引用】
Polymer Informatics: Opportunities and Challenges
Macro Lett. 2017, 6, 1078-1082

【ごく概要】
マテリアルインフォマティクス(MI)は、無機材料や低分子材料に適用されている。
しかし、ポリマーでは、MIを導入する前に対処しなければならない重要な課題がある。

ポリマーインフォマティクスの最大の課題はデータベースの欠如。
論文からデータを自動抽出する方法に期待。
低分子化合物用には、熱力学データやNMRピークを抽出するツールがある(J. Chem. Inf. Model. 2016, 56, 1894-1904)。

ポリマーデータベースの課題
・単一化合物ではない(混合物であり分子量分散や分岐構造もある)
・命名法が統一されていない(同一ポリマーに複数の呼び方があり、例えばポリスチレンは少なくとも1800以上の方法で命名できる)
・物性値には測定法依存のものがある
依存なし:密度、粘度、熱容量
依存あり:引っ張り強度、Flory−Huggins χ

【引用】
Predicting reaction performance in C–N cross-coupling using machine learning
Derek T. Ahneman, Jesús G. Estrada, Shishi Lin, Spencer D. Dreher, Abigail G. Doyle
Science, 2018, 360, 186

【ごく概要】
機械学習は自動運転など様々な分野で利用されている。
しかし、化学分野へ応用された例は少なく、特に有機化学ではまだ一般的ではない。
その理由は、化学反応は様々な要因が影響するためにパラメータが大量になり、その場合は機械学習でモデルを構築するために必要なデータが等比級数的に増大してしまうためである。
この課題に対して、ハイスループット合成装置を活用して力業で克服するアプローチをとった(4608実験)。

記述子は、Spartanで計算した原子、分子、振動スペクトル。
線形モデル、kNN、SVM、Bayes GLM、Neural Network、Random Forestを比較するとRFが最も精度の高いモデルであった。
パラメータの重要度の高い添加剤のC3位NMRスペクトルから、反応機構的考察もできた。

【引用】
医療の研究を阻む壁? 生命システムの「複雑さ」(JBPRESS)

【所見)
 論文から得たデータは信頼性が低い?
 データベースの質が低くなってしまう。

【ごく概要】
 創薬に関する論文の再現性が低いという問題がある。
 2011年にドイツの製薬会社バイエルが創薬ターゲットに関する論文を社内で追試すると、3分の2は再現性がないという結果を発表した(Nat. Rev. Drug Discov. 2011, 10, 643-644)。また、2012年にされた別の報告では、1000回を超えて引用されたがんに関する主要な論文53報を追試すると、再現性があったのはたったの6本だった(Nature 2012, 483, 531-533)。
 標準治療の効かない割合が高いため。

【引用】
AIで材料開発(日経エレクトロニクス)




【ごく概要】
<特許>
日本では化合物特許は実際に合成して見せなければ取得できないが、アメリカでは計算しただけで取得できる。
日本の素材メーカーにとっては脅威。

<MI受託サービス>
日立製作所やMI-6はMI受託サービスを開始した。
顧客はデータを提供し、サービス提供者は最適な予測モデルを構築して、逆問題を解いたり実験条件を提案する。

<MIの課題>
最大の課題はデータが足りないこと。
→実験結果の写真を全層畳み込みニューラルネットワークを使って細部の特徴を分類してMIで利用可能なデータに変換する。

<AI技術の使い分け>
まずは十分なデータ量の有無で分けられる。
ディープラーニングは特徴量(記述子)を自動抽出できる優れた技術だがデータが大量に必要。
データが少ない場合は、高精度な予測モデルを構築するよりも、所望の特性を備えた材料を見つけるまでの検討数を減らすためにベイズ最適化を利用する方法もある。
記述子の多少によっても適切なAI技術が変わってくる。

<記述子の選択>
何を記述子とするかによって結果が左右される。
従来の知見を活かすことが近道の場合もあるが、実は重要と考えられていた因子が重要でない場合もある。
従来考えられていなかった因子が重要なこともある。
当初はやや多めに記述子を選んでおき、モデル最適化と同時に記述子の
最適化もするのがいい。

<ベイズ最適化>
当初はデータ量が少ない場合、暫定的なモデルを立てて実験数を増やしてモデルの精度を上げていく。
その過程で、平均値+不確実性の幅の値が最も大きい領域に、求めたい特性の最大値が含まれている可能性が高くなる。
次の実験ではこの可能性が高い領域を調べる。
これを繰り返すことで少ない実験回数で所望の結果を得ることができる。
ベイズ最適化を使えば、実験数は数分の1に削減できる。

【引用】
リリー・ペン(グーグルAIプロダクトマネジャー)インタビュー(週刊ダイヤモンド)

【所見】
化学でも同様のことが言えるのだろう。

【ごく概要】
(網膜画像から心血管リスクを予測することに関して)
人間は大きな傾向を捉えることができるが、小さな変化の積み重ねを捕らえることが苦手
小さな変化の積み重ねが、全体として大きな影響を及ぼす可能性があり、AIはこれを捉えるのが得意。

体温計は医師の代替にはならず、AI医療も同じ。
AIを活用した医療は医師にも患者にも有益。

【引用】
既得権者が甘い蜜を吸うだけの日本AIに未来はない~“資金の補給路なし” 負け戦と認識せよ
マッキンゼーいくくらいなら、AI学んで起業せよ ~「外コン・外銀志望者もAI勉強すれば半年でトップレベルに」

【抜粋】
音成:それにしてもこれほど日本の社会へのAI導入が進まないことの、根本的な原因は何なのでしょう? 個々の会社に多少の投資余力があったとしても、判断を行う経営層にAIリテラシーがないとか。

松尾:そうですね、日本企業の経営者の勉強不足です。「経営者は技術のことを分からなくてもいい」といった甘えがはびこっている気がしますね。

松尾:客観的に見ると、私の研究室なんて、米中という二大大国に挟まれた小国かつ後進国の中の一研究室です。そう考えると、日本がこの両国のマーケットにリーチするための窓口を作る動きをするのは当然で、我々は今、日本と中国の企業をつなぐ活動をしています。

プライドは捨て、こちらが向こうの技術を真似するのです。GoogleやFacebook、テンセントなどが出した技術や論文を真似して実装し、日本にローカライズさせること。そして優秀な人間は米中に行き、現地でビジネスをして活躍することが必要です。

音成:これまで、AIなど技術を活用した起業は理系出身の学生が中心だったと思いますが、今後は、外資就活ドットコムのユーザーに人気の外資系投資銀行や外資系コンサルティングファームを志望するような、特に文系出身の人間も「AI業界」に参入していくでしょうか?

松尾:それはあると思います。現在のディープラーニングの状況は、1990年代後半の「インターネット」みたいな状態です。つまり当時は、HTMLファイルを書くことができてウェブサーバーを立てられれば、企業からホームページ作成の注文がたくさん来ました。

でも当時、そのHTMLファイルを書くとかウェブサーバーを立てるために、何か特殊技能が必要だったかというと全く不要でした。ディープラーニングも同じなわけです。特殊技能ではなく、時代感を読み取り、技術が切り開く先の世界に一歩踏み出す力が必要なのです。

今の段階で全くAIの知識がない、投資銀行やコンサル志望者でも、勉強したらあっという間ですよ。半年とか1年でトップレベルに近いところまでいけます。その上で自分が切り込みたい領域を決めて、仲間を集めて起業すれば、非常に大きなバリューを生み出せます。

松尾:私の研究室もディープラーニング講義など開催していますが、あれも英語圏だと通用しません日本語圏のレベルが低すぎるので、当たり前のことを当たり前に提供するだけで、「すごい」と言われる。嬉しいけど悲しい、そんな複雑な感情ですね。

【引用】
Planning chemical syntheses with deep neural networks and symbolic AI
Marwin H. S. Segler, Mike Preuss & Mark P. Waller
Nature, 2018, 555, 604

【ごく概要】
Reaxys中の1240万の1段階反応のうち、2組のルールを抽出した。
ひとつは50回以上報告された高速ルール。もうひとつは3回以上報告された拡張ルール。
それぞれは1.7万種、30.2万種のルールからなり、全反応の52%、79%をカバーする。
反応位置を推定するための高速ルールと、最適候補を選択するための拡張ルールとして使い分ける。

モンテカルロ木探索とニューラルネットワークを組み合わせた反応経路探索を構築した。

ドイツと中国の研究機関に所属する45人の大学院生に対し、二重盲検法によるテストを実施したところ、論文報告ルートよりも本論文のルートが有意に好まれる結果となった

本論文の方法を使えば、誰でも論文レベルの逆合成ルートを構築できる

課題としては、天然物合成レベルの冗長な合成ルートは、トレーニングデータが少ないために予測精度が低い。
また、立体化学の信頼できる予測も不十分である。

【引用】
Machine intelligence decrypts β-lapachone as an allosteric 5-lipoxygenase inhibitor
Artificial intelligence seeks out new anticancer drugs

【ごく概要】
AIを用いて、β-lapachoneを腫瘍においてしばしば過剰発現する酵素の阻害剤として同定した。

molecular dockingは計算コストが高いが、AIを利用すれば10分以下で判定できる。

将来、人工知能が新しいリガンドと薬物候補の探索と開発に不可欠になる。
AIによって、シミュレーション、実験計画、キャラクタリゼーションは統合され、実験室は全く様変わりするだろう。

【引用】
Machine Learning Approach for Prediction of Reaction Yield with Simulated Catalyst Parameters
Akira Yada, Kenji Nagata, Yasunobu Ando, Tarojiro Matsumura, Sakina Ichinoseki, and Kazuhiko Sato
Chem. Lett. 2018, 47, 284–287

【ごく概要】
過酸化水素を用いたアルケンのタングステン触媒エポキシ化の反応収率予測。

数字

ホスホン酸が反応収率と相関すると予想した。
ホスホン酸のHOMO-LUMOエネルギーギャップ、NBO電荷、ホスホニル基[-P(= O)(OH)のIR振動数と強度(DFT計算)を分子記述子として利用した。
一般的には、Finger print、クーロンマトリックス、等が使われることもある。

ホスホン酸14種を含む30のデータからLASSOによるロジスティック回帰分析を行い、二乗平均平方根誤差(RMSE)値が5%の回帰式を得た
予測性能を評価するために、未検証ホスホン酸触媒を用いて実験収率と予測収率を比較したところ、RMSE値は26%であった。

↑このページのトップヘ