機械犬のまなび:化学×機械学習

ケモインフォマティクスを活用する化学企業の研究者です。新しい分野のため、ネット上に勉強しやすい情報が少なく感じました。そんな悩みを持つ方に向けて「化学×機械学習」に関連した話題を提供します!

【化学との関わりも説明】機械学習で最もよく用いられる「教師あり学習」の概要

機械学習とは非常に幅広い範囲の情報処理技術を指します。

具体的な処理内容についての説明に入る前に、機械学習手法の中でも重要となる基本的な(=適用範囲の広い)領域についての説明をしようと思います。

現在の化学メーカーで検討されているものは大抵がここで説明されるような範囲で扱われるものかと思われます。

 

機械学習の大まかな分類

巷ではディープラーニングで画像処理をするだとか、囲碁や将棋でプロに勝利した、などといった応用範囲が有名かと思われます。

化学(科学)の範囲で何らかの予測をする場合によく使われる機械学習手法というものがある程度確立されているので、そこに焦点を当てていきたいと思います。

具体的には次の画像で示される青い部分がそこにあたります。

f:id:machine-dog:20200706224816p:plain

機械学習の大まかな分類

 

最新の研究結果も見ていくと全てが教師あり学習で行われている訳ではありませんが、重要な部分を占めているのは確かだと考えていただければと思います。

次の図に示されるように、一般的に見ても教師あり学習(Supervised learning)の応用例が飛び抜けて多いことが分かるかと思われます。

f:id:machine-dog:20200706230300p:plain

Transfer Learning - Machine Learning's Next Frontier より

教師あり学習とは

我々がメインで見ていく教師あり学習とは何でしょうか。

端的にまとめてしまうと、説明変数(X)と目的変数(y)の関係をデータから学習するタスクと見ることができます。Xとyの関係式さえ出来てしまえば、予測したいXを用意することで未知のyの値を求めることができます。

教師あり学習の分かりやすい例を挙げると、Xとyの関係を線形で表す場合でXが一次元のシンプルな場合を考えます。機械学習によりXとyの関係式、 y = w_1 x_1 + w_0 w_1 w_0をデータから学習することになります。このくらいならExcelでもできそうなレベルの話ですね。

ここで、説明変数(X)は容易に得られる情報が使われ、目的変数(y)は得るのにコスト(手間)がかかるような情報を用いることが多いです。

化学業界でよく適用される例として高性能な樹脂の最適な製造法の予測を挙げることができます。説明変数(X)としては樹脂組成や製造時の温度、反応時間などを用いて、目的変数(y)として樹脂のガラス転位温度を予測するタスクを考えることができます。この場合では、実験せずとも分かる情報が説明変数(X)に用いられ、実験しないと分からない情報を目的変数(y)に用いられています。うまく狙いのガラス転位温度を予測できれば、実験の回数を減らすことが期待できますね。

 

回帰と分類

さて、機械学習の中には回帰と分類があると画像で示しました。回帰は目的変数が連続値の場合、分類は目的変数が離散値の場合で用いられます。

それぞれの具体例を挙げると、回帰の場合では上記のような物性値や合成反応の収率などがイメージしやすいかと思われます。分類の場合は、化合物の毒性の有無なんかが分かりやすいでしょうか。

やっていることはデータの処理になりますので、機械学習のやりやすい形に変換できればどのようなものを対象にしても機械学習を検討することができるかと思われます。

 

 

以上で今回の内容は終わりです。

前置きが長くなってしまいましたが、次回からは化学に関連したデータを用いて機械学習への適用を見ていこうと思います。