約16000個の化合物のデータセットを用いて、molオブジェクトからBRICSで部分分解させました。
この16000個の化合物のうち、最も出現頻度の高い部分構造が何かを画像(もしくは何らかの情報でも)で確認したいのですが、方法がわかりません。
以下コードです
from rdkit import rdBase, Chem from rdkit.Chem import AllChem, Draw from rdkit.Chem.Draw import IPythonConsole from rdkit.Chem import BRICS from collections import Counter cnt = Counter() for mol in df.ROMol: pieces = BRICS.BRICSDecompose(mol) for p in pieces: cnt[p] += 1 len(cnt) #8598個の部分構造が確認できました これをヒストグラムで確認すると import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline edges = range(0,15,1) n, bins, patches = plt.hist(cnt.values(), bins=edges) plt.xlabel('freq of fragment') ほとんどがラベルの1に集中しているのがわかります。
このラベルの1~9くらいの示す構造自体がそれぞれどんなものかを確認したいのですが、どうしたらいいのかわからなくて困っています。
どなたかご知見がある方がいらっしゃったら、教えていただきたいです。
よろしくお願いします。
あなたの回答
tips
プレビュー