Python脚本：聚类小分子数据集 - 代码天地

Python脚本：聚类小分子数据集

其他 2018-08-05 20:03:26 阅读次数: 0

聚类分子（Clustering molecules）

聚类是一种有价值的化学信息学技术，用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。

基于RDKit的Python脚本用于聚类分子

#!/usr/bin/python3
# coding: utf-8
#http://www.rdkit.org/docs/Cookbook.html  - - -Clustering molecules
#AspirinCode.20180725

def ClusterFps(fps,cutoff=0.2):
    from rdkit import DataStructs
    from rdkit.ML.Cluster import Butina

    # first generate the distance matrix:
    dists = []
    nfps = len(fps)
    for i in range(1,nfps):
        sims = DataStructs.BulkTanimotoSimilarity(fps[i],fps[:i])
        dists.extend([1-x for x in sims])

    # now cluster the data:
    cs = Butina.ClusterData(dists,nfps,cutoff,isDistData=True)
    return cs

from rdkit import Chem
from rdkit.Chem import AllChem

#generate fingerprints
ms = [x for x in Chem.ForwardSDMolSupplier('ApprovedDrugs.sdf') if x is not None]
fps = [AllChem.GetMorganFingerprintAsBitVect(x,2,1024) for x in ms]

#cluster
clusters=ClusterFps(fps,cutoff=0.4)

# show one of the clusters
print(clusters[20])

#now display structures from one of the clusters
from rdkit.Chem import Draw
from rdkit.Chem.Draw import IPythonConsole

#look at a specific cluster
m1 = ms[1630]
m2 = ms[1010]
m3 = ms[1022]
m4 = ms[1023]
m5 = ms[1034]
m6 = ms[1043]
mols=(m1,m2,m3,m4,m5,m6)
Draw.MolsToGridImage(mols)

Jupyter Notebook运行效果

参考资料

http://www.rdkit.org/docs/Cookbook.html

分子模拟论坛：http://www.mdbbs.org

扫描二维码关注公众号，回复： 2565749 查看本文章

猜你喜欢

转载自blog.csdn.net/u012325865/article/details/81202123

Python脚本：聚类小分子数据集

分子优化数据集

Python实现Iris数据集（鸢尾花卉数据集）kmeans聚类

聚类中文PYTHON脚本乱码

对给定数据集分别实现K-means聚类、dbscan聚类以及agnes聚类

处理数据集的python脚本

使用Kmeans聚类西瓜数据集4.0

kmeans聚类算法(使用西瓜数据集4.0)

Tensorflow实例1：对人工数据集的K均值聚类

【定义篇】聚类的定义+鸢尾花数据集……

利用k-means算法完成Iris数据集的聚类，并输出聚类结果的正确率和召回率,使用本地iris数据集。并给出python代码...

DrugBank:小分子数据信息挖掘

python 文本聚类

python 样本聚类

Python实现聚类

python——聚类

Python | 实现 K-means 聚类——多维数据聚类散点图绘制

数据聚类

Python数据挖掘—聚类—KMeans划分法

Python:二维数据聚类实现。

python数据分析与挖掘之聚类kmeans算法

python笔记：使用数据结构的凝聚分层聚类

【Python】实训6：基于wine和wine_quality数据集练习sklearn构建模型方法（预处理、聚类、分类、回归）

机器学习教程之 EM算法：高斯混合模型聚类算法 (python基于《统计学习方法》实现，附数据集和代码)

聚类算法之K-means算法－UCI数据集上的java实现

一些用于聚类和分类问题的数据集

《TensorFlow机器学习项目实战》人工数据集的最近邻聚类（K-nn）

《TensorFlow机器学习项目实战》人工数据集的k均值聚类

《TensorFlow机器学习项目实战》人工块状数据集的k均值聚类

【目标检测】通过k-means算法聚类一些主流数据集的anchors

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)