Select Language

AI社区

公开数据集

麝香(第1版)数据集,目的是学习预测新分子是麝香还是非麝香

麝香(第1版)数据集,目的是学习预测新分子是麝香还是非麝香

1.52M
298 浏览
0 喜欢
5 次下载
0 条讨论
Physical Classification

Data Set Information:该数据集描述了一组92个分子,其中47个被人类专家判定为麝香,其余45个分子被判定为非麝香。目的是学习预......

数据结构 ? 1.52M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    Data Set Information:

    该数据集描述了一组92个分子,其中47个被人类专家判定为麝香,其余45个分子被判定为非麝香。目的是学习预测新分子是麝香还是非麝香。然而,描述这些分子的166个特征取决于分子的确切形状或构象。由于键可以旋转,单个分子可以采用许多不同的形状。为了生成该数据集,生成分子的低能构象,然后过滤以去除高度相似的构象。这留下了476个构象。然后,提取描述每个构象的特征向量。

    特征向量和分子之间的这种多对一关系被称为“多实例问题”。当为这些数据学习分类器时,如果分子的任何构象被分类为麝香,则分类器应将其分类为“麝香”。如果一个分子的构象没有一个被归类为麝香,那么它就应该被归类为“非麝香”。


    Attribute Information:

    分子名称:

    每个分子的符号名称。麝香有麝香-188这样的名字。非麝香的名称为Non-MUSK-jp13。
    构象名称:

    每个构象的符号名称。它们的格式是MOL_ISO+CONF,其中MOL是分子数,ISO是立体异构体数(通常为1),CONF是构象数。
    f1到f162:

    这些是沿光线的“距离特征”(见上面引用的论文)。这些距离以百分之一埃为单位。距离可以是负的,也可以是正的,因为它们实际上是相对于沿每条光线放置的原点测量的。原点由不再使用的“一致麝香”表面定义。因此,任何数据实验都应将这些特征值视为位于任意连续尺度上。特别是,该算法不应使用每个特征值的零点或符号。

    f163:这是分子中氧原子到三维空间中指定点的距离。这也被称为氧-DIS。
    f164:OXY-X:X-从指定点的位移。
    f165:OXY-Y:Y-从指定点的位移。
    f166:OXY-Z:Z-从指定点的位移。
    类别:0=>非麝香,1=>麝香


    Please note that the molecule_name and conformation_name attributes should not be used to predict the class.


    Relevant Papers:

    Dietterich, T. G., Lathrop, R. H., Lozano-Perez, T. Solving the multiple-instance problem with axis-parallel rectangles.  Artificial Intelligence.
    [Web link]


    Papers That Cite This Data Set1:


    Qingping Tao and Stephen Scott and N. V. Vinodchandran and Thomas T. Osugi. SVM-based generalized multiple-instance learning via approximate box counting. ICML


    Creators:  

    AI Group at Arris Pharmaceutical Corporation
    contact:  David Chapman or Ajay Jain
    Arris Pharmaceutical Corporation
    385 Oyster Point Blvd.
    South San Francisco, CA 94080
    415-737-8600
    zvona '@' arris.com, jain '@' arris.com

    Donor:    

    Tom Dietterich
    Department of Computer Science
    Oregon State University
    Corvallis, OR 97331
    503-737-5559
    tgd '@' cs.orst.edu

    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:10 去赚积分?
    • 298浏览
    • 5下载
    • 0点赞
    • 收藏
    • 分享