一、问题重述
1.1问题背景
在本次数学建模竞赛中,我们面对的挑战是开发模型以协助一个先进的机器化学家平台。这个平台使用大数据和机器学习技术来自动化化学合成、表征和测试的全过程。传统的化学研究方法如“穷举”、“试错”已无法有效地处理复杂和高维的化学问题。机器化学家通过智能化工作站和机器人系统,从大量的化学数据中提取信息,生成科学假说,并自动执行实验,显著提高了化学研究的效率和创新能力。
本竞赛要求参赛团队利用提供的化学分子数据集,建立模型预测分子的不同物理化学性质。具体任务包括:1)探索分子ID和某物理化学性质的关系并尝试预测;2)选择关键特征建立预测模型;3)分析和建模分子的分类;4)提出和实施提高模型预测精度的新方法。这些挑战将检验团队在数据处理、模型构建和算法优化等方面的能力。
1.2问题提出
根据以上背景,以及题目所给出的四个附件,需要解决以下问题:
1、针对提供的数据集进行必要的预处理步骤,明确处理数据的必要性和所采用的方法。同时,探索分子ID与其对应的物理化学性质 y2 之间是否存在一定的函数关系,并尝试直接通过分子ID预测 y2。
2、对附件中的 data.csv 文件中的物理化学性质进行数据分析,选择不超过10个关键特征指标,用于构建 y1 的预测模型。
3、分析 y3 与其它物理化学性质之间的函数关系,建立数学模型进行 y3 的预测。研究在这些特征中,哪些对 y3 预测结果有较大影响,并进行灵敏度分析。
4、分析物理化学性质与分子类别(class)之间的关系,基于这些性质建立分子类别的预测模型。进一步分析哪些特征指标对分类结果有较大的影响。
5、在不局限于特征选择的情况下,探索更好的方法以提高模型的预测精度,并详细描述这些方法。重新对数据进行预测,论证新预测方法的优越性。