当前位置:首页 » 《随便一记》 » 正文

机器学习之数据分析与特征工程_hacker_nevermor的博客

26 人参与  2022年05月31日 10:35  分类 : 《随便一记》  评论

点击全文阅读


通过七月在线的限免课程,学习了数据分析与特征工程,记录一下学习的过程供日后回顾

  1. 问题与建模
    首先需要明确要解决的问题:回归?分类?根据要解决的问题进行建模。
    建模流程为:识别问题,理解数据,数据预处理,建模与评估。
    建模流程
    具体的任务有具体的解决方案与建模流程在这里插入图片描述
  2. 数据分析与处理
    案例:根据房屋出租信息预测房屋热度。
    该案例是一个有监督问题(有训练集(有标签),有测试集),是一个三分类问题
    考虑:什么是热度?(被查询/点击的次数)。什么影响热度?
    在这里插入图片描述
    数据集示例:在这里插入图片描述
    统计分布,判断离群点与数据分布详情
    在这里插入图片描述具体方法,绘制柱状图或直方图(pyplot)或pandas的describe()函数。
    注:数据左偏,可以取log,使其接近正态分布

文本类型数据:云图显示更好
在这里插入图片描述绘图是为了更好的展示可视化,有很多基于matplotlib二次开发的绘图库。
总结:对数据处理分析及可视化,是为了在建模之前更好的理解数据之间的关系,并调整离群数据,从而更好的建模解决问题。

  1. 特征工程
    类别特征:可分为两种类型:有序和无序
    类别特征编码方式:在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    数值类型特征:是常见的连续特征,容易出现离群点和异常值
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述日期类型特征:
    在这里插入图片描述
    交叉特征:将两个字段交叉后构建一个新特征
    同类型:加减除,笛卡尔积
    不同类型:乘除
    聚合特征(先分组再聚合):同比,环比

  2. 模型训练与验证
    数据集按照使用用途可以划分为:
    训练集:模型巡练和参数更新
    测试集:验证模型精度
    验证集:进行模型验证与参数选择
    训练过程:过拟合与欠拟合
    在这里插入图片描述

如想学习,请关注七月在线第16期机器学习训练营,https://edu.csdn.net/learn/36190?spm=1002.2001.3001.4157


点击全文阅读


本文链接:http://zhangshiyu.com/post/41073.html

数据  建模  特征  
<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最新文章

  • 老公把我两千多万的镯子送给女助理后,我报警了楚宁谢铭扬完本_完本老公把我两千多万的镯子送给女助理后,我报警了楚宁谢铭扬
  • 后妈只想躺平,继子们不让列表_后妈只想躺平,继子们不让(安躺顾守)
  • 我不做研究员后,自称活菩萨转世的师妹慌了人气小说_周雨桐林韵师姐热文_小说后续在线阅读_无删减免费完结_
  • 你走后月光沉入深海小说无删减阅读清爽版(简明月顾烬深)外篇+续集
  • 老婆抄家贴补白月光,我带她全家去打脸高分神作_白月光老公温柔后续+番外_小说后续在线阅读_无删减免费完结_
  • 不要乱摸毛茸茸!完结篇(不要乱摸毛茸茸!)章节目录+章节前文(明瑶北琰)全章无套路在线
  • 热文推荐温旎周京屹继承遗产再嫁豪门,假死前夫哭疯了:结局+番外精编之作
  • 堪笑楚江空渺渺热门推荐_澄澄灿灿东升后续+番外_小说后续在线阅读_无删减免费完结_
  • 小说大结局小说往后岁岁皆无你小说已更新+特别篇(萧烬聿安岁岁)纯净版
  • 囚爱我被圈(花步摇,金银细,苏央)全书免费_(花步摇,金银细,苏央)囚爱我被圈后续(花步摇,金银细,苏央)
  • 江晏屿许妍惜(月亮为茉莉祈祷)(江晏屿许妍惜)全书+后续+结局在线阅读
  • 前夫给我一巴掌,我去京都当富婆(叶晚棠林远山)全书浏览_前夫给我一巴掌,我去京都当富婆全书浏览

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1