当前位置:首页 » 《随便一记》 » 正文

Pandas 进阶_Lemon_Review的博客

28 人参与  2021年12月02日 08:03  分类 : 《随便一记》  评论

点击全文阅读


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['STFangsong']
plt.rcParams['axes.unicode_minus'] = False
%config InlineBackend.figure_format = 'svg'

数据分析的一般流程

  1. 提取数据(筛选)

    • 布尔索引
    • query():相当于布尔索引
    • drop():删除指定的行或列
    • rename():重命名行或列索引
    • reset_index():重置索引(将索引变成普通列)
    • set_index():设置索引(将一个列或多个列指定为索引)
    • reindex():调整行或列索引的顺序(还可以做花式索引)
  2. 整合和重塑

    • merge():实现两个DataFrame对象的内连接或外连接(适用于两张表有关联)。
    • concat():将两个或多个DataFrame的数据拼接到一起(适用于多张表结构一致)。
  3. 数据清洗(缺失值、重复值、异常值)

    • 缺失值:

      • dropna():删除空值
      • fillna():填充空值 <— 均值、中位数、众数
      • isnull() / notnull():判断空值
    • 重复值:

      • duplicated():判断是否重复
      • drop_duplicates():删除重复值
    • 异常值:

      • 异常值 / 极端值 / 离群值
      • drop():删除
      • replace():替换
    • 预处理:

      • apply():将函数作用到数据上,需要指定在哪个轴上执行
      • transform():将(多个)函数作用到数据上
      • applymap():对每个元素使用指定的函数进行映射,相当于Series上的map()方法 —> elementwise

    注意:这三个方法都是高阶函数的用法,apply()方法接受的函数,可以是带归约性质的函数(聚合函数),也可以是没有归约性质的函数。transform()方法接受的函数不能是带归约功能的函数,只能是对数据做变换的函数,简单的说就是函数的执行不会减少数据的量。

  4. 数据透视(排序、分组、聚合)

    • 透视表:根据A统计B(根据A列对数据进行分组,再对B列上聚合函数)
    • groupby() —> sum() / mean() / max() / …
    • pivot_table() —> 专门生成透视表的函数
    • cut() —> 数据离散化(分箱)
  5. 数据可视化(统计图表)

  6. 数据的洞察(发现问题给出建议)

Example 1

df = pd.read_csv('../files/data/bilibili.csv',encoding = 'GBK')
df
titleurlwatchnumdmuptimeupname
0阿里云大学课程(云计算、中间件、大数据、云安全)//www.bilibili.com/video/BV1Lv411s7wu?from=search295442021/1/21韭菜滚雪球
1视觉传达设计专业的小朋友大学课程有哪些,强度怎么样,需要什么技能?学姐给新生的解答与建议//www.bilibili.com/video/BV1Ea4y1a7CX?from=search352682020/7/25铧仔仔儿的奋斗史
2CAP:适合高中生的大学课程(上大学之前提前学习大学的课程)同济大学《微积分CAP》//www.bilibili.com/video/BV1X4411Y7u8?from=search5597172019/5/11愚甘杂货铺
3干货!论文读写系列|写作风格:例文解析(1)|人文社科|教育学|大学课程、知识//www.bilibili.com/video/BV1VC4y1b7ZA?from=search1.1万292020/7/26cici西西熙熙
4《用户体验与心理-第1期》大学课程//www.bilibili.com/video/BV1r7411M7gY?from=search137392020/2/24Luka老师
.....................
1902【中国石油大学】构造地质学(第1-2章) ——主讲:李理老师//www.bilibili.com/video/BV1Y4411x7sE?from=search409752019/5/2點點滴滴Super
1903【模电】模拟电子技术基础【四】//www.bilibili.com/video/BV1sb411v7E6?from=search5997112019/3/8干脆的非洲鼓
1904【模电】模拟电子技术基础【三】//www.bilibili.com/video/BV1Rb411i7yo?from=search471382019/3/5干脆的非洲鼓
1905结构化学-东北大学-王军//www.bilibili.com/video/BV1yb411t7Mb?from=search583522019/2/28万万万万不能怂
1906《结构化学》南开大学-孙宏伟 重点难点解析//www.bilibili.com/video/BV1yt411t7UG?from=search528762019/1/28阿bu爱学习

1907 rows × 6 columns

def handle_num(n):
    if n[-1] == '万':
        return int(float(n[:-1]) * 10000)
    return int(n)

df['watchnum'] = df.watchnum.map(handle_num)
df['dm'] = df.dm.map(handle_num)
df
titleurlwatchnumdmuptimeupname
0阿里云大学课程(云计算、中间件、大数据、云安全)//www.bilibili.com/video/BV1Lv411s7wu?from=search295442021/1/21韭菜滚雪球
1视觉传达设计专业的小朋友大学课程有哪些,强度怎么样,需要什么技能?学姐给新生的解答与建议//www.bilibili.com/video/BV1Ea4y1a7CX?from=search352682020/7/25铧仔仔儿的奋斗史
2CAP:适合高中生的大学课程(上大学之前提前学习大学的课程)同济大学《微积分CAP》//www.bilibili.com/video/BV1X4411Y7u8?from=search5597172019/5/11愚甘杂货铺
3干货!论文读写系列|写作风格:例文解析(1)|人文社科|教育学|大学课程、知识//www.bilibili.com/video/BV1VC4y1b7ZA?from=search11000292020/7/26cici西西熙熙
4《用户体验与心理-第1期》大学课程//www.bilibili.com/video/BV1r7411M7gY?from=search137392020/2/24Luka老师
.....................
1902【中国石油大学】构造地质学(第1-2章) ——主讲:李理老师//www.bilibili.com/video/BV1Y4411x7sE?from=search409752019/5/2點點滴滴Super
1903【模电】模拟电子技术基础【四】//www.bilibili.com/video/BV1sb411v7E6?from=search5997112019/3/8干脆的非洲鼓
1904【模电】模拟电子技术基础【三】//www.bilibili.com/video/BV1Rb411i7yo?from=search471382019/3/5干脆的非洲鼓
1905结构化学-东北大学-王军//www.bilibili.com/video/BV1yb411t7Mb?from=search583522019/2/28万万万万不能怂
1906《结构化学》南开大学-孙宏伟 重点难点解析//www.bilibili.com/video/BV1yt411t7UG?from=search528762019/1/28阿bu爱学习

1907 rows × 6 columns

from datetime import datetime

# 将表中上传时间(字符串)转换为时间类型
# pd.to_datetime(字符串时间)
df['uptime'] = pd.to_datetime(df.uptime)
df.uptime   # dtype: datetime64[ns]
0      2021-01-21
1      2020-07-25
2      2019-05-11
3      2020-07-26
4      2020-02-24
          ...    
1902   2019-05-02
1903   2019-03-08
1904   2019-03-05
1905   2019-02-28
1906   2019-01-28
Name: uptime, Length: 1907, dtype: datetime64[ns]
df.uptime >= datetime(2021,1,1)   # 布尔数据系列
0        True
1       False
2       False
3       False
4       False
        ...  
1902    False
1903    False
1904    False
1905    False
1906    False
Name: uptime, Length: 1907, dtype: bool
[df.uptime >= datetime(2021,1,1)] # 布尔下标
temp = df[(df.uptime >= datetime(2021,1,1)) & (df.watchnum > 1000)]  #发布时间为2021年播放量大于1000的帖子
temp.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 92 entries, 0 to 1425
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   title     92 non-null     object        
 1   url       92 non-null     object        
 2   watchnum  92 non-null     int64         
 3   dm        92 non-null     int64         
 4   uptime    92 non-null     datetime64[ns]
 5   upname    92 non-null     object        
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 5.0+ KB
# 通过表达式筛选
# obj.query(筛选条件)
df.query('watchnum >= 1000 and uptime >="2021-1-1"').info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 92 entries, 0 to 1425
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   title     92 non-null     object        
 1   url       92 non-null     object        
 2   watchnum  92 non-null     int64         
 3   dm        92 non-null     int64         
 4   uptime    92 non-null     datetime64[ns]
 5   upname    92 non-null     object        
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 5.0+ KB
# 根据播放量排序
# obj.sort_values(by=[列1,列2...],ascending = True/False) 默认为True升序
temp.sort_values(by=['watchnum','dm'],ascending=False)
titleurlwatchnumdmuptimeupname
459【公开课】复旦大学:资本论 王德峰(全28讲)//www.bilibili.com/video/BV1Vp4y1x7F9?from=search109900042992021-01-19农夫CC
486【公开课】北京大学:中国经济 林毅夫(全12讲)//www.bilibili.com/video/BV1hK4y157dt?from=search2350005612021-01-14农夫CC
403【公开课】温铁军:中国经济研究(8讲)//www.bilibili.com/video/BV1kp4y1W7u8?from=search1060005232021-01-27农夫CC
448【公开课】温铁军:中国经济研究(8讲)//www.bilibili.com/video/BV1kp4y1W7u8?from=search1060005232021-01-27农夫CC
396【公开课】加州大学洛杉矶分校:亲密关系(全17讲)//www.bilibili.com/video/BV1xU4y147hJ?from=search65000792021-01-21农夫CC
.....................
811【芝加哥大学】 理解全球经济 全11讲//www.bilibili.com/video/BV1nr4y1M7Fd?from=search118902021-01-24学习党加油站
9232021年小黑老师计算机二级最新考点----替换考点汇总//www.bilibili.com/video/BV1UU4y1s7Tq?from=search117302021-02-01爱家伙的小学习
1220编程课堂:按键的前世今生学不会,不存在的。//www.bilibili.com/video/BV1nK4y1W7bU?from=search115732021-01-12三月课堂
20【生活篇】UCLA本科生带你了解加州大学课程设置与毕业要求//www.bilibili.com/video/BV1qt4y1r7Y3?from=search110782021-01-09未必存在的真理
1425【文学批评的方法与实践】华中师范大学 胡亚敏(合6讲)//www.bilibili.com/video/BV1jr4y1M7Hd?from=search100302021-01-27语文教学助手

92 rows × 6 columns

temp1 = temp.drop(columns='upname')
temp1
titleurlwatchnumdmuptime
0阿里云大学课程(云计算、中间件、大数据、云安全)//www.bilibili.com/video/BV1Lv411s7wu?from=search295442021-01-21
20【生活篇】UCLA本科生带你了解加州大学课程设置与毕业要求//www.bilibili.com/video/BV1qt4y1r7Y3?from=search110782021-01-09
374【公开课】南开大学:中华诗词 叶嘉莹(20讲)//www.bilibili.com/video/BV1Vo4y1d7Pe?from=search493742021-02-10
384【公开课】南开大学:中华诗词 叶嘉莹(20讲)//www.bilibili.com/video/BV1Vo4y1d7Pe?from=search493742021-02-10
387【公开课】启功:中华书法(全4讲)//www.bilibili.com/video/BV1FV411i7fV?from=search9777122021-02-11
..................
1299苏德矿教授谈如何学好微积分—矿爷在丹青有约2021.1.7直播//www.bilibili.com/video/BV1dh41117yy?from=search119602021-01-07
1412【中英字幕】曼彻斯特大学Advanced Microeconomics 课程//www.bilibili.com/video/BV1bX4y1K799?from=search842922021-01-19
1417《数字无线电系统基础》32讲-电子科技大学-陈祝明【通信专题】//www.bilibili.com/video/BV1Ci4y1F7tU?from=search3958142021-01-05
1422西安交通大学《电路》赵进全100讲//www.bilibili.com/video/BV1Z54y1x7ZK?from=search220532021-01-11
1425【文学批评的方法与实践】华中师范大学 胡亚敏(合6讲)//www.bilibili.com/video/BV1jr4y1M7Hd?from=search100302021-01-27

92 rows × 5 columns

# 判断是否存在重复值
# temp.duplicated('url')
# 去重
temp.drop_duplicates('url')
titleurlwatchnumdmuptimeupname
0阿里云大学课程(云计算、中间件、大数据、云安全)//www.bilibili.com/video/BV1Lv411s7wu?from=search295442021-01-21韭菜滚雪球
20【生活篇】UCLA本科生带你了解加州大学课程设置与毕业要求//www.bilibili.com/video/BV1qt4y1r7Y3?from=search110782021-01-09未必存在的真理
374【公开课】南开大学:中华诗词 叶嘉莹(20讲)//www.bilibili.com/video/BV1Vo4y1d7Pe?from=search493742021-02-10农夫CC
387【公开课】启功:中华书法(全4讲)//www.bilibili.com/video/BV1FV411i7fV?from=search9777122021-02-11农夫CC
392所以你记住物价这个词了嘛!//www.bilibili.com/video/BV1f54y1Y7JY?from=search214002021-02-25大阪外語学院
.....................
1299苏德矿教授谈如何学好微积分—矿爷在丹青有约2021.1.7直播//www.bilibili.com/video/BV1dh41117yy?from=search119602021-01-07稳及阁大学士
1412【中英字幕】曼彻斯特大学Advanced Microeconomics 课程//www.bilibili.com/video/BV1bX4y1K799?from=search842922021-01-19杨浦区老实人
1417《数字无线电系统基础》32讲-电子科技大学-陈祝明【通信专题】//www.bilibili.com/video/BV1Ci4y1F7tU?from=search3958142021-01-05成电电子科协
1422西安交通大学《电路》赵进全100讲//www.bilibili.com/video/BV1Z54y1x7ZK?from=search220532021-01-11物语终焉2021
1425【文学批评的方法与实践】华中师范大学 胡亚敏(合6讲)//www.bilibili.com/video/BV1jr4y1M7Hd?from=search100302021-01-27语文教学助手

83 rows × 6 columns

def normalize_url(url):
    if not url.startswith('https'):
        return 'https:' + url
    return url
df['url'] = df['url'].apply(normalize_url)
df
titleurlwatchnumdmuptimeupname
0阿里云大学课程(云计算、中间件、大数据、云安全)https://www.bilibili.com/video/BV1Lv411s7wu?fr...295442021-01-21韭菜滚雪球
1视觉传达设计专业的小朋友大学课程有哪些,强度怎么样,需要什么技能?学姐给新生的解答与建议https://www.bilibili.com/video/BV1Ea4y1a7CX?fr...352682020-07-25铧仔仔儿的奋斗史
2CAP:适合高中生的大学课程(上大学之前提前学习大学的课程)同济大学《微积分CAP》https://www.bilibili.com/video/BV1X4411Y7u8?fr...5597172019-05-11愚甘杂货铺
3干货!论文读写系列|写作风格:例文解析(1)|人文社科|教育学|大学课程、知识https://www.bilibili.com/video/BV1VC4y1b7ZA?fr...11000292020-07-26cici西西熙熙
4《用户体验与心理-第1期》大学课程https://www.bilibili.com/video/BV1r7411M7gY?fr...137392020-02-24Luka老师
.....................
1902【中国石油大学】构造地质学(第1-2章) ——主讲:李理老师https://www.bilibili.com/video/BV1Y4411x7sE?fr...409752019-05-02點點滴滴Super
1903【模电】模拟电子技术基础【四】https://www.bilibili.com/video/BV1sb411v7E6?fr...5997112019-03-08干脆的非洲鼓
1904【模电】模拟电子技术基础【三】https://www.bilibili.com/video/BV1Rb411i7yo?fr...471382019-03-05干脆的非洲鼓
1905结构化学-东北大学-王军https://www.bilibili.com/video/BV1yb411t7Mb?fr...583522019-02-28万万万万不能怂
1906《结构化学》南开大学-孙宏伟 重点难点解析https://www.bilibili.com/video/BV1yt411t7UG?fr...528762019-01-28阿bu爱学习

1907 rows × 6 columns

Example 2

df1 = pd.read_csv('../files/data/lagou.csv',encoding = 'utf-8',index_col='no')
df1.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3140 entries, 0 to 3139
Data columns (total 51 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   _id                    3140 non-null   object 
 1   adWord                 3140 non-null   int64  
 2   appShow                3140 non-null   int64  
 3   approve                3140 non-null   int64  
 4   businessZones          1544 non-null   object 
 5   city                   3140 non-null   object 
 6   companyFullName        3140 non-null   object 
 7   companyId              3140 non-null   int64  
 8   companyLabelList       3140 non-null   object 
 9   companyLogo            3139 non-null   object 
 10  companyShortName       3140 non-null   object 
 11  companySize            3140 non-null   object 
 12  createTime             3140 non-null   object 
 13  deliver                3140 non-null   int64  
 14  district               3133 non-null   object 
 15  education              3140 non-null   object 
 16  explain                0 non-null      float64
 17  financeStage           3140 non-null   object 
 18  firstType              3140 non-null   object 
 19  formatCreateTime       3140 non-null   object 
 20  gradeDescription       0 non-null      float64
 21  hitags                 260 non-null    object 
 22  imState                3140 non-null   object 
 23  industryField          3140 non-null   object 
 24  industryLables         3140 non-null   object 
 25  isHotHire              3140 non-null   int64  
 26  isSchoolJob            3140 non-null   int64  
 27  jobNature              3140 non-null   object 
 28  lastLogin              3140 non-null   object 
 29  latitude               3133 non-null   float64
 30  linestaion             2403 non-null   object 
 31  longitude              3133 non-null   float64
 32  pcShow                 3140 non-null   int64  
 33  plus                   0 non-null      float64
 34  positionAdvantage      3140 non-null   object 
 35  positionId             3140 non-null   int64  
 36  positionLables         3140 non-null   object 
 37  positionName           3140 non-null   object 
 38  promotionScoreExplain  0 non-null      float64
 39  publisherId            3140 non-null   int64  
 40  resumeProcessDay       3140 non-null   int64  
 41  resumeProcessRate      3140 non-null   int64  
 42  salary                 3140 non-null   object 
 43  score                  3140 non-null   int64  
 44  secondType             3140 non-null   object 
 45  skillLables            3140 non-null   object 
 46  stationname            2403 non-null   object 
 47  subwayline             2403 non-null   object 
 48  thirdType              3140 non-null   object 
 49  workYear               3140 non-null   object 
 50  job_detail             1513 non-null   object 
dtypes: float64(6), int64(13), object(32)
memory usage: 1.2+ MB
pd.set_option('max_columns', None)
df1.head()
_idadWordappShowapprovebusinessZonescitycompanyFullNamecompanyIdcompanyLabelListcompanyLogocompanyShortNamecompanySizecreateTimedeliverdistricteducationexplainfinanceStagefirstTypeformatCreateTimegradeDescriptionhitagsimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginlatitudelinestaionlongitudepcShowpluspositionAdvantagepositionIdpositionLablespositionNamepromotionScoreExplainpublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesstationnamesubwaylinethirdTypeworkYearjob_detail
no
05de5e75734e608e63026c1bc901['亦庄']北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']i/image2/M01/AF/7F/CgotOV3kqOqAZvWrAAAaonXDCck...达达-京东到家2000人以上2019-12-02 20:38:250大兴区本科NaND轮及以上产品|需求|项目类1天前发布NaN['免费班车', '新婚红包', '定期调薪', '电脑补贴', '生子红包', '地铁周边...today消费生活[]00全职2019-12-03 10:33:0739.795747亦庄线_万源街;亦庄线_荣京东街116.5104420NaN成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗NaN7855636110015k-30k0数据分析['BI', '数据分析']万源街亦庄线BI3-5年1 、负责o2o电商日常运营数据的统计, 监控, 梳理指标体系;||2、基于海量用户行为数据...
15de5e75734e608e63026c1bd001NaN北京北京音娱时光科技有限公司286568['年底双薪', '绩效奖金', '带薪年假', '免费健身']i/image2/M01/8B/9A/CgotOV15uyKAMCL3AAAvAzXIrFw...音娱时光50-150人2019-12-03 11:23:350海淀区本科NaNA轮产品|需求|项目类11:23发布NaNNaNtoday移动互联网[]00全职2019-12-03 11:23:3839.97755510号线_知春路;10号线_西土城;13号线_大钟寺;13号线_知春路116.3521450NaN技术大牛多;免费餐饮;氛围好;6263661['SQL', 'BI', 'SPSS']数据分析NaN12147286110010k-18k0数据分析['SQL', 'BI', 'SPSS']知春路10号线数据分析1-3年职责描述:||1. 完善业务数据监控体系,进行新功能指标埋点逻辑设计,搭建分析框架,...
25de5e75734e608e63026c1be001['西北旺']北京北京千喜鹤餐饮管理有限公司278964[]i/image2/M00/15/70/CgotOVn0PGWACXyxAAA4aF7GFgk...千喜鹤2000人以上2019-12-03 10:35:090海淀区本科NaN未融资产品|需求|项目类10:35发布NaNNaNtoday消费生活['移动互联网', '视频', 'SQL']00全职2019-12-03 11:08:3440.06675716号线_永丰;16号线_永丰南116.2495810NaN福利好,五险一金,住房补助6660141['移动互联网', '视频', 'SQL']数据分析NaN64368580020k-30k0数据分析['SQL', '数据分析']永丰16号线数据分析3-5年工作职责:||1.负责根据业务目标,制定并执行产品或业务的运营数据监控与分析机制。||2.完...
35de5e75734e608e63026c1bf000NaN北京吉林省海生电子商务有限公司399744[]images/logo_default.png吉林省海生电子商务有限公司少于15人2019-12-03 10:35:560朝阳区本科NaN不需要融资产品|需求|项目类10:35发布NaNNaNtoday电商['其他']00全职2019-12-03 10:30:3740.042254NaN116.2910270NaN五险一金6660148['其他']数据分析NaN109787490033k-50k0数据分析['数据分析']NaNNaN数据分析3-5年1.基于对业务的支持和理解,搭建出可以准确反映业务运作状况的数据指标体系;||2.商业嗅觉灵...
45de5e75734e608e63026c1c0000['大望路', '建外大街', '南磨房']北京韦博网讯科技(北京)有限公司580170[]i/image2/M01/41/6C/CgoB5lz3eJGAYy2MAACd7SzHgKw...WPIC50-150人2019-12-03 12:10:220朝阳区本科NaN未融资产品|需求|项目类12:10发布NaNNaNtoday电商,软件开发['电商']00全职2019-12-03 11:54:2239.9070881号线_国贸;1号线_大望路;10号线_国贸;14号线东段_大望路116.4763900NaN待遇优厚 ,良好的发展前景6590101['电商']数据分析NaN132131010010k-15k0数据分析['数据分析']国贸1号线产品|需求|项目类1-3年职责描述:||1. 调研工作以客户需求为主导;||2. 根据市场调研计划,进行市场信息的收集...
df1.dropna(axis = 1,inplace=True)
df1
_idadWordappShowapprovecitycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimedelivereducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYear
no
05de5e75734e608e63026c1bc901北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:250本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗7855636110015k-30k0数据分析['BI', '数据分析']BI3-5年
15de5e75734e608e63026c1bd001北京北京音娱时光科技有限公司286568['年底双薪', '绩效奖金', '带薪年假', '免费健身']音娱时光50-150人2019-12-03 11:23:350本科A轮产品|需求|项目类11:23发布today移动互联网[]00全职2019-12-03 11:23:380技术大牛多;免费餐饮;氛围好;6263661['SQL', 'BI', 'SPSS']数据分析12147286110010k-18k0数据分析['SQL', 'BI', 'SPSS']数据分析1-3年
25de5e75734e608e63026c1be001北京北京千喜鹤餐饮管理有限公司278964[]千喜鹤2000人以上2019-12-03 10:35:090本科未融资产品|需求|项目类10:35发布today消费生活['移动互联网', '视频', 'SQL']00全职2019-12-03 11:08:340福利好,五险一金,住房补助6660141['移动互联网', '视频', 'SQL']数据分析64368580020k-30k0数据分析['SQL', '数据分析']数据分析3-5年
35de5e75734e608e63026c1bf000北京吉林省海生电子商务有限公司399744[]吉林省海生电子商务有限公司少于15人2019-12-03 10:35:560本科不需要融资产品|需求|项目类10:35发布today电商['其他']00全职2019-12-03 10:30:370五险一金6660148['其他']数据分析109787490033k-50k0数据分析['数据分析']数据分析3-5年
45de5e75734e608e63026c1c0000北京韦博网讯科技(北京)有限公司580170[]WPIC50-150人2019-12-03 12:10:220本科未融资产品|需求|项目类12:10发布today电商,软件开发['电商']00全职2019-12-03 11:54:220待遇优厚 ,良好的发展前景6590101['电商']数据分析132131010010k-15k0数据分析['数据分析']产品|需求|项目类1-3年
..................................................................................................................
31355de5ea1134e608e63026cdfb001天津清博津商(天津)教育科技有限公司260578[]清博津商15-50人2019-11-13 15:55:550不限不需要融资运营|编辑|客服类2019-11-13overSevenDays数据服务,教育[]01兼职2019-11-13 15:55:450大数据行业优势,工作氛围好6579749['审核', '内容审核', '信息']审核实习生(春节短期)8913003001k-2k0审核['审核', '内容审核', '信息']信息审核应届毕业生
31365de5ea1134e608e63026cdfc001天津上海礼紫股权投资基金管理有限公司264817[]礼紫股权投资500-2000人2019-11-04 09:02:040不限未融资运营|编辑|客服类2019-11-04overSevenDays金融['社交', '运营']00全职2019-11-14 16:23:360旅游团建、内部晋升、待遇优厚、提供住宿6270749['社交', '运营']运营助理9535048006k-8k0运营['运营']运营助理|专员不限
31375de5ea1134e608e63026cdfd001天津北京达佳互联信息技术有限公司1880['股票期权', '弹性工作', '定期体检', '岗位晋升']快手2000人以上2019-12-03 10:16:280本科D轮及以上运营|编辑|客服类10:16发布today文娱丨内容[]00全职2019-12-03 10:01:370五险一金,绩效奖金,餐补,房补5051153['运营', '用户运营']运营编辑团队leader10506720008k-15k0运营['运营', '用户运营']用户运营3-5年
31385de5ea1134e608e63026cdfe001天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:540不限C轮运营|编辑|客服类1天前发布today移动互联网['电商', '商家运营']00全职2019-12-03 11:25:100五险一金6624059['电商', '商家运营']商家运营-天津14725914316k-8k0运营['商家运营']商家运营不限
31395de5ea1134e608e63026cdff001天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:560本科C轮运营|编辑|客服类1天前发布today移动互联网['移动互联网']01全职2019-12-03 11:25:100转正机会6633633['移动互联网']运营实习生-天津14725914312k-4k0运营[]运营助理|专员应届毕业生

3140 rows × 37 columns

df1.drop(columns = ['_id','adWord','appShow','approve','deliver'],inplace=True)
df1
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYear
no
0北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:25本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗7855636110015k-30k0数据分析['BI', '数据分析']BI3-5年
1北京北京音娱时光科技有限公司286568['年底双薪', '绩效奖金', '带薪年假', '免费健身']音娱时光50-150人2019-12-03 11:23:35本科A轮产品|需求|项目类11:23发布today移动互联网[]00全职2019-12-03 11:23:380技术大牛多;免费餐饮;氛围好;6263661['SQL', 'BI', 'SPSS']数据分析12147286110010k-18k0数据分析['SQL', 'BI', 'SPSS']数据分析1-3年
2北京北京千喜鹤餐饮管理有限公司278964[]千喜鹤2000人以上2019-12-03 10:35:09本科未融资产品|需求|项目类10:35发布today消费生活['移动互联网', '视频', 'SQL']00全职2019-12-03 11:08:340福利好,五险一金,住房补助6660141['移动互联网', '视频', 'SQL']数据分析64368580020k-30k0数据分析['SQL', '数据分析']数据分析3-5年
3北京吉林省海生电子商务有限公司399744[]吉林省海生电子商务有限公司少于15人2019-12-03 10:35:56本科不需要融资产品|需求|项目类10:35发布today电商['其他']00全职2019-12-03 10:30:370五险一金6660148['其他']数据分析109787490033k-50k0数据分析['数据分析']数据分析3-5年
4北京韦博网讯科技(北京)有限公司580170[]WPIC50-150人2019-12-03 12:10:22本科未融资产品|需求|项目类12:10发布today电商,软件开发['电商']00全职2019-12-03 11:54:220待遇优厚 ,良好的发展前景6590101['电商']数据分析132131010010k-15k0数据分析['数据分析']产品|需求|项目类1-3年
...................................................................................................
3135天津清博津商(天津)教育科技有限公司260578[]清博津商15-50人2019-11-13 15:55:55不限不需要融资运营|编辑|客服类2019-11-13overSevenDays数据服务,教育[]01兼职2019-11-13 15:55:450大数据行业优势,工作氛围好6579749['审核', '内容审核', '信息']审核实习生(春节短期)8913003001k-2k0审核['审核', '内容审核', '信息']信息审核应届毕业生
3136天津上海礼紫股权投资基金管理有限公司264817[]礼紫股权投资500-2000人2019-11-04 09:02:04不限未融资运营|编辑|客服类2019-11-04overSevenDays金融['社交', '运营']00全职2019-11-14 16:23:360旅游团建、内部晋升、待遇优厚、提供住宿6270749['社交', '运营']运营助理9535048006k-8k0运营['运营']运营助理|专员不限
3137天津北京达佳互联信息技术有限公司1880['股票期权', '弹性工作', '定期体检', '岗位晋升']快手2000人以上2019-12-03 10:16:28本科D轮及以上运营|编辑|客服类10:16发布today文娱丨内容[]00全职2019-12-03 10:01:370五险一金,绩效奖金,餐补,房补5051153['运营', '用户运营']运营编辑团队leader10506720008k-15k0运营['运营', '用户运营']用户运营3-5年
3138天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:54不限C轮运营|编辑|客服类1天前发布today移动互联网['电商', '商家运营']00全职2019-12-03 11:25:100五险一金6624059['电商', '商家运营']商家运营-天津14725914316k-8k0运营['商家运营']商家运营不限
3139天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:56本科C轮运营|编辑|客服类1天前发布today移动互联网['移动互联网']01全职2019-12-03 11:25:100转正机会6633633['移动互联网']运营实习生-天津14725914312k-4k0运营[]运营助理|专员应届毕业生

3140 rows × 32 columns

# 找出热招岗位
df1[df1.isHotHire == 1]
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYear
no
# 融资阶段D轮及以上的招聘岗位
# 判断某字符串中是否含有某字符(模糊查询)
df1[df1.financeStage.str.contains('D')]
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYear
no
0北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:25本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗7855636110015k-30k0数据分析['BI', '数据分析']BI3-5年
10北京贝壳找房(北京)科技有限公司55446['股票期权', '带薪年假', '绩效奖金', '扁平管理']贝壳2000人以上2019-12-03 10:29:26本科D轮及以上开发|测试|运维类10:29发布today房产家居['房产服务', '本地生活', '数据挖掘', '数据分析', '数据处理']00全职2019-12-03 10:29:230福利好,成长高6217427['房产服务', '本地生活', '数据挖掘', '数据分析', '数据处理']数据分析经理97529401530k-50k0数据开发['数据挖掘', '数据分析', '数据处理']数据分析5-10年
13北京贝壳找房(北京)科技有限公司55446['股票期权', '带薪年假', '绩效奖金', '扁平管理']贝壳2000人以上2019-12-03 10:29:28本科D轮及以上开发|测试|运维类10:29发布today房产家居[]00全职2019-12-03 10:29:230福利好,成长高6186927['数据分析', '数据处理']资深数据分析师97529401530k-50k0数据开发['数据分析', '数据处理']数据分析5-10年
14北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:25本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗7855636110015k-30k0数据分析['BI', '数据分析']BI3-5年
18北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:25本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好5828609['BI', 'SQL', 'SPSS']数据分析师7855636110020k-30k0数据分析['BI', 'SQL', 'SPSS']数据分析3-5年
...................................................................................................
3091天津北京小唱科技有限公司5026['节日礼物', '股票期权', '带薪年假', '员工海外游']唱吧-手机里的KTV150-500人2019-11-29 13:32:23大专D轮及以上运营|编辑|客服类2019-11-29today移动互联网,游戏[]00全职2019-12-03 11:12:180年终奖 福利好 弹性工作时间6647762['质检']质检专员495421405k-7k0客服['质检']客服不限
3104天津天津链家宝业房地产经纪有限公司北城街店496665[]天津链家地产2000人以上2019-11-29 17:01:27本科D轮及以上销售类2019-11-29today其他['房产服务', '大数据', '客户代表', '区域销售', '电话销售', '市场拓展']00全职2019-12-02 19:04:590底薪5000 全国连锁企业 发展前景大5546662['房产服务', '大数据', '客户代表', '区域销售', '电话销售', '市场拓展']高级经纪人12344930006k-12k0销售['客户代表', '区域销售', '电话销售', '市场拓展']销售顾问不限
3120天津北京每日优鲜电子商务有限公司39934['六险一金', '股票期权', '快速晋升', '年度体检']每日优鲜2000人以上2019-11-13 21:25:02本科D轮及以上贸易|批发|零售|租赁业2019-11-13sevenDays移动互联网,电商['电商', '移动互联网']00全职2019-11-26 21:04:530五险一金,带薪年假,餐补,节日礼品6484735['电商', '移动互联网']天津商品采购11702595110015k-25k0采购[]买手3-5年
3121天津北京每日优鲜电子商务有限公司39934['六险一金', '股票期权', '快速晋升', '年度体检']每日优鲜2000人以上2019-11-13 21:25:02本科D轮及以上贸易|批发|零售|租赁业2019-11-13sevenDays移动互联网,电商['移动互联网', '本地生活']00全职2019-11-26 21:04:530五险一金,带薪年假,餐补,节日礼品6484666['移动互联网', '本地生活']天津商品采购(果蔬、食材、食品)11702595110015k-20k0采购[]买手3-5年
3137天津北京达佳互联信息技术有限公司1880['股票期权', '弹性工作', '定期体检', '岗位晋升']快手2000人以上2019-12-03 10:16:28本科D轮及以上运营|编辑|客服类10:16发布today文娱丨内容[]00全职2019-12-03 10:01:370五险一金,绩效奖金,餐补,房补5051153['运营', '用户运营']运营编辑团队leader10506720008k-15k0运营['运营', '用户运营']用户运营3-5年

235 rows × 32 columns

# 数据分析岗位
temp1 = df1[df1.positionName.str.contains('数据分析')]
temp1
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYear
no
0北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:25本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗7855636110015k-30k0数据分析['BI', '数据分析']BI3-5年
1北京北京音娱时光科技有限公司286568['年底双薪', '绩效奖金', '带薪年假', '免费健身']音娱时光50-150人2019-12-03 11:23:35本科A轮产品|需求|项目类11:23发布today移动互联网[]00全职2019-12-03 11:23:380技术大牛多;免费餐饮;氛围好;6263661['SQL', 'BI', 'SPSS']数据分析12147286110010k-18k0数据分析['SQL', 'BI', 'SPSS']数据分析1-3年
2北京北京千喜鹤餐饮管理有限公司278964[]千喜鹤2000人以上2019-12-03 10:35:09本科未融资产品|需求|项目类10:35发布today消费生活['移动互联网', '视频', 'SQL']00全职2019-12-03 11:08:340福利好,五险一金,住房补助6660141['移动互联网', '视频', 'SQL']数据分析64368580020k-30k0数据分析['SQL', '数据分析']数据分析3-5年
3北京吉林省海生电子商务有限公司399744[]吉林省海生电子商务有限公司少于15人2019-12-03 10:35:56本科不需要融资产品|需求|项目类10:35发布today电商['其他']00全职2019-12-03 10:30:370五险一金6660148['其他']数据分析109787490033k-50k0数据分析['数据分析']数据分析3-5年
4北京韦博网讯科技(北京)有限公司580170[]WPIC50-150人2019-12-03 12:10:22本科未融资产品|需求|项目类12:10发布today电商,软件开发['电商']00全职2019-12-03 11:54:220待遇优厚 ,良好的发展前景6590101['电商']数据分析132131010010k-15k0数据分析['数据分析']产品|需求|项目类1-3年
...................................................................................................
3065天津北京达佳互联信息技术有限公司1880['股票期权', '弹性工作', '定期体检', '岗位晋升']快手2000人以上2019-12-03 10:16:29本科D轮及以上产品|需求|项目类10:16发布today文娱丨内容['视频', '直播', '数据分析', '数据运营', '可视化']00全职2019-12-03 10:01:370福利待遇 平台发展 公司规模5605166['视频', '直播', '数据分析', '数据运营', '可视化']数据分析专员10506720008k-10k0数据分析['数据分析', '数据运营', '可视化']数据分析1-3年
3069天津林之尚沃(天津)国际贸易有限公司195673[]林之尚沃15-50人2019-12-03 09:37:31本科不需要融资产品|需求|项目类09:37发布today医疗丨健康['大数据', '工具软件', '数据分析', '数据运营', 'BI', '数据库']00全职2019-12-03 09:31:300节假日福利 团建活动 零食饮料6654011['大数据', '工具软件', '数据分析', '数据运营', 'BI', '数据库']数据分析专员92080742786k-10k0数据分析['数据分析', '数据运营', 'BI', '数据库']数据分析1-3年
3070天津林之尚沃(天津)国际贸易有限公司195673[]林之尚沃15-50人2019-12-03 09:37:31本科不需要融资产品|需求|项目类09:37发布today医疗丨健康['新零售', '数据运营', '数据分析']00兼职2019-12-03 09:31:300节假日福利 团建活动 零食饮料6485218['新零售', '数据运营', '数据分析']数据分析实习生92080742782k-4k0数据分析['数据运营', '数据分析']商业不限
3071天津西安格蒂电力有限公司45678['技能培训', '带薪年假', '绩效奖金', '岗位晋升']格蒂电力500-2000人2019-12-03 07:19:26大专未融资开发|测试|运维类07:19发布today企业服务[]00全职2019-12-03 07:18:230上市公司,福利待遇优厚,职业发展空间广阔6635415['数据分析', 'Oracle', 'ETL', '数据挖掘']ETL/大数据/数据分析/实施15229043136k-12k0数据开发['数据分析', 'Oracle', 'ETL', '数据挖掘']ETL3-5年
3088天津谷川联行有限公司36984['年底双薪', '技能培训', '带薪年假', '绩效奖金']谷川联行150-500人2019-11-26 08:42:40本科不需要融资开发|测试|运维类2019-11-26today软件开发,企业服务['大数据', 'MySQL', '数据仓库', '数据分析', 'ETL']00全职2019-12-03 11:15:170发展空间大 福利待遇高 周末双休6638504['大数据', 'MySQL', '数据仓库', '数据分析', 'ETL']BI工程师/数据分析师(天津)65172611008k-12k0数据开发['MySQL', '数据仓库', '数据分析', 'ETL']BI工程师不限

1515 rows × 32 columns

df1['year'] = pd.to_datetime(df1['createTime']).dt.year
df1['month'] = pd.to_datetime(df1['createTime']).dt.month
df1['day'] = pd.to_datetime(df1['createTime']).dt.day
df1['weekday'] = pd.to_datetime(df1['createTime']).dt.weekday  # 0 - 星期一
df1
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYearyearmonthdayweekday
no
0北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:25本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗7855636110015k-30k0数据分析['BI', '数据分析']BI3-5年20191220
1北京北京音娱时光科技有限公司286568['年底双薪', '绩效奖金', '带薪年假', '免费健身']音娱时光50-150人2019-12-03 11:23:35本科A轮产品|需求|项目类11:23发布today移动互联网[]00全职2019-12-03 11:23:380技术大牛多;免费餐饮;氛围好;6263661['SQL', 'BI', 'SPSS']数据分析12147286110010k-18k0数据分析['SQL', 'BI', 'SPSS']数据分析1-3年20191231
2北京北京千喜鹤餐饮管理有限公司278964[]千喜鹤2000人以上2019-12-03 10:35:09本科未融资产品|需求|项目类10:35发布today消费生活['移动互联网', '视频', 'SQL']00全职2019-12-03 11:08:340福利好,五险一金,住房补助6660141['移动互联网', '视频', 'SQL']数据分析64368580020k-30k0数据分析['SQL', '数据分析']数据分析3-5年20191231
3北京吉林省海生电子商务有限公司399744[]吉林省海生电子商务有限公司少于15人2019-12-03 10:35:56本科不需要融资产品|需求|项目类10:35发布today电商['其他']00全职2019-12-03 10:30:370五险一金6660148['其他']数据分析109787490033k-50k0数据分析['数据分析']数据分析3-5年20191231
4北京韦博网讯科技(北京)有限公司580170[]WPIC50-150人2019-12-03 12:10:22本科未融资产品|需求|项目类12:10发布today电商,软件开发['电商']00全职2019-12-03 11:54:220待遇优厚 ,良好的发展前景6590101['电商']数据分析132131010010k-15k0数据分析['数据分析']产品|需求|项目类1-3年20191231
...............................................................................................................
3135天津清博津商(天津)教育科技有限公司260578[]清博津商15-50人2019-11-13 15:55:55不限不需要融资运营|编辑|客服类2019-11-13overSevenDays数据服务,教育[]01兼职2019-11-13 15:55:450大数据行业优势,工作氛围好6579749['审核', '内容审核', '信息']审核实习生(春节短期)8913003001k-2k0审核['审核', '内容审核', '信息']信息审核应届毕业生201911132
3136天津上海礼紫股权投资基金管理有限公司264817[]礼紫股权投资500-2000人2019-11-04 09:02:04不限未融资运营|编辑|客服类2019-11-04overSevenDays金融['社交', '运营']00全职2019-11-14 16:23:360旅游团建、内部晋升、待遇优厚、提供住宿6270749['社交', '运营']运营助理9535048006k-8k0运营['运营']运营助理|专员不限20191140
3137天津北京达佳互联信息技术有限公司1880['股票期权', '弹性工作', '定期体检', '岗位晋升']快手2000人以上2019-12-03 10:16:28本科D轮及以上运营|编辑|客服类10:16发布today文娱丨内容[]00全职2019-12-03 10:01:370五险一金,绩效奖金,餐补,房补5051153['运营', '用户运营']运营编辑团队leader10506720008k-15k0运营['运营', '用户运营']用户运营3-5年20191231
3138天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:54不限C轮运营|编辑|客服类1天前发布today移动互联网['电商', '商家运营']00全职2019-12-03 11:25:100五险一金6624059['电商', '商家运营']商家运营-天津14725914316k-8k0运营['商家运营']商家运营不限20191220
3139天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:56本科C轮运营|编辑|客服类1天前发布today移动互联网['移动互联网']01全职2019-12-03 11:25:100转正机会6633633['移动互联网']运营实习生-天津14725914312k-4k0运营[]运营助理|专员应届毕业生20191220

3140 rows × 36 columns

# 捕获薪资字段以获取工资上下限
temp = df1.salary.str.extract(r'(\d+)[kK]?-(\d+)[kK]?')
# 将DataFrame中的str映射成int
temp = temp.applymap(int)
# 沿1轴计算均值
# axis = 1,表示对所有的列的每一行进行操作
df1['msal'] = temp.mean(axis = 1)
df1
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYearyearmonthdayweekdaymsal
no
0北京达疆网络科技(上海)有限公司32836['年底双薪', '绩效奖金', '岗位晋升', '定期体检']达达-京东到家2000人以上2019-12-02 20:38:25本科D轮及以上产品|需求|项目类1天前发布today消费生活[]00全职2019-12-03 10:33:070成长快、氛围好、领导好6638350['BI', '数据分析']数据分析岗7855636110015k-30k0数据分析['BI', '数据分析']BI3-5年2019122022.5
1北京北京音娱时光科技有限公司286568['年底双薪', '绩效奖金', '带薪年假', '免费健身']音娱时光50-150人2019-12-03 11:23:35本科A轮产品|需求|项目类11:23发布today移动互联网[]00全职2019-12-03 11:23:380技术大牛多;免费餐饮;氛围好;6263661['SQL', 'BI', 'SPSS']数据分析12147286110010k-18k0数据分析['SQL', 'BI', 'SPSS']数据分析1-3年2019123114.0
2北京北京千喜鹤餐饮管理有限公司278964[]千喜鹤2000人以上2019-12-03 10:35:09本科未融资产品|需求|项目类10:35发布today消费生活['移动互联网', '视频', 'SQL']00全职2019-12-03 11:08:340福利好,五险一金,住房补助6660141['移动互联网', '视频', 'SQL']数据分析64368580020k-30k0数据分析['SQL', '数据分析']数据分析3-5年2019123125.0
3北京吉林省海生电子商务有限公司399744[]吉林省海生电子商务有限公司少于15人2019-12-03 10:35:56本科不需要融资产品|需求|项目类10:35发布today电商['其他']00全职2019-12-03 10:30:370五险一金6660148['其他']数据分析109787490033k-50k0数据分析['数据分析']数据分析3-5年2019123141.5
4北京韦博网讯科技(北京)有限公司580170[]WPIC50-150人2019-12-03 12:10:22本科未融资产品|需求|项目类12:10发布today电商,软件开发['电商']00全职2019-12-03 11:54:220待遇优厚 ,良好的发展前景6590101['电商']数据分析132131010010k-15k0数据分析['数据分析']产品|需求|项目类1-3年2019123112.5
..................................................................................................................
3135天津清博津商(天津)教育科技有限公司260578[]清博津商15-50人2019-11-13 15:55:55不限不需要融资运营|编辑|客服类2019-11-13overSevenDays数据服务,教育[]01兼职2019-11-13 15:55:450大数据行业优势,工作氛围好6579749['审核', '内容审核', '信息']审核实习生(春节短期)8913003001k-2k0审核['审核', '内容审核', '信息']信息审核应届毕业生2019111321.5
3136天津上海礼紫股权投资基金管理有限公司264817[]礼紫股权投资500-2000人2019-11-04 09:02:04不限未融资运营|编辑|客服类2019-11-04overSevenDays金融['社交', '运营']00全职2019-11-14 16:23:360旅游团建、内部晋升、待遇优厚、提供住宿6270749['社交', '运营']运营助理9535048006k-8k0运营['运营']运营助理|专员不限201911407.0
3137天津北京达佳互联信息技术有限公司1880['股票期权', '弹性工作', '定期体检', '岗位晋升']快手2000人以上2019-12-03 10:16:28本科D轮及以上运营|编辑|客服类10:16发布today文娱丨内容[]00全职2019-12-03 10:01:370五险一金,绩效奖金,餐补,房补5051153['运营', '用户运营']运营编辑团队leader10506720008k-15k0运营['运营', '用户运营']用户运营3-5年2019123111.5
3138天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:54不限C轮运营|编辑|客服类1天前发布today移动互联网['电商', '商家运营']00全职2019-12-03 11:25:100五险一金6624059['电商', '商家运营']商家运营-天津14725914316k-8k0运营['商家运营']商家运营不限201912207.0
3139天津北京河狸家信息技术有限公司25854['高配福利', '弹性时间', 'BAT¥', '逗逼伙伴']河狸家500-2000人2019-12-02 17:03:56本科C轮运营|编辑|客服类1天前发布today移动互联网['移动互联网']01全职2019-12-03 11:25:100转正机会6633633['移动互联网']运营实习生-天津14725914312k-4k0运营[]运营助理|专员应届毕业生201912203.0

3140 rows × 37 columns

# 排序和TopN
df1.sort_values(by = 'msal',ascending=False)
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYearyearmonthdayweekdaymsal
no
2084武汉北京一一万物科技有限公司132108['年底双薪', '午餐补助', '弹性工作', '扁平管理']伴伴50-150人2019-12-03 11:00:12不限不需要融资运营|编辑|客服类11:00发布today移动互联网,社交['移动互联网']00兼职2019-12-03 10:57:200时间自由、工作环境好、薪资待遇高6660359['移动互联网']应用商店维护实习生4515587149100k-200k0运营[]网络推广不限20191231150.0
2547西安西安嗅链信息技术有限公司117426867[]嗅链信息50-150人2019-12-02 22:37:11本科未融资综合职能|高级管理1天前发布today区块链['企业服务', '合伙人', '区域管理', '事业部管理']00全职2019-12-03 08:26:160年薪百万6659442['企业服务', '合伙人', '区域管理', '事业部管理']总监157291790045k-90k0高级管理职位['合伙人', '区域管理', '事业部管理']COO3-5年2019122067.5
2542西安西安嗅链信息技术有限公司117426867[]嗅链信息50-150人2019-12-02 22:37:11本科未融资综合职能|高级管理1天前发布today区块链['企业服务', '合伙人', '区域管理', '事业部管理']00全职2019-12-03 08:26:160年薪百万6659442['企业服务', '合伙人', '区域管理', '事业部管理']总监157291790045k-90k0高级管理职位['合伙人', '区域管理', '事业部管理']COO3-5年2019122067.5
1072深圳维沃移动通信有限公司19875['年终分红', '带薪年假', '年度旅游', '岗位晋升']vivo2000人以上2019-11-20 17:19:04本科不需要融资产品|需求|项目类2019-11-20sevenDays硬件['移动互联网']00全职2019-11-29 10:34:390股票期权,精英团队,弹性工作5505916['移动互联网']商业数据分析师40367820050k-80k0数据分析[]数据分析3-5年20191120265.0
1074深圳维沃移动通信有限公司19875['年终分红', '带薪年假', '年度旅游', '岗位晋升']vivo2000人以上2019-11-20 17:19:04本科不需要融资产品|需求|项目类2019-11-20sevenDays硬件['移动互联网']00全职2019-11-29 10:34:390弹性工作,股票期权,大数据平台 千万用户5948719['移动互联网']商业数据分析师 (003969)40367820050k-80k0数据分析[]数据分析3-5年20191120265.0
..................................................................................................................
3135天津清博津商(天津)教育科技有限公司260578[]清博津商15-50人2019-11-13 15:55:55不限不需要融资运营|编辑|客服类2019-11-13overSevenDays数据服务,教育[]01兼职2019-11-13 15:55:450大数据行业优势,工作氛围好6579749['审核', '内容审核', '信息']审核实习生(春节短期)8913003001k-2k0审核['审核', '内容审核', '信息']信息审核应届毕业生2019111321.5
1169广州网易(杭州)网络有限公司329['节日礼物', '技能培训', '免费班车', '带薪年假']网易2000人以上2019-12-01 16:30:07本科上市公司市场|商务类2天前发布disabled电商[]01实习2019-12-03 11:20:240平台好 、导师制、包三餐5808948['数据分析']数据分析实习生2620312621k-2k0市场|营销['数据分析']商业数据分析应届毕业生201912161.5
507上海宜家(中国)投资有限公司560057['年底双薪', '带薪年假', '定期体检', '弹性工作']宜家2000人以上2019-12-03 10:20:51本科不需要融资产品|需求|项目类10:20发布today消费生活[]00全职2019-12-03 11:26:310员工餐厅 企业年金 超长年假 外企福利6046040['数据分析', '可视化', 'SQL']高级数据分析师58832821171k-2k0数据分析['数据分析', '可视化', 'SQL']数据分析5-10年201912311.5
996深圳九章天璇投资咨询(深圳)有限公司543962[]九章天璇少于15人2019-11-23 10:07:43本科未融资产品|需求|项目类2019-11-23today金融,数据服务['互联网金融', '大数据', '数据分析']01实习2019-12-02 18:29:300金融 AI 大数据6514680['互联网金融', '大数据', '数据分析']数据分析实习生1070113811001k-2k0数据分析['数据分析']数据分析应届毕业生2019112351.5
915深圳中国平安人寿保险股份有限公司140014['绩效奖金', '带薪年假', '定期体检', '节日礼物']平安人寿2000人以上2019-12-03 00:00:12本科上市公司产品|需求|项目类00:00发布disabled金融['金融']00全职2019-12-02 10:01:280五险一金,绩效奖金,节日福利,定期体检6095621['金融']0222JM-数据分析师7915574001k-1k0数据分析[]其他数据分析1-3年201912311.0

3140 rows × 37 columns

df1.nlargest(10,'msal')
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizecreateTimeeducationfinanceStagefirstTypeformatCreateTimeimStateindustryFieldindustryLablesisHotHireisSchoolJobjobNaturelastLoginpcShowpositionAdvantagepositionIdpositionLablespositionNamepublisherIdresumeProcessDayresumeProcessRatesalaryscoresecondTypeskillLablesthirdTypeworkYearyearmonthdayweekdaymsal
no
2084武汉北京一一万物科技有限公司132108['年底双薪', '午餐补助', '弹性工作', '扁平管理']伴伴50-150人2019-12-03 11:00:12不限不需要融资运营|编辑|客服类11:00发布today移动互联网,社交['移动互联网']00兼职2019-12-03 10:57:200时间自由、工作环境好、薪资待遇高6660359['移动互联网']应用商店维护实习生4515587149100k-200k0运营[]网络推广不限20191231150.0
2542西安西安嗅链信息技术有限公司117426867[]嗅链信息50-150人2019-12-02 22:37:11本科未融资综合职能|高级管理1天前发布today区块链['企业服务', '合伙人', '区域管理', '事业部管理']00全职2019-12-03 08:26:160年薪百万6659442['企业服务', '合伙人', '区域管理', '事业部管理']总监157291790045k-90k0高级管理职位['合伙人', '区域管理', '事业部管理']COO3-5年2019122067.5
2547西安西安嗅链信息技术有限公司117426867[]嗅链信息50-150人2019-12-02 22:37:11本科未融资综合职能|高级管理1天前发布today区块链['企业服务', '合伙人', '区域管理', '事业部管理']00全职2019-12-03 08:26:160年薪百万6659442['企业服务', '合伙人', '区域管理', '事业部管理']总监157291790045k-90k0高级管理职位['合伙人', '区域管理', '事业部管理']COO3-5年2019122067.5
1072深圳维沃移动通信有限公司19875['年终分红', '带薪年假', '年度旅游', '岗位晋升']vivo2000人以上2019-11-20 17:19:04本科不需要融资产品|需求|项目类2019-11-20sevenDays硬件['移动互联网']00全职2019-11-29 10:34:390股票期权,精英团队,弹性工作5505916['移动互联网']商业数据分析师40367820050k-80k0数据分析[]数据分析3-5年20191120265.0
1074深圳维沃移动通信有限公司19875['年终分红', '带薪年假', '年度旅游', '岗位晋升']vivo2000人以上2019-11-20 17:19:04本科不需要融资产品|需求|项目类2019-11-20sevenDays硬件['移动互联网']00全职2019-11-29 10:34:390弹性工作,股票期权,大数据平台 千万用户5948719['移动互联网']商业数据分析师 (003969)40367820050k-80k0数据分析[]数据分析3-5年20191120265.0
978深圳深圳依时货拉拉科技有限公司41178['技能培训', '专项奖金', '绩效奖金', '扁平管理']货拉拉2000人以上2019-11-25 16:55:07本科D轮及以上产品|需求|项目类2019-11-25today移动互联网,消费生活[]00全职2019-12-03 10:56:450发展空间大6069939['BI', '商业', '数据分析']资深数据分析师(J11772)765920110050k-70k0数据分析['BI', '商业', '数据分析']BI5-10年20191125060.0
1071深圳维沃移动通信有限公司19875['年终分红', '带薪年假', '年度旅游', '岗位晋升']vivo2000人以上2019-11-20 17:19:03本科不需要融资开发|测试|运维类2019-11-20sevenDays硬件[]00全职2019-11-29 10:34:390股票期权,精英团队,弹性工作6474297['数据分析']商业数据分析经理40367820040k-80k0数据开发['数据分析']数据分析5-10年20191120260.0
1866南京上海冰鉴信息科技有限公司93049['福利关怀丰厚', '组织管理扁平', '年终奖金丰厚', '技术实力强大']冰鉴科技150-500人2019-12-02 13:48:10博士C轮金融类1天前发布today信息安全,数据服务[]00全职2019-12-03 09:49:450六险一金、年假、下午茶、年终2-4个月6608166['风险评估', '授信审查', '风控']模型总监1081695514050k-70k0风控['风险评估', '授信审查', '风控']风控3-5年2019122060.0
2445武汉北京字节跳动科技有限公司62['扁平管理', '弹性工作', '大厨定制三餐', '就近租房补贴']字节跳动2000人以上2019-11-21 11:15:59本科C轮开发|测试|运维类2019-11-21today文娱丨内容['后端开发']00全职2019-12-02 14:48:460六险一金,高薪期权,免费三餐,租房补贴5949709['后端开发']后端架构师-武汉120145670040k-80k0后端开发[]其他后端开发不限20191121360.0
2507武汉北京字节跳动科技有限公司62['扁平管理', '弹性工作', '大厨定制三餐', '就近租房补贴']字节跳动2000人以上2019-11-21 11:15:59本科C轮开发|测试|运维类2019-11-21today文娱丨内容['后端开发']00全职2019-12-02 14:48:460六险一金,高薪期权,免费三餐,租房补贴5949709['后端开发']后端架构师-武汉120145670040k-80k0后端开发[]其他后端开发不限20191121360.0
ser = df1.groupby('city').msal.mean()
ser
city
上海    20.198630
北京    21.044444
南京    13.411157
厦门    12.139098
天津    10.400000
广州    14.800562
成都    12.573333
杭州    20.122881
武汉    12.401111
深圳    19.473077
苏州    13.826531
西安     9.340237
长沙     9.394737
Name: msal, dtype: float64
ser.plot(kind = 'bar')
plt.xticks(rotation = 0)  # 横坐标旋转度数
plt.show()


在这里插入图片描述

def my_mean(group):
    return np.round(np.mean(group),1)

# SAC --> Split - Aggragate - Combine
df1.groupby('city').msal.agg(['max','min',my_mean,np.ptp])
maxminmy_meanptp
city
上海45.01.520.243.5
北京52.52.521.050.0
南京60.01.513.458.5
厦门37.53.012.134.5
天津37.51.510.436.0
广州40.01.514.838.5
成都50.01.512.648.5
杭州55.03.520.151.5
武汉150.02.512.4147.5
深圳65.01.019.564.0
苏州42.53.513.839.0
西安67.52.59.365.0
长沙25.03.09.422.0
# 对多个列进行数据聚合不同的列使用不同的聚合方式
# 同一个列也可以作用多个聚合函数
df1.groupby('city')[['msal','companyId']].agg({
    'msal':my_mean,
    'companyId':['nunique','count']
})
msalcompanyId
my_meannuniquecount
city
上海20.2204365
北京21.0246450
南京13.4135242
厦门12.170133
天津10.44975
广州14.8124178
成都12.6250450
杭州20.180118
武汉12.4246450
深圳19.5142260
苏州13.86898
西安9.3113169
长沙9.490152

透视表

什么是透视表:根据A统计B

# 生成透视表  DataFrame、A、B、聚合函数
pd.pivot_table(data=df1,   # DataFrame
               index = 'city',   # A 被透视对象 原表格数据项(groupby属性)
               values = ['msal','companyId'],   # B 需要透视的数据
               aggfunc = {   # 聚合函数
                   'msal':my_mean,
                   'companyId':'nunique'
               })
companyIdmsal
city
上海20420.2
北京24621.0
南京13513.4
厦门7012.1
天津4910.4
广州12414.8
成都25012.6
杭州8020.1
武汉24612.4
深圳14219.5
苏州6813.8
西安1139.3
长沙909.4
df2 = pd.read_excel('../files/data/2020年销售数据.xlsx')
df2
销售日期销售信息销售区域销售渠道销售订单品牌售价销售数量销售额
02020-01-01上海拼多多订单182894-455上海拼多多182894-455八匹马99838217
12020-01-01上海抖音订单205635-402上海抖音205635-402八匹马219296351
22020-01-01上海天猫订单205654-021上海天猫205654-021八匹马1698514365
32020-01-01上海天猫订单205654-519上海天猫205654-519八匹马169142366
42020-01-01上海天猫订单377781-010上海天猫377781-010皮皮虾2496115189
..............................
19402020-12-30北京京东订单D89677北京京东D89677花花姑娘269266994
19412020-12-30福建实体订单182719-050福建实体182719-050八匹马79977663
19422020-12-31福建实体订单G70083福建实体G70083花花姑娘2695514795
19432020-12-31福建抖音订单211471-902/704福建抖音211471-902/704八匹马59593481
19442020-12-31福建天猫订单211807-050福建天猫211807-050八匹马99272673

1945 rows × 9 columns

# 月度销售额
pd.pivot_table(data = df2,
               index = '品牌',
               columns= ['销售区域'],
               values = ['销售额'],
               aggfunc =np.sum,
               margins=True,   # 添加总计列
               margins_name='总计')
销售额
销售区域上海北京南京安徽广东江苏浙江福建总计
品牌
八匹马1689384.01703513.0317169.0239382.0214443.024992.03927.01141836.05334646
啊哟喂168858.0259090.049847.013697.026677.019104.08843.0147043.0693159
壁虎1573379.01381350.0195633.0148002.022146.05475.0202228.01150766.04678979
皮皮虾2939357.02365844.0480544.055771.095826.099989.0NaN1854940.07892271
花花姑娘5239511.06767920.0724108.0438611.01258857.0387519.0472864.05883642.021173032
总计11610489.012477717.01767301.0895463.01617949.0537079.0687862.010178227.039772087
# 品牌销售占比
temp = pd.pivot_table(data = df2,
                     index = '品牌',
                     values = '销售额',
                     aggfunc = 'sum',
                     margins=True,
                     margins_name='总计')
temp
销售额
品牌
八匹马5334646
啊哟喂693159
壁虎4678979
皮皮虾7892271
花花姑娘21173032
总计39772087
# 品牌销售占比
temp.plot(kind = 'pie',autopct = '%.2f%%',subplots=True)
plt.show
<function matplotlib.pyplot.show(close=None, block=None)>


在这里插入图片描述

# 各地区销售额
pd.pivot_table(data = df2,
              index = '销售区域',
              values = ['销售额'],
              columns = '品牌',
              aggfunc = 'sum',
              margins=True,
              margins_name='总计')
销售额
品牌八匹马啊哟喂壁虎皮皮虾花花姑娘总计
销售区域
上海1689384.0168858.01573379.02939357.05239511.011610489
北京1703513.0259090.01381350.02365844.06767920.012477717
南京317169.049847.0195633.0480544.0724108.01767301
安徽239382.013697.0148002.055771.0438611.0895463
广东214443.026677.022146.095826.01258857.01617949
江苏24992.019104.05475.099989.0387519.0537079
浙江3927.08843.0202228.0NaN472864.0687862
福建1141836.0147043.01150766.01854940.05883642.010178227
总计5334646.0693159.04678979.07892271.021173032.039772087
# 各渠道品牌销量
pd.pivot_table(data = df2,
              index = ['销售渠道'],
              columns = ['品牌'],
              values =['销售数量'],
              aggfunc = 'sum',
              margins = True,
              margins_name = '总计')
销售数量
品牌八匹马啊哟喂壁虎皮皮虾花花姑娘总计
销售渠道
京东542873331993090907221522
天猫9416926482459801588137027
实体360046221742684499113911
抖音297854120651995496612545
拼多多572271931193750908822398
总计271443381153811749943998107403
# 不同售价区间的阅读销量占比
# 分箱,将连续的数据放到离散的箱子中基于分箱的结果在进行分组
print('MAX:',df2['售价'].max())
print('MIN:',df2['售价'].min())
box = pd.cut(df2['售价'],bins = [50,300,550,800,1050,1300,1550])
temp2 = df2.groupby(box)['售价'].count()
temp2
MAX: 1499
MIN: 59





售价
(50, 300]       917
(300, 550]      745
(550, 800]      171
(800, 1050]      74
(1050, 1300]     32
(1300, 1550]      6
Name: 售价, dtype: int64
temp2.plot(kind = 'pie',autopct = '%.2f%%')
plt.show
<function matplotlib.pyplot.show(close=None, block=None)>


在这里插入图片描述


点击全文阅读


本文链接:http://zhangshiyu.com/post/31495.html

数据  分析  运营  
<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1