当前位置:首页 » 《随便一记》 » 正文

抓取豆瓣上的《长津湖》的热评,我发现了这些_K同学啊的博客

25 人参与  2022年03月08日 17:06  分类 : 《随便一记》  评论

点击全文阅读


前言

  • 🔗 运行环境:python3
  • 🚩 作者:K同学啊
  • 📚 精品专栏:《Matplotlib教程》
  • 🧿 优秀专栏:《Python入门100题》
  • 🔥 推荐专栏:《小白入门深度学习》
  • 🥇 精选专栏:《深度学习100例》

大家,我是K同学啊!

近期一部《长津湖》火爆朋友圈,被各种安利,咱一个人也不想跑电影院去霸个情侣座,就老老实实分析一下影评,看看大家的“观后感”是吧~

首先定位目标网页

https://movie.douban.com/subject/25845392/comments

上爬虫,抓取下面四个字段

然后使用pandas对导入数据并做简单的处理

import pandas as pd
import os

file_path = os.path.join("douban.csv")

#读取test.csv文件中的A、B列,若不设置usecols参数,默认读取全部数据。
df = pd.read_csv(open(file_path,'r',encoding='utf-8'), names=["用户名","星评","评论时间","评论"])
df.head()
用户名星评评论时间评论
0依然范特西还行2021-09-30 10:23:06有点失望,剧情可以说无,还是一如既往的人物塑造,一如既往的这样煽情,第一场战斗要比第二场好看...
1奥利奥小饼干🍪较差2021-09-30 15:13:40看完三个小时只想说以为高潮要来了结果戛然而止,有点头重脚轻了,水门桥的部分是要单独再拿出来整...
2高质量鉴赏达人较差2021-09-26 21:17:48去看了点映,值得票价,三个小时看下来还好,一直战争戏容易麻痹双眼,但是也刺激。我不喜欢红海因...
3吴点半还行2021-09-27 18:16:24只说实话:\n1、片长太长,对观众非常不友好。战争戏完全可以减少,士兵互相闹着玩的戏完全可以...
4xi-xia还行2021-09-30 11:11:45战斗场面篇幅之长,剧情逻辑衔接之弱,看到最后真的麻木了。片长控制在两个小时更好一点。
star_num = df.星评.value_counts()
star_num = star_num.sort_index()
star_num
力荐        112
推荐         35
该用户未星评      2
较差         14
还行         37
Name: 星评, dtype: int64

豆瓣短评评分占比

from pyecharts.charts import Pie, Bar, Line, Page
from pyecharts import options as opts 
from pyecharts.globals import SymbolType

# 数据对
data_pair = [list(z) for z in zip([i for i in star_num.index], star_num.values.tolist())]

# 饼图
pie1 = Pie(init_opts=opts.InitOpts(width='800px', height='400px'))
pie1.add('', data_pair, radius=['35%', '60%'])
pie1.set_global_opts(title_opts=opts.TitleOpts(title='豆瓣短评评分占比'), 
                     legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%')
                    ) 
pie1.set_series_opts(label_opts=opts.LabelOpts(formatter='{b}:{d}%'))
pie1.render_notebook()

在这里插入图片描述

评论数量走势图

# 折线图
line1 = Line(init_opts=opts.InitOpts(width='800px', height='400px'))
line1.add_xaxis(comment_date.index.tolist())
line1.add_yaxis('', comment_date.values.tolist(),
                #areastyle_opts=opts.AreaStyleOpts(opacity=0.5),
                label_opts=opts.LabelOpts(is_show=False))
line1.set_global_opts(title_opts=opts.TitleOpts(title='评论数量走势图'), 
#                       toolbox_opts=opts.ToolboxOpts(),
                      visualmap_opts=opts.VisualMapOpts(max_=140))
line1.set_series_opts(linestyle_opts=opts.LineStyleOpts(width=4))
line1.render_notebook()

在这里插入图片描述

9月30号上映,9月29号就开始造势了,30号达到高峰,但是1号似乎势头大减啊。

词云图

正面

import jieba

def get_cut_words(content_series):
    # 读入停用词表
    stop_words = [] 
    
    with open(r"hit_stopwords.txt", 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            stop_words.append(line.strip())

    # 添加关键词
    my_words = ['长津湖', '志愿军']  
    for i in my_words:
        jieba.add_word(i) 

#     自定义停用词
    my_stop_words = ['电影',"长津湖","战争"] 
    stop_words.extend(my_stop_words)               

    # 分词
    word_num = jieba.lcut(content_series.str.cat(sep='。'), cut_all=False)

    # 条件筛选
    word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2]
    
    return word_num_selected
text1 = get_cut_words(content_series=df[(df.星评=='力荐')|(df.星评=='推荐')]['评论'])
text1[:5]
['牺牲', '冰雪', '战士', '应该', '遗忘']
import stylecloud
from IPython.display import Image # 用于在jupyter lab中显示本地图片



# 绘制词云图
stylecloud.gen_stylecloud(text=' '.join(text1), 
                          max_words=1000,
                          collocations=False,
                          font_path=r'经典综艺体简.ttf',
                          icon_name='fas fa-thumbs-up',
                          size=360,
                          output_name='豆瓣正向评分词云图.png')

Image(filename='豆瓣正向评分词云图.png') 

负面

text2 = get_cut_words(content_series=df[(df.星评=='还行')|(df.星评=='较差')]['评论'])
text2[:5]
['有点', '失望', '剧情', '一如既往', '人物']
# 绘制词云图
stylecloud.gen_stylecloud(text=' '.join(text2), 
                          max_words=1000,
                          collocations=False,
                          font_path=r'经典综艺体简.ttf',
                          icon_name='fas fa-thumbs-down',
                          size=350,
                          output_name='豆瓣负向评分词云图.png')
Image(filename='豆瓣负向评分词云图.png') 

🔥 关注下方公众号(K同学啊)回复:长津湖,获取源码


点击全文阅读


本文链接:http://zhangshiyu.com/post/35908.html

云图  豆瓣  评论  
<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最新文章

  • 京圈佛子破戒后,我改嫁京圈纨绔(沈墨渊,白晶晶)
  • 前世被闺蜜害死,重生后我让她从太子妃变疯女苏婉儿,清歌完本_前世被闺蜜害死,重生后我让她从太子妃变疯女(苏婉儿,清歌)
  • 全书浏览七零军嫂太彪悍,带三宝上军区离婚(沈清落,陈桂花,陆有为)_七零军嫂太彪悍,带三宝上军区离婚(沈清落,陈桂花,陆有为)全书结局
  • 今天也没变成昨天(周扬陈默)全书免费_(周扬陈默)今天也没变成昨天后续(周扬陈默)
  • 重生后,秦总非要父以子贵(许沐晴,秦越泽)全书浏览_重生后,秦总非要父以子贵全书浏览
  • 他嫌弃我喝两块钱豆浆上不了台面,我结婚后他又哭又闹全书万照,白青青在线
  • 昭然若梦前尘烬列表_昭然若梦前尘烬(温昭然方池雲)
  • 导师借我股票账号,我倒欠五十万(孟潇潇,宁薇)_导师借我股票账号,我倒欠五十万孟潇潇,宁薇
  • 拒绝把外卖券给舍友,竹马送我到迪拜捡垃圾(周钰泽,蒋清清,思源)全书浏览_拒绝把外卖券给舍友,竹马送我到迪拜捡垃圾全书浏览
  • 我的人生,你已出局(程森凌古楚文)_我的人生,你已出局程森凌古楚文
  • 穿书成病娇女配,睁眼就签下离婚协议书(朱楼)_穿书成病娇女配,睁眼就签下离婚协议书
  • 老婆逼我给白月光捐肾,我死后她悔疯了(宋逸晨沈墨白)全书浏览_老婆逼我给白月光捐肾,我死后她悔疯了全书浏览

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1