当前位置:首页 » 《随便一记》 » 正文

《双城之战》口碑爆炸,却有评论说它不如国漫?Python采集好评、中评、差评数据,看它真有那么差吗_【CSDN官方推荐】

28 人参与  2022年04月10日 11:26  分类 : 《随便一记》  评论

点击全文阅读


前言

上次爬了《双城之战》的视频弹幕,效果很不理想,这次的目标是豆瓣的评论数据

分别把好评、一般和差评都一起爬下来

主页左侧可以免费领取【代码】【相关教程、资料】,或者对于本篇文章有疑问的同学可以私信我

知识点

  • 爬虫基本流程
  • requests
  • 制作词云
  • jieba
  • imageio
  • wordcloud

环境

  • Python 3.8
  • pycharm 2021.2

代码实现部分

  • 发送请求
  • 解析数据
  • 保存数据
  • 制作词云图

评论爬虫代码

导入模块

import requests
import parsel

请求数据

先打开开发者工具找到数据

url = f'https://movie.douban.com/subject/34867871/comments?start=20&limit=20&status=P&sort=new_score'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

解析数据

select = parsel.Selector(response.text)
content_list = select.css('.short::text').getall()

翻页

找到不同页数的规律,用for page进行翻页

for page in range(0, 220, 20):
    url = f'https://movie.douban.com/subject/34867871/comments?start={page}&limit=20&status=P&sort=new_score'

保存数据

for index in content_list:
    with open('双城之战.txt', mode='a', encoding='utf-8') as f:
        f.write(index)
        f.write('\n')
    print(index)

实现效果

词云代码

导入模块

import jieba
import wordcloud
import imageio

导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片

py = imageio.imread(r"C:\Users\Administrator\Desktop\123.png")

读取文件内容

f = open(r'C:\Users\Administrator\Desktop\双城之战.txt', encoding='utf-8')
txt = f.read()

jiabe 分词 分割词汇

txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(
        width=1000,         # 图片的宽
        height=700,         # 图片的高
        background_color='white',   # 图片背景颜色
        font_path='STKAITI.TTF',    # 词云字体
        mask=py,     # 所使用的词云图片
        scale=5,
)

给词云输入文字

wc.generate(string)

词云图保存图片地址

wc.to_file(r'C:\Users\Administrator\Desktop\out.png')

全部评论词云图

好评词云图

一般词云图

差评词云图


点击全文阅读


本文链接:http://zhangshiyu.com/post/37687.html

云图  双城  数据  
<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1