用Python爬取腾讯视频弹幕

2020-10-28

via:菜J学Python

1.网页分析

本文以爬取《脱口秀大会第3季》最后一期视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

用Python爬取腾讯视频弹幕

通过删减各参数，发现仅有timestamp参数的变化会影响弹幕数据的爬取，且timestamp参数是首项为15，公差为30的等差数列。可以大胆猜测腾讯视频每30秒更新一页弹幕数据，该视频长度为12399秒。而数据格式为标准的json格式，因此json.loads直接解析数据即可。

2.爬虫实战

import requests

import json

import time

import pandas as pddf = pd.DataFrame()
for page in range(15, 12399, 30):

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

url = 'https://mfm.video.qq.com/danmu?otype=json&timestamp={}&target_id=5938032297%26vid%3Dx0034hxucmw&count=80'.format(page)

print("正在提取第" + str(page) + "页")

html = requests.get(url,headers = headers)

bs = json.loads(html.text,strict = False)  #strict参数解决部分内容json格式解析报错

time.sleep(1)
#遍历获取目标字段
for i in bs['comments']:

content = i['content']  #弹幕

upcount = i['upcount']  #点赞数

user_degree =i['uservip_degree'] #会员等级

timepoint = i['timepoint']  #发布时间

comment_id = i['commentid']  #弹幕id

cache = pd.DataFrame({'弹幕':[content],'会员等级':[user_degree],
'发布时间':[timepoint],'弹幕点赞':[upcount],'弹幕id':[comment_id]})

df = pd.concat([df,cache])

df.to_csv('tengxun_danmu.csv',encoding = 'utf-8')

print(df.shape)

3.数据预览

用Python爬取腾讯视频弹幕

阅读剩余

THE END

用Pandas分析了75w多条数据，揭秘美国选民的总统喜好

像做菜一样简单的数据分析

thumbnail

[干货]利用Python给文章自动化配图

配图，一直是个人站长的痛点，一个是图片版权问题，另一个就是图片的相关度问题。但是作为一个有前途的seo，不应该被配图所难倒。所以今天在这里给大家分享……

2021-10-30 流光啸月

0 0

thumbnail

外贸网站运营必备技能（一）：Python实现英文文案批量伪原创

伪原创，对于大多数展示型的外贸网站而言，意义并不是很大。网站的内容相对比较简单，也不需要大量的发布产品；有限的产品文案，很多公司的外贸业务员也能够……

2021-10-26 流光啸月

0 0

thumbnail

[技能升级]如何对你的网站进行访问压测

为什么要进行压力测试？对于个人站长而言，可能这方面的需求并不大，或者说很多的个人站长都不知道有这么个玩意。在中大型互联网公司，不管是做网站还是A……

2021-06-17 流光啸月

0 0

thumbnail

【自动登录】Python如何实现网站自动登录案例实战

本文为自动登录系列教程的第一篇入门篇，主要讲解一下如何用Python实现简单的自动登录网站。本次案例以zblog为例，主要模拟通过用户和密码实现登录。环境……

2021-06-17 流光啸月

0 0

thumbnail

如何建立业务数据分析指标体系？

你好，我是林骥。有位叫石墨锡的读者，在知识星球提问：如何建立业务数据分析指标体系？我觉得这是一个很好的问题，下面是我的回答，其中有些思想来源于……

2020-11-30 流光啸月

0 0

thumbnail

用Python预测2020年双十一交易额

你好，我是林骥。去年双十一的时候，我曾利用算法预测过阿里巴巴 2019 年双十一交易额，并做了复盘总结（本文结尾处有当时预测和复盘的文章链接）。今年的……

2020-11-10 流光啸月

0 0

thumbnail

用Python自动生成Excel报表

你好，我是林骥。在日常工作中，可能会有一些重复无聊的任务，比如说，从 Excel 或数据库中收集一些数据，设置相应的数据格式并做成报表。类似这种重复无……

2020-11-06 流光啸月

0 0

thumbnail

数据分析的 5 项演绎原则

你好，我是林骥。鲁迅曾经在《论辩的魂灵》中，写过这么一段话：你说甲生疮。甲是中国人，你就是说中国人生疮了。既然中国人生疮，你是中国人，就是你……

2020-11-03 流光啸月

0 0

thumbnail

逆向思维的 5 种方法

你好，我是林骥。逆向思维，是指打破正常的思维习惯，从事物的反面去思考解决问题的方法。我觉得作为数据分析师，更加需要训练和提升逆向思维的能力，从而……

2020-11-02 流光啸月

0 0

thumbnail

YouTube留言分析看美国大选

作者赵一横雷诺兹新闻研究院研究助理李金璞统计学专家王逸清机器学习工程师李昨非密苏里大学新闻学院研究生编者按 ……

2020-11-02 流光啸月

0 0