0898-08980898

利盈平台EXPERTS

李某某

咨询热线

0898-08980898
地址:广东省清远市
传真:0000-0000-000

利盈APP下载

当前位置: 首页 > 利盈APP下载

python爬虫 爬取抖音网页版视频、评论、点赞数

发布时间:2023-11-27 11:05:24 点击量:

前言

整理一下python在抖音网页版的应用 以抓取一个视频及评论为例进行讲解

获取视频 url

随便找一个视频,点击进入详情,页面中地址栏里就是该视频的 url 。在这里插入图片描述 手机端复制链接后,先粘到浏览器地址栏访问,url 会自动转换,这时候复制地址栏的 url 即可。

发送请求

接下来就是简单的发送请求,唯一需要注意的一点就是 headers 中除了要配置 UA 外,还要配置 cookie 信息,否则拿不到想要的数据,cookie 位置在下图在这里插入图片描述 配置好 headers 之后,发送 get 请求,拿到页面源码数据


数据解析

在页面源码数据中有很长一串数据是经过 url 编码的,而我们需要的数据都在这串数据中,因此我们需要拿到这串数据。通过正则表达式定位并取出这串数据,然后调用 requests 模块下的工具包 utils 里的 unquote 方法解码这串数据(得到的是 string 类型的数据),代码如下:


后面就是经典的资源定位了,我们先来说视频下载,先在数据中找到视频的链接,会发现有两个在这里插入图片描述 经过我的测试,第一个链接的视频带有水印,而第二个没有,这个根据自己的需要选择就行,只是改个索引的问题,我这里选择第二个无水印的,编写正则表达式将其取出


评论数据及标题类似,只是位置不同


再后面的话就是持久化存储了,这个没什么好说的,就不再赘述了,我直接贴一下存视频的代码,评论也是类似的


结尾

到这我们就基本完成了,批量的话只是稍微调一下的问题,主要问题还是在数据的解析上。 如果有问题的话,可以评论区留言,也可以私信我,欢迎大家一起讨论

完整代码


自己配置上 url 和 cookie 就能直接运行

还有就是有时候会报Latin-1编码异常,这个问题大概率是由于请求头里含有…引起的,打开原始按钮重复复制就解决了。其他问题的话都可以留言讨论。 在这里插入图片描述

最后,觉得写的还可以的小伙伴可以关注我的个人公众号,一起交流进步 qrcode_for_gh_a14f84a48608_344.jpg

注:图片上有CSDN的水印是因为这是我以前在CSDN发过的,是我本人所写的文章,并非搬运他人成果

咨询热线:0898-08980898
站点分享:
友情链接: 凤凰 天游 富联 天富 耀世
电话:0898-08980898
传真:0000-0000-000
地址:广东省清远市
Copyright © 2012-2018 首页-利盈娱乐-注册登录中心    
ICP备案编号:琼ICP备xxxxxxxx号

平台注册入口