
xhs_douyin_content自动抓取抖音和小红书内容
声明:该文章由作者(skyheart)发表,转载此文章须经作者同意并请附上出处(0XUCN)及本页链接。。
自动抓取抖音和小红书创作者中心里的每条视频的播放、完播、点击、2s 跳出、播放时长、点赞、分享、评论、收藏、主页访问、粉丝增量等数据。
Github地址
https://github.com/cwjcw/xhs_douyin_content
创建项目参数文件夹和文件
• 新建project_config文件夹,在文件夹内创建project.py文件,输入以下内容:import os# 存放excel下载的路径,请注意可以用你自己本地的路径替换file_path = r'E:\\'data_path = os.path.join(file_path,'data.xlsx')yesterday_data_path = os.path.join(file_path,'yesterday_data.xlsx')# 存放sql文件的路径,这个是我自己存放sql文件的,可以忽略custom_count_sql = r'G:\New Code\douyin_video\sql\douyin_customer.sql'# 字段映射关系(name到label),这个也是我自己用的,可以忽略video_content = { "_widget_1741257105163": "账号名称", "_widget_1741257105165": "账号ID", "_widget_1740798082550": "是否完整内容", "_widget_1740798082567": "完整内容提供", "_widget_1740798082568": "半成品内容提供", "_widget_1740798082569": "剪辑", "_widget_1740798082570": "发布运营", "_widget_1740646149825": "正片标题", "_widget_1740798082556": "正片链接", "_widget_1740646149824": "正片ID", "_widget_1740646149826": "提交日期", "_widget_1741934971937": "来源门店/部门", "_widget_1740655279753": "正片说明", "_widget_1740655279752": "正片封面", "_widget_1740656251325": "数量"}
用法
爬虫部分,在spiders文件夹中• 如果只是仅仅对抓取抖音和小红书后台内容有兴趣,直接运行spiders文件夹下的douyin.py和xhs.py即可。• 第一次需要扫码登录,登陆后回到代码界面输入回车,即可继续。数据处理部分,在data_processing文件夹中• 可以先从后台下载对应的excel文件,清空标题以外的内容,命名为yesterday_data.xlsx• 系统会自动下载data.xlsx,并在处理完后,自动将data.xlsx命名为yesterday_data.xlsx
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
- 1 习近平的青春观 7904566
- 2 日本一火山喷发 火山灰柱高达5000米 7807888
- 3 印度10年造出死亡折角立交桥 7713078
- 4 7月7日起这场主题展览开幕 必看! 7617994
- 5 15位数的电话号码即将启用 7521326
- 6 雷佳音突然被观众“嫌弃”了 7424354
- 7 “起猛了 航母开楼下了” 7329244
- 8 电视剧《亮剑》将重播 7232945
- 9 农夫山泉“天价”冰块是不是智商税 7139051
- 10 小米又用“1999元起”试探年轻人 7044309