Dongqiudi
这是对"懂球帝"App的数据爬虫与分析。
技术栈:
首先使用 软件Charles 抓包懂球帝App的各个API:
球队信息API: 和
获取 Article ID 的 API:
获取评论用户的API:大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!
获取用户信息的API:
先获取最近5000页的10w篇article,然后获取这些article评论区的用户,再爬取这些用户的个人数据。
使用 Requests 库来爬取数据,其中爬取评论区的用户ID时间比较长,而且只能串行不可并行,需要有断点继续机制大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。爬取到60w用户ID后,可以并行来获取这些用户的个人数据。
所有数据存储在本地的sqlite3数据库中。
使用PyEcharts来进行数据可视化,其中分词部分使用。
1. 数据准备
将所有数据存储在 sqlite3 中。
数据包括:大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!
球队信息列表。
共 144 个球队,存储在 team 表。
近期的文章列表。
一共提取
版权声明
本文仅代表作者观点,不代表xx立场。
本文系作者授权xxx发表,未经许可,不得转载。