本文共 387 字,大约阅读时间需要 1 分钟。
最近一个项目需要爬取微博用户的发微博数量、转发量、评论数、点赞数,并对评论做情感分析。这两天大概做出了一个雏形,在此把爬微博过程中遇到的问题记录一下,供自己学习和大家参考。
一、模拟登陆 抓包要耐心; 读懂新浪账号密码加密算法 request的使用二、PC 端vs. 移动端
PC端:页面更复杂,但好像反爬比移动端要宽松点儿 移动端:页面结构简单,适合新手三、爬取过程中遇到的坑
编码、找到转发、原创、图片、文字等类型的规律三、新浪微博反爬的坑
我用了一个user-agent pool 和三个账号。经常会隔一段时间请求返回为空的情况,过了一会儿则能顺利爬取。我猜是新浪反爬机制作祟。其实只要有账号,反爬还是比较容易的,就单单盯住一个账号的动向,异常了就直接发给你一个空页面。分布式也许能解决这个问题,让爬虫更加健壮。下一步就准备用celery做一个简单的分布式爬虫~转载地址:http://kwksi.baihongyu.com/