博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
新浪微博爬虫(一)
阅读量:4101 次
发布时间:2019-05-25

本文共 387 字,大约阅读时间需要 1 分钟。

最近一个项目需要爬取微博用户的发微博数量、转发量、评论数、点赞数,并对评论做情感分析。这两天大概做出了一个雏形,在此把爬微博过程中遇到的问题记录一下,供自己学习和大家参考。

一、模拟登陆
抓包要耐心;
读懂新浪账号密码加密算法
request的使用

二、PC 端vs. 移动端

PC端:页面更复杂,但好像反爬比移动端要宽松点儿
移动端:页面结构简单,适合新手

三、爬取过程中遇到的坑

编码、找到转发、原创、图片、文字等类型的规律

三、新浪微博反爬的坑

我用了一个user-agent pool 和三个账号。经常会隔一段时间请求返回为空的情况,过了一会儿则能顺利爬取。我猜是新浪反爬机制作祟。其实只要有账号,反爬还是比较容易的,就单单盯住一个账号的动向,异常了就直接发给你一个空页面。分布式也许能解决这个问题,让爬虫更加健壮。下一步就准备用celery做一个简单的分布式爬虫~

转载地址:http://kwksi.baihongyu.com/

你可能感兴趣的文章
Spring Cloud Finchley | Spring Cloud OAuth2
查看>>
Java 基础知识 | 字符串 String&intern
查看>>
ASP.NET快速入门
查看>>
史上最全的 Java 技术体系思维导图,没有之一!
查看>>
八大排序算法解析及Java实现
查看>>
Java 数据结构 | 二叉树
查看>>
synchronized 和 volatile
查看>>
精通 Spring 源码 (一) | 剑指 Spring 源码
查看>>
精通 Spring 源码 (二) | 揭秘 Bean 的前世今生
查看>>
精通Spring 源码 (三) | Bean 的诞生及生命周期
查看>>
Java 大数据【Hadoop 安装入门】
查看>>
Git bash 常用命令
查看>>
IDEA 使用Git
查看>>
Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(一)
查看>>
Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(二)
查看>>
filebeat.yml配置文件详细说明
查看>>
Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(三)
查看>>
Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(四)
查看>>
Kibana 控制台常用语法
查看>>
maven私服的安装与使用
查看>>