新浪微博爬虫（一）-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

新浪微博爬虫（一）

阅读量：4101 次

发布时间：2019-05-25

本文共 387 字，大约阅读时间需要 1 分钟。

最近一个项目需要爬取微博用户的发微博数量、转发量、评论数、点赞数，并对评论做情感分析。这两天大概做出了一个雏形，在此把爬微博过程中遇到的问题记录一下，供自己学习和大家参考。

一、模拟登陆

抓包要耐心；

读懂新浪账号密码加密算法

request的使用

二、PC 端vs. 移动端

PC端：页面更复杂，但好像反爬比移动端要宽松点儿

移动端：页面结构简单，适合新手

三、爬取过程中遇到的坑

编码、找到转发、原创、图片、文字等类型的规律

三、新浪微博反爬的坑

我用了一个user-agent pool 和三个账号。经常会隔一段时间请求返回为空的情况，过了一会儿则能顺利爬取。我猜是新浪反爬机制作祟。其实只要有账号，反爬还是比较容易的，就单单盯住一个账号的动向，异常了就直接发给你一个空页面。分布式也许能解决这个问题，让爬虫更加健壮。下一步就准备用celery做一个简单的分布式爬虫~

转载地址：http://kwksi.baihongyu.com/

你可能感兴趣的文章

Spring Cloud Finchley | Spring Cloud OAuth2

Java 基础知识 | 字符串 String&intern

ASP.NET快速入门

史上最全的 Java 技术体系思维导图，没有之一！

八大排序算法解析及Java实现

Java 数据结构 | 二叉树

synchronized 和 volatile

精通 Spring 源码 (一) | 剑指 Spring 源码

精通 Spring 源码 (二) | 揭秘 Bean 的前世今生

精通Spring 源码 (三) | Bean 的诞生及生命周期

Java 大数据【Hadoop 安装入门】

Git bash 常用命令

Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(一)

Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(二)

filebeat.yml配置文件详细说明

Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(三)

Filebeat +Kafka + Logstash + ElasticSearch +Kibana +解析日志文件实例(四)

Kibana 控制台常用语法

maven私服的安装与使用

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-21 02:46:37 当前IP: 3.22.61.30 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我