原创力文档(原创力文档如何赚钱)
【点击查看】低成本上班族靠谱副业好项目 | 拼多多无货源创业7天起店爆单玩法
【点击查看】逆林创业记 | 拼多多电商店铺虚拟类项目新玩法(附完整词表&检测工具)
【点击查看】逆林创业记 | 小白ai写作一键生成爆文速成课
领300个信息差项目,见公众号【逆林创业记】(添加请备注:网站)
一、爬取背景?
今天因为想找一份资料原创力文档,去到百度一搜,发现原创力文档里面有我想要的内容,
但好家伙居然要扫码支付才能下载文档,
这对技术人能忍?
对一个深度白嫖技术人想要的东西怎么能付费呢?
话不多说原创力文档,说干便干
进入我们的正(bai)式(piao)操作。
二、正(bai)式(piao)操作 1.安装库
此文所需要的库有pil ,os,re,requests,Beautifulsoup,json:
其中os为python自带库无需安装
其余库皆可使用 pip install xxx
例如:
pip install PIL
pip install bs4
pip install re
pip install requests
pip install json
2.导入项目所需库
代码如下(示例):
import urllib.request as ur#下载图片
import requests#网络请求
import re#正则匹配
import json#提取api数据
import time#时间库
from PIL import Image#处理图片
import os#文件操作
该处为本文所需要的库函数。
3.正文开始 3.2检查文档并分析
首先我们打开我们想要下载的的文档,
然后鼠标右键点击文档页面
检查查看源代码,也可以直接按f12
打开源代码后我们点左上角
点击按钮变为蓝色后,用鼠标点击页面图片快速找到页面图片源码所在在位置。
我们点击后发现源码位置定位到了一条不相关语句,
我们点开上方div前的小三角看一下,
看到源码里的
猜想这就是图片链接吧
我们双击此链接crtl+c把此链接复制到浏览器新页面打开发现此图片就是我们检查元素的图片,
(这里可能不是你点击检查的图片,但在同一个文档里),找到链接后就好办了
接下来
我们回到文档界面在文档链接前面加上view-source:查看文档源代码
按下回车出现如图所示界面
然后我们按下ctrl+F对页面元素进行查找刚才复制的图片链接
发现在源码里找不到图片的链接,这说明此文档为动态加载,遇到动态加载怎么办呢?
这就需要我们对浏览器进行抓包分析。
3.2对网页进行抓包分析
回到源码界面点击network选项卡
然后鼠标点击js选项按下F5刷新页面对动态请求抓包
刷新之后我们一个一个请求进行查看注意点到preview选项卡
然后我们看到最下面一个带有html?的请求打开之后是一些链接,对链接复制到新的页面进行查看发现正是我们想要的图片的链接(下面链接打开为上方图片内内容)
发现链接之后我们就要去查看它得到这些链接的请求方式我们切换回到headers选项卡
对requests_url复制到新的浏览器页面进行查看
打开后发现是一串像json的数据
里面包含了需要的图片链接,好了万事俱备,就该来构造我们的爬虫了
3.3爬虫构造 爬虫三部曲(一):请求数据
请求第一步是要先构造我们的链接
?后面为链接的参数有些东西不是必须的所以我们只保留关键链接和重要参数
可以构造一个名为params的字典把参数存进去,其中重要参数有
然后就是爬虫头伪装 user_agent,cookie,refer
最终代码为这个样子
seeion=requests.Session()#这里用来存储状态
headers = {
'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.124 Safari/537.36 qblink wegame.exe WeGame/5.0.4.8192 QBCore/3.70.101.400 QQBrowser/9.0.2524.400',
'Host': 'openapi.book118.com',
'Cookie': 'CLIENT_SYS_UN_ID=wKh2CmE56HRuhr8Wq5haAg==; __yjs_duid=1_64509509bcfb3fb3252e11a3c6ae100d1631186596044; EXAMINE_CLOSE=true; 30d8fb61e609cac11=1631694291%2C1; 0ab7d33081eeb=arduino; input_search_logs=a%3A4%3A%7Bi%3A0%3Ba%3A2%3A%7Bs%3A8%3A%22keywords%22%3Bs%3A7%3A%22arduino%22%3Bs%3A4%3A%22time%22%3Bi%3A1631773441%3B%7Di%3A1%3Ba%3A2%3A%7Bs%3A8%3A%22keywords%22%3Bs%3A11%3A%22arduino+%E8%BD%A6%22%3Bs%3A4%3A%22time%22%3Bi%3A1631675780%3B%7Di%3A2%3Ba%3A2%3A%7Bs%3A8%3A%22keywords%22%3Bs%3A13%3A%22arduino%E5%B0%8F%E8%BD%A6%22%3Bs%3A4%3A%22time%22%3Bi%3A1631510790%3B%7Di%3A3%3Ba%3A2%3A%7Bs%3A8%3A%22keywords%22%3Bs%3A15%3A%22%E5%8E%9F%E5%88%9B%E5%8A%9B%E6%96%87%E6%A1%A3%22%3Bs%3A4%3A%22time%22%3Bi%3A1631510773%3B%7D%7D; PREVIEWHISTORYPAGES=45138893_2,147911206_1,188979028_19,51185244_20,202962949_1,154525691_24,189956752_8,332281980_2,332281917_1,181595818_1,80027377_8,137736285_5,334760271_1,315218716_4,355261628_4,285194752_2,282245445_1,196615342_1,139214192_1,182435414_5,129025809_3,232954297_5,280705767_1,97510779_3,130246177_5,139213526_1,161582380_3,314355454_5,316143061_1,396617400_52,331274945_13; Book118UserFlag=%7B%22189956752%22%3A1631517003%2C%22154525691%22%3A1631594623%2C%22202962949%22%3A1631675567%2C%2251185244%22%3A1631769644%2C%22322848463%22%3A1631769625%2C%22188979028%22%3A1631772185%2C%22204014911%22%3A1631698444%2C%22147911206%22%3A1631772464%2C%22108286410%22%3A1631772597%2C%22196615342%22%3A1631772638%2C%2249734221%22%3A1631772769%2C%2245138893%22%3A1631772821%2C%22158815913%22%3A1631772856%2C%22326438730%22%3A1631772911%2C%2230197720%22%3A1631772973%2C%22181696486%22%3A1631773001%2C%2247453316%22%3A1631773114%2C%22175196219%22%3A1631773136%2C%2244149489%22%3A1631773172%2C%22213873416%22%3A1631773198%2C%22139213526%22%3A1631773535%2C%22139213527%22%3A1631774577%2C%22139213516%22%3A1631773643%2C%22313170487%22%3A1631774036%2C%22402633267%22%3A1631774055%2C%22161582380%22%3A1631774086%2C%22100771870%22%3A1631774196%2C%22368624467%22%3A1631774882%2C%22115786411%22%3A1631778328%2C%22108799065%22%3A1631781985%7D; Book118UserFlag__ckMd5=7019befe3e43e8d4; 94ca48fd8a42333b=1631781985%2C38; PHPSESSID=6s0jc7b05ri57u2ljv9k6a34j4; Hm_lvt_f32e81852cb54f29133561587adb93c1=1631592934,1631675567,1631769615,1631784629; s_rfd=cdh%3D%3E27a30245%7C
文章评论(0)