网站首页 > 文章精选 正文
大家好,我是公众号3分钟学堂的郭立员~
这两天群友接了一单定制脚本的活,采集500彩票网的开奖数据,具体细节我没问,通过问我的问题,我猜猜采集的数据可能是这个:
采集的目标网址:https://kaijiang.500.com/shtml/ssq/03001.shtml
遇到的问题是啥呢?
使用按键直接获取网页源码得到的结果是这样的:
TracePrint url.get("https://kaijiang.500.com/shtml/ssq/03001.shtml")
当前脚本第1行:<html>
<head><title>301 Moved Permanently</title></head>
<body bgcolor="white">
<center><h1>301 Moved Permanently</h1></center>
<hr><center>nginx</center>
</body>
</html>
返回的结果是301重定向(并不是报错),无法获取到网页的html源码,我用浏览器自带的抓包调试工具看了一下,也没有跳转到别的网址,猜测是网页为了限制爬虫采集,做了一个假的跳转。
因为浏览器可以正常访问页面,所以想到的方法就是伪装成浏览器获取网页源码。
说是伪装,其实就是在http请求头里面加上User-Agent参数,很多做过抓包协议的人都懂的。
这个文章就这么一个知识点,直接上源码:
Import "shanhai.lua"
Dim uri = "https://kaijiang.500.com/shtml/ssq/03001.shtml"
Dim hader = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) Apple WebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
Dim date1 = {"url":uri,"code":"gb2312", "cookie":"", "header":{"User-Agent":hader}}
Dim login = Url.HttpPost(date1)
TracePrint login
Dim arr=shanhai.RegexFind(login,"<li class=""ball_.-"">(.-)</li>")
For Each k In arr
TracePrint k
Next
Dim haoma=shanhai.RegexFind(login,"出球顺序:.-<td>(.-)<")
TracePrint haoma(0)
还有一点需要注意的,网站编码是GB2312,所以HttpPost命令的code需要修改一下,否则网页中汉字部分会出现乱码。
=正文完=
- 上一篇: 闲鱼APP爬虫
- 下一篇: 初学者怎样学习 JS 更有效?六个方法供你参考
猜你喜欢
- 2025-01-13 Fiddler:程序员必备的网络抓包调试工具
- 2025-01-13 闲鱼APP爬虫
- 2025-01-13 刚刚美团开源了一款超级好用的抓包及 Mock 工具
- 2025-01-13 从零基础到精通,抓包神器fiddler保姆级使用教程(一)
- 2025-01-13 安全测试工具抓包工具Fiddler
- 2025-01-13 2024年6月6日,最新恢复好友,最新抓包技术,一个方法教会你!
- 2025-01-13 抓包工具Fiddler
- 2025-01-13 什么是抓包?它能解决你遇到的网络所有问题!
- 2025-01-13 Whistle 使用教程:开发者必备的抓包利器
- 2025-01-13 PanTools神器来袭,网盘达人必备的高效利器
- 最近发表
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 稳压管的稳压区是工作在什么区 (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)