CattenLinger's Blog

利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Part 2

接上一篇《利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Part 1》抓下来的数据是一大堆的 HTML 标签夹杂着无用的玩意，那么就需要把有用的过滤出来。在 Bash 环境下就是需要利用一些命令来过滤掉没用的字符。我这里用到三个命令来过滤 sed # sed是非交互式的编辑器，它读取文件到自己的缓冲区然后再作修改。 # 默认情况下，所有的输出行都被打印到屏幕上。[1...

利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Part 1

自从弄了个 lcd4linux 之后总想着弄点什么自动化的东西显示出来，因为最近从图书馆借了点书，于是首先想到的是抓图书馆的借阅信息。我实现的思路大概来说就是，用脚本模仿正常登录查询的步骤来发出并处理请求：先用 Wireshark 对我请求的过程抓包（最方便的方式了吧），然后获取到整个过程中的 HTTP 请求，接着查看每个请求都用了什么方法、发了哪些字段，最后分析出必要的请求并模仿之，逐一...

2016-11-15 Linux 技术应用