Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

接上一篇 《利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Part 1》 抓下来的数据是一大堆的 HTML 标签夹杂着无用的玩意,那么就需要把有用的过滤出来。在 Bash 环境下就是需要利用一些命令来过滤掉没用的字符。 我这里用到三个命令来过滤 sed # sed是非交互式的编辑器,它读取文件到自己的缓冲区然后再作修改。 # 默认情况下,所有的输出行都被打印到屏幕上。[1...

自从弄了个 lcd4linux 之后总想着弄点什么自动化的东西显示出来,因为最近从图书馆借了点书,于是首先想到的是抓图书馆的借阅信息。 我实现的思路大概来说就是,用脚本模仿正常登录查询的步骤来发出并处理请求:先用 Wireshark 对我请求的过程抓包(最方便的方式了吧),然后获取到整个过程中的 HTTP 请求,接着查看每个请求都用了什么方法、发了哪些字段,最后分析出必要的请求并模仿之,逐一...

本文参考《Linux Shell 编程 从入门到精通》(电子工业出版社出版)一书 3.3 章节 Bash 本身并不支持正则表达式,但是 Bash 可以使用一些通配符实现通配功能: ? 代表一个任意字符 * 代表任意个任意字符 [] 需要匹配的字符集合(例如 a-z, A-Z, 0-9 这样) {} 代表一组表达式的与关系,例如 {[a-h]*.txt,0?...