首頁
博客导航
分类
标签
归档
友链
关于
首頁
博客导航
分类
标签
归档
友链
关于
Catten Linger's Blog
(´・ω・`) Would you want some coding kitten ?
在 shell 下使用 xmllint 来通过 XPath 解析 html
突然有个想法,想直接下载 html 文件并将里面的 meta 标签都拿出来,于是便去翻 Google 了。 xmllint 命令是 libxml 附带的工具(GNOME libxml2)。其中一个用法是通过 --xpath 来选择输出对应的元素。而 XPath(XML Path Language)是一个设计来查询 xml 内容的语言,可以在对应的维基页面查看描述。 一个简单的用法: 1234...
2024-10-31
Read More
利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Part 2
接上一篇 《利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Part 1》 抓下来的数据是一大堆的 HTML 标签夹杂着无用的玩意,那么就需要把有用的过滤出来。在 Bash 环境下就是需要利用一些命令来过滤掉没用的字符。 我这里用到三个命令来过滤 sed # sed是非交互式的编辑器,它读取文件到自己的缓冲区然后再作修改。 # 默认情况下,所有的输出行都被打印到屏幕上。[1...
2016-11-23
笔记
技术
笔记
技术
Read More
利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Part 1
自从弄了个 lcd4linux 之后总想着弄点什么自动化的东西显示出来,因为最近从图书馆借了点书,于是首先想到的是抓图书馆的借阅信息。 我实现的思路大概来说就是,用脚本模仿正常登录查询的步骤来发出并处理请求:先用 Wireshark 对我请求的过程抓包(最方便的方式了吧),然后获取到整个过程中的 HTTP 请求,接着查看每个请求都用了什么方法、发了哪些字段,最后分析出必要的请求并模仿之,逐一...
2016-11-15
笔记
技术
笔记
技术
Read More
Bash 通配符小记
本文参考《Linux Shell 编程 从入门到精通》(电子工业出版社出版)一书 3.3 章节 Bash 本身并不支持正则表达式,但是 Bash 可以使用一些通配符实现通配功能: ? 代表一个任意字符 * 代表任意个任意字符 [] 需要匹配的字符集合(例如 a-z, A-Z, 0-9 这样) {} 代表一组表达式的与关系,例如 {[a-h]*.txt,0?...
2016-11-11
笔记
技术
笔记
技术
Read More