archivebox
Edited: Monday 5 May 2025

archivebox 基本用法

所有命令均采用以下格式:
$ archivebox [command] [argument]
要存档单个网页,请使用以下命令:
$ archivebox add 'https://域名'
也可以在您的请求中添加递归,这样不仅可以对您指定的页面进行存档,而且 Archive Box 也会对页面上的每一个链接进行跟踪,并将其也存档。depth 越大,它就会跟着链接走得越远。递归可以通过以下选项来添加:
$ archivebox add 'https://域名' --depth=1
现在将存档该站点,并跟踪其中的所有链接,depth=1,然后也存档所有这些页面。
查看存档

存档多个网站

只有一个网站的存档并没有多少乐趣。幸运的是,Archive Box 还能让您轻松地一次存档多个网站,无论是从URL列表,还是从浏览器的保存书签。要对多个网站进行存档,请创建一个类似这样的文本文件,每行只有一个URL:
https://gabrielrockhill.com https://thebulletin.org https://quillette.com
然后,输入以下命令(假设您的URL列表与存档文件位于同一目录中):
$ cat url_list.txt | archivebox add
几分钟后,所有列出的网站都以与以前相同的格式添加到您的离线存档中。
尽管如此,事实上,网站的PDF和PNG版本也被创建,这意味着您仍然可以看到网站在存档时的样子。您还会注意到前文中提到的 Wayback Machine 的一个限制。如果一个网站不想被 Wayback Machine 抓取,唯一能保留的就是301错误。以多种格式存档意味着材料丢失的几率大大降低

存档您的书签

Archive Box 还允许您创建保存在书签中的网站档案。只需将浏览器中的书签列表导出(Chrome浏览器和Firefox浏览器请看这里和这里的说明)为HTML文件,然后将 Archive Box 指向它。
$ archivebox add /path/to/bookmarks.html

Backlinks