网站离线下载

发布于 2024-06-18  2 次阅读


在 Linux 上使用 wget 下载网站的静态资源文件相对简单,因为 wget 通常已经预装在大多数 Linux 发行版中。以下是详细的步骤:

步骤一:检查或安装 wget

  1. 检查 wget 是否已安装
    • 打开终端并输入以下命令:
      wget --version
    • 如果 wget 已安装,你会看到版本信息。如果没有安装,请继续下面的步骤。
  2. 安装 wget
    • 如果你的系统没有安装 wget,你可以使用包管理器来安装它:
      • 对于基于 Debian 的系统(如 Ubuntu):
        sudo apt-get update
        sudo apt-get install wget
      • 对于基于 Red Hat 的系统(如 CentOS):
        sudo yum install wget

步骤二:使用 wget 下载网站

  1. 打开终端
    • Ctrl + Alt + T 打开终端。
  2. 使用 wget 下载网站
    • 使用 wget 命令下载整个网站。例如,下载 http://example.com 网站并将其保存到当前目录的 downloaded_site 目录中:
      wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.com -P downloaded_site

命令解释

  • --mirror: 启用镜像模式,这是一个快捷方式,相当于使用 -r -N -l inf --no-remove-listing 选项。
  • --convert-links: 将下载后的链接转换为相对链接,以便在本地文件系统上使用。
  • --adjust-extension: 根据文件的 MIME 类型调整文件扩展名(例如,将 .html 文件扩展名添加到没有扩展名的文件)。
  • --page-requisites: 下载页面显示所需的所有文件(图像、样式表等)。
  • --no-parent: 防止 wget 下载上级目录的文件。
  • -P <目录>: 指定下载文件的保存目录。

示例操作

假设你要下载 http://example.com 的所有静态资源并保存到 ~/downloaded_site 目录,可以使用以下命令:

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.com -P ~/downloaded_site

检查下载结果

下载完成后,进入 ~/downloaded_site 目录,可以看到下载的网页和资源文件。你可以使用以下命令进入该目录:

cd ~/downloaded_site

然后使用文件浏览器或其他工具查看下载的内容。

高级选项

如果你需要更细粒度的控制,可以使用更多 wget 选项。例如,排除某些文件类型、设定下载速率限制、处理重试次数等。以下是一些示例:

  • 排除特定文件类型
    wget --mirror --convert-links --adjust-extension --page-requisites --no-parent -R jpg,png http://example.com -P ~/downloaded_site
  • 限制下载速率
    wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --limit-rate=100k http://example.com -P ~/downloaded_site
  • 设置重试次数
    wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --tries=10 http://example.com -P ~/downloaded_site

通过这些步骤,你可以在 Linux 上使用 wget 有效地下载网站的静态资源文件。


People who care about each other will meet again.