使用wget 制作网站镜像(仿站)_wget 镜像_houzhanwublog的博客-程序员宝宝

技术标签: 仿站  

一些wget 镜像的介绍

来源于:https://www.coderxing.com/wget-website-mirror.html

-r, --recursive

递归循环下载整个站点。

-m, --mirror

制作网站镜像模式。

--no-clobber

避免重复现在相同文件。

-A, --accept=LIST

允许下载的扩展名,逗号分隔。

-k, --convert-links

让下载得到的 HTML 或 CSS 中的链接指向本地文件,只有完成下载之后才进行转换。

-E, --adjust-extension

根据 content-type 类型,以合适的扩展名保存 HTML/CSS 文档。

-p, --page-requisites

下载所有用于显示 HTML 页面的图片、CSS之类的元素。

-np, --no-parent

不追溯至父目录,只在当前和子目录中进行抓取。不过对于一些样式文件、js文件可能都在上级目录中,使用时需要注意。

-w, --wait=SECONDS

等待间隔为 SECONDS 秒。避免把对方服务器压垮。

--waitretry=SECONDS

在获取文件的重试期间等待 1..SECONDS 秒。

--random-wait

获取多个文件时,每次随机等待间隔。

-O, --output-document=file

对下载文件进行重命名

-o, --output-file=FILE

记录下载日志,并将日志信息写入 FILE。

-U, --user-agent=AGENT

标识为 AGENT 而不是 Wget/VERSION。比如使用Chrome流量器的Agent “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36”,这样可以避免被对方网站。

-D, --domains=LIST , --exclude-domains=LIST

逗号分隔的可接受或不可接受(--exclude-domains)的域列表。

--restrict-file-names=modes

其中OS的值可以为: unix, windows, nocontrol, ascii, lowercase, and uppercase

限定文件名中的字符为 modes 允许的字符。比如你的本地操作系统是Windows,对方服务器使用的是linux,由于操作系统的差异,有些字符在Linux下可以作为文件名的一部分,但在Window下不允许。

比如你的本地系统是windows则用法如下方式:

--restrict-file-names=windows

如果你的本地系统为Linux或者MacOS,则可以使用如下方式:

--restrict-file-names=unix
-c, --continue

断点续传,如果一个站点的页面很多,建议使用该选项。

--connect-timeout

请求超时时间。

-t, --tries=NUMBER

设置重试次数为 NUMBER (0 代表无限制)。

--limit-rate

控制下载速度,如:

--limit-rate=100k
-b, --background

按照后台模式运行,启动后转入后台。

-P, --directory-prefix=PREFIX

将下载的所有文件保存在 PREFIX 目录中。

-R, --reject=LIST

屏蔽某类扩展名的文件,用逗号分隔。比如不下载gif如图片:

--reject=gif
--reject-regex=REGEX

以正则表达式的方式屏蔽某些url。

-e robots=off

不遵循robots协议。默认情况下wget遵循robots协议。

-I, --include-directories=LIST

允许抓取的目录列表,逗号分隔,可以使用通配符“*”。

-X, --exclude-directories=LIST

排除目录的列表,逗号分隔,可以使用通配符“*”。

个人推荐使用方式

wget -m -r -k -p --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36" --restrict-file-names=windows -c --tries=10 -e robots=off 这里写你所要镜像的网站

个人收集到的UA

userAgents = [
    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36',
    # 我本地的chrome浏览器
    # 下面是网上搜的浏览器
    'Mozilla/4.0 (Windows; MSIE 6.0; Windows NT 5.2)',  # IE6
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',  # IE7
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',  # IE8
    'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)',  # IE9
    'Mozilla/5.0 (compatible; WOW64; MSIE 10.0; Windows NT 6.2)',  # IE10
    'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; rv 11.0) like Gecko',  # IE11
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2486.0 Safari/537.36Edge/13.10586',
    # Edge
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows Phone OS 7.0; Trident/3.1; IEMobile/7.0; LG; GW910)',  # Windows phone 7
    'Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; SAMSUNG; SGH-i917)',
    # Windows phone 7.5
    'Mozilla/5.0 (compatible; MSIE 10.0; Windows Phone 8.0; Trident/6.0; IEMobile/10.0; ARM; Touch; NOKIA; Lumia 920)',
    # Windows phone 8
    'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36',
    # Chrome on windows
    'Mozilla/5.0 (iPhone; CPU iPhone OS 6_1_4 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) CriOS/27.0.1453.10 Mobile/10B350 Safari/8536.25',
    # Chrome on iphone
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36',
    # Chrome on mac
    'Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1',  # Firefox4.0.1–MAC
    'Opera/9.80(Macintosh;IntelMacOSX10.6.8;U;en)Presto/2.8.131Version/11.11',  # Firefox4.0.1–Windows
    'Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11',  # Opera11.11–MAC
    'Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11',
    # Opera11.11–Windows
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Maxthon2.0)',  # 傲游(Maxthon)
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TencentTraveler4.0)',  # 腾讯TT
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)',  # 世界之窗(TheWorld)2.x
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TheWorld)',  # 世界之窗(TheWorld)3.x
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)',
    # 搜狗浏览器1.x
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;360SE)',  # 360浏览器
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;AvantBrowser)',  # Avant
    'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)',  # GreenBrowser
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)",
    "Mozilla/5.0(Macintosh;U;IntelMacOSX10_6_8;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50",
    "Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50",
    "Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0;",
    "Mozilla/4.0(compatible;MSIE8.0;WindowsNT6.0;Trident/4.0)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT6.0)",
    "Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1)",
    "Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
    "Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
    "Opera/9.80(Macintosh;IntelMacOSX10.6.8;U;en)Presto/2.8.131Version/11.11",
    "Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",
    "Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Maxthon2.0)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TencentTraveler4.0)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;TheWorld)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;360SE)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;AvantBrowser)",
    "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)",
]

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_27404929/article/details/124341814

智能推荐

DirectX 9 从内存数据建立纹理Texture的方法_风生竹韵的博客-程序员宝宝

1、创建一个空纹理,指定大小与纹理格式2、把纹理的Rect锁定,并填充数据,最后解锁3、使用该纹理LPDIRECT3DTEXTURE9 m_pTexture;D3DXCreateTexture(m_pd3dDevice, width, height, 1, 0, D3DFMT

java的字符串数组_Java数组String []的用法详解_梁贤毅的博客-程序员宝宝

Java数组是在Java编程中经常使用的一个类,下面是对Java数组的使用说明。1.Java数组的语法:String[数组下标], Java数组的下标是从0开始的。2.示例代码public class StringArray{public static void main(String[]args){//java数组初始化String[] strArray={"1","2","3"};//输出j...

signature=6a1e145be88dd3b2ca833fae776e2fbd,α-M3B2N4 (M = Ca, Sr): Eu3+ - a Nitride Based Red Phospho..._爱因互动机器人的博客-程序员宝宝

摘要:For solving the problem that Eu3+ -activated phosphors cannot be well excited by the near UV-LED chips, the charge transfer band (CTB) of Eu3+-N3- in alpha-M3B2N4 (M = Ca, Sr) has been investigated...

为什么做卷积之前要对图像进行padding操作(根据过滤器的大小来padding)?_卷积padding作用_肉丸不肉的博客-程序员宝宝

参考文章:吴恩达-深度学习-卷积神经网络-Padding 笔记如果你用一个3×3的过滤器 卷积 一个6×6的图像,你最后会得到一个4×4的输出,也就是一个4×4矩阵。那是因为你的3×3过滤器在6×6矩阵中,只可能有4×4种可能的位置。这背后的数学解释是,如果我们有一个的图像,用的过滤器做卷积,那么输出的维度就是(n-f+1)*(n-f+1)。在这个例子里是6-3+1=4,因此得到了一个4×4的输出。这样的话会有两个缺点:第一个缺点是,每次做卷积操作,你的图像就会缩小,从6×6缩小

一文搞懂网络套接字编程_海盗船长没有船y的博客-程序员宝宝

什么是端口号?端口号(port)是传输层协议的内容.端口号是一个2字节16位的整数;端口号用来标识一个进程, 告诉操作系统, 当前的这个数据要交给哪一个进程来处理;IP地址 + 端口号能够标识网络上的某一台主机的某一个进程;一个端口号只能被一个进程占用....

Array.from 和[...]的区别_array.from 和 ..._qwe_177的博客-程序员宝宝

Array.from 和[…]的区别Array.from(arr) 和[…arr] 都可以将类数组arr转换成数组什么叫类数组有数字索引有长度length是个对象能被迭代如果arr只有索引和长度,并且是对象,所以可以被Array.from转换成数组的,但是[…arr]方法,就必须可以被迭代let obj = {'0': 1,'1': 2,'2': 3,length: 3}let arr = Array.from(obj)console.log(arr)let arr1= [...obj

随便推点

遇到问题-----cas4.2.x登录成功后报错No principal was found---cas中文乱码问题完美解决..._yuxiaoyu.的博客-程序员宝宝

情况我们之前已经完成了cas4.2.x登录使用MongoDB验证方式并且自定义了加密。单点登录(十五)-----实战-----cas4.2.x登录mongodb验证方式实现自定义加密但是悲剧的是 当用户名是中文名时或者获取的其他属性中有中文名时成功登录后报错No principal was found。javax.servlet.ServletException: org.j...

解決 android studio更新失败的一种情况_as提示更细但是不能直接升级了_Dash_Yagi的博客-程序员宝宝

some conflicts were found in the installtion area some of the conflicts below do not have a solution , so the pattch cannot be applied, please pressed cancle exit.java.io.ioexception cannot delete file

中文书籍对《人月神话》的引用(新增5本共115本):编程之魂、软件质量实用方法论……_rolt的博客-程序员宝宝

《人月神话》于1975年出版,1995年出二十周年版。自出版以来,该书被大量的书籍和文章引用,直到现在热潮不退。UMLChina摘录目前为止正式出版的软件开发各领域中文书籍中对《人月神话》的引用,分享给大家。如果您发现有中文书籍引用了《人月神话》但本文未收录,麻烦在本文下留言或微信umlchina2告知。其实绝大多数还是老外写的。特别说明的是:本文只是陈述这些书引用了《人月神话》的事实,不代表推荐或不推荐阅读。有同学问这个是不是结合爬虫、机器学习之类整出来的。答:too simple, sometimes

adb: failed to install toutiao.apk: Failure [-200]_aaa460336036的博客-程序员宝宝

初次使用adb安装apk,难免有点紧张。尤其碰到安装失败的情况就更紧张了。在网上找了一些方法,都是不对门路。但是也照做了下,比如kill 360等一些流氓进程,手机重启等。最后才发现自己是太不细心了,安装apk的时候没有留意手机上的输入密码的提示(安装app时,手机设置了需要输入账号密码)。输入密码后,同意安装,就ok了。emmmmmm,想了想这种方法还...

hdu 2243(ac自动机+矩阵快速幂)_路小白_zZ的博客-程序员宝宝

题意:有n个小写字母组成的模式串,问长度不超过L的小写字母串中至少出现一个模式串的种类是多少。 题解:这道题和poj 2778类似,不过是把长度小于L的串的可能情况也计入,把邻接矩阵多一维存总和,然后结果用总种类数减一个模式串也不出现的种类数。总种类数很大,26^1 + 26^2 + 26^3 + … + 26^n,也用矩阵快速幂计算。f(n) = 26 * f(n - 1) + 26。 初始矩