URL采集(提取)
入口页URL: | 即你要开始抓取的网址。 |
---|---|
包含字符: | 即只抓取URL中包含指定字符的URL,不包含的就过滤掉。 必填,填"http"可抓取当前域名下的所有链接。 |
不包含字符: | 即你要抓取的URL中不得包含指定的字符,包含的就过滤掉。 建议过滤掉一些不规范的相对地址,避免死循环(蜘蛛陷阱)导致程序运行超时。 |
采集深度: | 0 表示只抓取入口页返回内容的链接,不再深入下一层。 非注册用户最深采集1层,可免费注册提升抓取层级。 |
采集线程数: | 线程数越大,采集效率越高,耗时越短。 但太高的线程数会导致采集站点服务器压力过大,导致被封禁IP,采集失败。 |