site:命令是用来知道某个站点中有自己需要找的东西,就可以把搜索闷穗范围限定在这个站点中,提高查询效率。
使用的方式,是在查询内容的后面,加上“site:站点域名”。例如,可以这样查询某某网站:site:某某.com.
site命令语法格式有两种:
1、site:域名 关键词
2、关键词 site:域名
site:后面带不带www结果可能是不一样的,因为有些域名还包括二级域名,如:site:www.某某.com和site:某某.com,搜好悔索结果就不一样,site:和站点名之间,不要带空格。
网络爬虫为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。
相对于通用网络爬虫,聚焦爬虫还需要解决三个主蚂袜卜要问题:
(1) 对抓取目标的描述或定义;
(2) 对网页或数据的分析与过滤;
(3) 对URL的搜索策略。
参考资料来源:百度百科-site命令
参考资料来源:百度百科-网络爬虫
参考资料来源:百度百科-SITE
参考资料来源:百度百科-搜索引擎收录
标签:site,指令