首页 > SEO学院>seo培训教你若何写爬取链接的蜘蛛小法度榜样?使网站更优化?

seo培训教你若何写爬取链接的蜘蛛小法度榜样?使网站更优化?

1、打开并读取目标网页内容,可以应用urllib2、request等库;       3、连接并打开网页是否成功?不成功应当怎么处理? 2、解析网页内容,寻找外链的链接地址。可以应用re写正...
1、打开并读取目标网页内容,可以应用urllib2、request等库;

      3、连接并打开网页是否成功?不成功应当怎么处理?
2、解析网页内容,寻找外链的链接地址。可以应用re写正则表达式来处理(类似于抓<a href=http://gsi.xuhongji.com/seodax/"http://xxxxxxxxx" a>字段并提取个中的一部分),也可以经由过程beautifulsoup等专门的html解析库来处理;


3、从外链地址中提取网站名称。这个应当用re就可以简单解决了;

4、比较此次获取的网站名称、之前存储的网站名称。假如反复,则跳过;假如无反复,则保存此次获取的网站名称。

5、准时输出保存搜索成果。一向轮回上述过程,直到达到你的设计目标。

      2、网站编码问题,特别是正则表达式的编码要和网页编码相一致(特别是re搜索中文的时刻);
  不过须要留意的是:

      1、有一些网站不欲望被爬虫爬取,会留有robot.txt文件进行解释。爬虫法度榜样最好尊敬别人设定的限制。
      2、为了减小对目标网站的拜访包袱,建议不要在短时光内对某一个网站提议大年夜量链接,可以用(time.sleep)等方法均衡负载。

      以上只是最简单的思路,根据实际义务情况的不合,可能会有很多须要扩大的处所,比如:

      1、有一些网站请求用户验证,须要打开网页时特别设置;




      4、有一些网页内容可能是经由过程ajax动态加载的,这可能就须要额外的解决筹划了(比如selenimum, phantomJS等等)。

      5、有时为了进步抓取效力须要进行多线程扩充,这就涉及到Queue、multithreading等很多额外的库了。
标签: