广

SEO优化

  • 建站技巧
  • SEO优化
  • 营销推广
  • 微信营销
  • 微博营销
  • 营销策划
  • 直播营销
  • 搜索SEM
  • 位置:首页 > 策划运营 > SEO优化

    搜狗搜索爬虫如何抓取网站

    2019-07-01 12:34:43 次阅读 稿源:非官媒
    sogou spider User-Agent字段是什么?
    PC端UA为
    Sogou web spider
    Sogou inst spider
    Sogou spider
    无线端UA为
    Sogou wap spider
    请注意,根据标准,ua区分大小写。
    搜狗spider的IP有哪些?
    搜狗暂不对外提供搜狗spider IP列表,但您可以通过DNS反查IP的方式判断某只spider是否来自搜狗搜索引擎。根据不同平台有不同的验证方法。
    linux平台:
    命令为host ip,如下图。搜狗spider的hostname以 *.sogou.com格式命名,非 *.sogou.com均为冒充。
      在windows平台或者IBM OS/2平台:
      命令为nslookup ip,搜狗spider的hostname以 *.sogou.com格式命名,非 *.sogou.com均为冒充。
      mac os平台:
      命令为dig ip,搜狗spider的hostname以 *.sogou.com格式命名,非 *.sogou.com均为冒充。
      sogou spider 如何反应我网站上页面的更新?
      sogou spider 会根据网页的重要性和历史变化情况来动态调整更新时间,更新已经抓取过的页面。
      搜狗spider的抓取频次是怎样的?
      sogou spider 对于同一个 IP 地址的服务器主机,只建立一个连接,抓取间隔速度控制在几秒一次。一个网页被收录后,最快也要过几天以后才会去更新。如果持续不断地抓取您的网站,请注意您的网站上的网页是否每次访问都产生新的链接。
      如果您认为 sogou spider 对于您的网站抓取过快,请与我们联系,并最好能提供访问日志中sogou spider 访问的部分,而不要直接将搜狗spider的ua封禁。
      sogou spider 喜欢收录什么样的页面
      内容优良而独特的页面。如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被 sogou spider 收录。
      链接层次较浅的页面。过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。
      如果是动态网页,请控制参数的数量和URL的长度。搜狗更偏好收录静态网页。重定向次数越多的页面,越有可能被 sogou spider 丢弃。

      Z1T1部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与 Z1T1进行文章共享合作。