全球主机交流论坛

标题: 求助:麻烦大佬帮忙看看这是啥攻击方式 [打印本页]

作者: ma3252788    时间: 2024-4-10 22:40
标题: 求助:麻烦大佬帮忙看看这是啥攻击方式
本帖最后由 ma3252788 于 2024-4-11 08:59 编辑

按照几位大佬的提示,我做了以下改进:

1、增加了搜索频率的设置
2、在robots.txt中增加了对搜索结果的访问限制
3、设置了搜索结果为空时返回404状态码

等过段时间瞅瞅看效果如何,再次感谢所有大佬!



最近百度的搜索直线下降,词条从四百多降到了个位数,谷歌统计提示网页有大量的软404页面:



百度站长后台看到的关键词全变成了这种玩意:



各位大佬能不能给分析分析,这到底是咋回事呀


作者: karson    时间: 2024-4-10 22:45
看起来是在污染你搜索功能的关键词

你的搜索功能可能带有什么最近搜索的记录,然后广告哥就一直用社情广告填满你搜索记录
作者: lonefly    时间: 2024-4-10 23:15
限制搜索频率,可以到我签名的网站测试下搜索限制

WordPress免插件开启限制搜索页面频率,防止刷搜索页面
https://www.yunloc.com/3312.html
作者: y2y    时间: 2024-4-10 23:20
你把你搜索页面加个robot不让收录行吗
作者: poe    时间: 2024-4-10 23:25
你真是个人才。你这些页面状态码返回是200,被搜索引擎收录了,等于免费给黑产打广告了。。好歹也做个判断啊。
作者: lonefly    时间: 2024-4-10 23:27
y2y 发表于 2024-4-10 23:20
你把你搜索页面加个robot不让收录行吗

不如直接限制多好,刷搜索也是查询数据库,刷的频率高相当于CC攻击了,页面没挂数据库就挂了
作者: ma3252788    时间: 2024-4-11 08:31
本帖最后由 ma3252788 于 2024-4-11 08:39 编辑
lonefly 发表于 2024-4-10 23:15
限制搜索频率,可以到我签名的网站测试下搜索限制

WordPress免插件开启限制搜索页面频率,防止刷搜 ...


可以啦,之前我是登陆管理员账号测试的,我在隐私模式下测试了下,已经可以啦。感谢


作者: ma3252788    时间: 2024-4-11 08:33
y2y 发表于 2024-4-10 23:20
你把你搜索页面加个robot不让收录行吗

感谢大佬,我在robots.txt中加了两条
Disallow: /*?p=
Disallow: /*?s=

请问是不是这样呀?

  1. User-agent: *
  2. Disallow: /bin/
  3. Disallow: /date
  4. Disallow: /tags
  5. Disallow: /wp-admin/
  6. Disallow: /wp-content/cache/cachify/
  7. Disallow: /*?p=
  8. Disallow: /*?s=
  9. Allow: /wp-admin/admin-ajax.php
  10. Disallow: /?connect=*
复制代码

作者: ma3252788    时间: 2024-4-11 08:34
karson 发表于 2024-4-10 22:45
看起来是在污染你搜索功能的关键词

你的搜索功能可能带有什么最近搜索的记录,然后广告哥就一直用社情广告 ...

哎,没想到还可以这样
作者: ma3252788    时间: 2024-4-11 08:35
本帖最后由 ma3252788 于 2024-4-11 08:44 编辑
poe 发表于 2024-4-10 23:25
你真是个人才。你这些页面状态码返回是200,被搜索引擎收录了,等于免费给黑产打广告了。。好歹也做个判断 ...


噢噢,我看了下响应,确实是200,我得改了去,谢谢


哎,我之前没想过还可以通过搜索刷广告。我看谷歌提示的是软404呀,貌似不是200
作者: 龙笑天    时间: 2024-4-11 09:54
lonefly 发表于 2024-4-10 23:15
限制搜索频率,可以到我签名的网站测试下搜索限制

WordPress免插件开启限制搜索页面频率,防止刷搜 ...

用cookie来限制不大行吧 别人直接模拟攻击呢
作者: 度百    时间: 2024-4-11 10:45
污染攻击,总裁搞的吧估计,是不是联系你只能上他家广告
作者: ma3252788    时间: 2024-4-11 10:52
龙笑天 发表于 2024-4-11 09:54
用cookie来限制不大行吧 别人直接模拟攻击呢


设置搜索结果为空时返回404可以不?
作者: ma3252788    时间: 2024-4-11 10:54
度百 发表于 2024-4-11 10:45
污染攻击,总裁搞的吧估计,是不是联系你只能上他家广告

不知道总裁是谁哈,反正目前也没人联系我
作者: 龙笑天    时间: 2024-4-11 10:58
本帖最后由 龙笑天 于 2024-4-11 11:00 编辑
ma3252788 发表于 2024-4-11 10:52
设置搜索结果为空时返回404可以不?


服务器端针对IP进行次数频率限制 可以搜索教程看看
作者: karson    时间: 2024-4-11 14:05
ma3252788 发表于 2024-4-11 08:34
哎,没想到还可以这样

也有可能不完全是你站点的锅,他们可能把这些带广告的链接放在他们自己的站点,然后谷歌爬他们站点的时候就收刮到这些“来自你的站点且带广告”的外链。
然后谷歌发现这些链接能访问,返回的是200,所以收录了。

这种牛皮藓很常见,其实你在谷歌搜中文很容易就看到这种牛皮藓,都是嵌入在这种搜索参数里面的。

谷歌推荐的解决方法是显式让搜索引擎不收录这些软404(不是在程序中返回404,毕竟搜索结果为空也不应该是404)
你可以参考这个答案:
https://support.google.com/webmasters/thread/188665842/how-to-fix-spammy-search-queries-in-url-parameters?hl=en
作者: ma3252788    时间: 2024-4-11 14:14
龙笑天 发表于 2024-4-11 10:58
服务器端针对IP进行次数频率限制 可以搜索教程看看

好嘞,谢谢大佬,我去看看~
作者: ma3252788    时间: 2024-4-11 14:16
karson 发表于 2024-4-11 14:05
也有可能不完全是你站点的锅,他们可能把这些带广告的链接放在他们自己的站点,然后谷歌爬他们站点的时候 ...

太谢谢了!我按照这个链接试试,对了,我看上面说不推荐使用robots.txt阻止访问/?s=xx,您知道这是为什么嘛?我感觉这样不是挺好的嘛
作者: karson    时间: 2024-4-11 14:20
本帖最后由 karson 于 2024-4-11 14:29 编辑
ma3252788 发表于 2024-4-11 14:16
太谢谢了!我按照这个链接试试,对了,我看上面说不推荐使用robots.txt阻止访问/?s=xx,您知道这是为什么 ...


他后面是这么说的:

(just dont be tempted to block in robots.txt! That would only block crawling, and conversely, would ALLOW them to be indexed. Blocking in robots.txt would lead to be MORE likely to index!!!)


我猜是robots.txt不能阻止谷歌爬虫以外链形式的收录,只能作为当前站点爬虫的规则。所以如果他们把广告链接放到自己站点,谷歌会仍然收录?(纯云)
作者: ma3252788    时间: 2024-4-11 14:35
karson 发表于 2024-4-11 14:20
他后面是这么说的:

喔喔,这倒是有可能,这样的话感觉把空的搜索结果直接返回404应该是最好了。

我现在设置的是有搜索结果的就正常显示,如果搜索的结果是空,就返回404状态码。

作者: 榆木    时间: 2024-4-11 14:37
搜索词不要出现在返回的页面中。
作者: ma3252788    时间: 2024-4-11 15:23
榆木 发表于 2024-4-11 14:37
搜索词不要出现在返回的页面中。

嗯呐,我现在设置的是有搜索结果的就正常显示,如果搜索的结果是空,就返回404状态码。
这样就既可以正常搜索,又防止乱搜索了
作者: poe    时间: 2024-4-12 01:03
ma3252788 发表于 2024-4-11 08:35
噢噢,我看了下响应,确实是200,我得改了去,谢谢


哎,我之前没想过还可以通过搜索刷广告。我看谷 ...

软404的意思是没什么实际内容,但是实际响应码是200




欢迎光临 全球主机交流论坛 (https://www.91ai.net/) Powered by Discuz! X3.4