全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 9452|回复: 11
打印 上一主题 下一主题

10软妹求几个省心关关采集规则

[复制链接]
跳转到指定楼层
1#
发表于 2018-4-4 17:51:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
20金钱
目前手里只有两个规则,有一个还是一大堆广告

测试过滤广告都花了不少功夫

不知道dalao有没有写好过滤广告规则的采集规则

先钱10软妹,实在没分了

事成之后可以追加100金币

最佳答案

2#
发表于 2018-4-4 17:51:24 | 只看该作者
PY我QQ
3#
发表于 2018-4-4 18:36:51 | 只看该作者
规则自己写不就好了么?只采集需要的部分,呃,虽然我没用过你说的那个采集软件。。。
4#
发表于 2018-4-4 18:38:09 | 只看该作者
都差不多,随便找点,比如八一中文
5#
 楼主| 发表于 2018-4-4 18:44:15 | 只看该作者
coxyblog 发表于 2018-4-4 18:36
规则自己写不就好了么?只采集需要的部分,呃,虽然我没用过你说的那个采集软件。。。 ...

广告好像挺难过滤了

上次过滤一条规则,样式不一样的广告都招出来十几条,这还只是我找到的
6#
发表于 2018-4-4 20:31:31 | 只看该作者
规则好说 还是对你用的是哪里的服务器比较感兴趣、、、
7#
 楼主| 发表于 2018-4-4 21:13:53 | 只看该作者
二暖的萌萌君 发表于 2018-4-4 20:31
规则好说 还是对你用的是哪里的服务器比较感兴趣、、、

hosthatch的750G大盘鸡,再用do或者vu开几台机器远程采集,网站速度不好就上反代

不过现在问题还在采集这块,最近还总弹出错误
  1. 无法从传输连接中读取数据: 远程主机强迫关闭了一个现有的连接
复制代码


不知道是不是因为对一个规则采集太猛的原因,抑或是数据库方面问题
8#
发表于 2018-4-4 21:16:16 | 只看该作者
biubiu 发表于 2018-4-4 21:13
hosthatch的750G大盘鸡,再用do或者vu开几台机器远程采集,网站速度不好就上反代

不过现在问题还在采集 ...

采集太快了 建议减少线程尝试
9#
发表于 2018-4-4 21:17:55 | 只看该作者
自己写个爬虫就好了。
10#
 楼主| 发表于 2018-4-4 21:24:26 | 只看该作者
二暖的萌萌君 发表于 2018-4-4 21:16
采集太快了 建议减少线程尝试

还是真是太快了吗

头一次接触采集,我是对一个规则开了十多个区间进行采,因为远程和网站是分开的,单个线程速度有限


看来还是得多规则同时采啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-6-21 14:59 , Processed in 0.072364 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表