史提芬T提示您:看后求收藏(倩玉小说网https://www.qianyuwj.com),接着再看更方便。
陆道升总算赶在出发去北京之前完成了对hao123爬虫系统的改造。在原有流程上做了一些优化,以及新增了一个在线的评审系统。
前世hao123创始人李兴平是通过个人的全身心投入来保持hao123的不断更新和迭代,每天要花十多小时在人力检查链接是否失效或者被移花接木的问题上。
失效的问题对陆道升来说很好解决,就是网站打不开了而已,可能是暂时的网络问题,也可能是确实网站停止服务了。
总之就是写程序通过网址来请求网站内容,分时段多试几次,如果都请求不成功,那就是失效了。
最多再加一个每个时间段内失效网址数量的监控,占比不超阈值,那么就确认这是失效网址,如果超过阈值,可能是网络问题造成网站集体访问失败,发送报警到陆道升邮箱但不做处理,等过段时间再次检测即可。
网址被移花接木就很麻烦了,想通过技术手段对比会很费事,投入产出严重不值得,大头还是靠人工。
有很多网站运营一段时间后难以为继,就会关张大吉,其拥有的网址往往会被其他人买走另作他用。
这个另做他用对陆道升来说就很头疼。
比如之前做游戏的网址被换成做娱乐,那就应该从游戏分栏里转移到娱乐分栏。更头疼的是还有的网址直接被买走搞成了涉黄网站,这就根本不能留了,得直接干掉。
而要做以上判断,就需要人工审阅。
为了减少审阅工作量,陆道升特意写过一个对比过滤的流程,即把网站上一次的文本内容缓存下来,下一次爬取时进行一个对比,如果网页结构和内容变化比例没超过阈值,则直接略过,认为可以保持原有判断,如果超过阈值,那就整理起来输出为列表,再由人工来一条条对比审核。
陆道升本以为针对不同的网址分类,可以通过设置不同的差异度阈值来进一步减少需要人工审核的数据量,结果发现同网址分类下各个网址的更新强度天差地别,很难得到一个大分类适用的数值,只得作罢。
另一个雪上加霜的情况就是新网站越来越多,新网站的加入都需要人工处理以确定是否有收录的价值,以及如何分类、排序。
虽然通过技术手段已经压缩了绝大部分的工作,但是hao123带来的时间开销在不断攀升,陆道升有些担心自己哪怕加上左文杏的时间精力都不足以在保障好网吧管理系统开发的同时做好hao123的维护工作。
而在hao123带来正向的广告收入之前,这段时间股市的收益也没有兑现,陆道升手里的可用资金并不多,招不起人。
也不是说招不起几个临时工,或者找几个网管就当给他们个机会赚赚外快,但是这样的人的责任心很难保障,钱不怕多花,事儿不能做岔了,宁可等手头充裕了挑几个合用的。
现阶段,就只能依靠技术优势暂时压住增长的运营人力开销了。
另一个在线的评审系统,则是陆道升在浦外听到人议论自己时临时想到的,那就是能不能把hao123的审核工作给改造一下,然后变成可以分发的小块任务,通过邮件分发给不同的人来处理,处理完成后进行结果的集中处理。
联想的过程大概如下,听到有人议论自己,觉得自己好厉害,心中先暗爽一会儿。
本章未完,请点击下一页继续阅读!