根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。 测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。 测试语言:php,但是实际开发语言可能会用c#。 数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。 虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。 搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。 je怎么没有回自己的功能....我只好修改下 数据如果要跑的话,增量将是50万的100倍,,, 当然 ...
  • 20:55
  • 浏览 (714)
  • 评论 (0)
imjl
搜索本博客
博客分类
我的相册
4ae9948d-bac9-4e81-8351-d05c0182de1b-thumb
robot
共 1 张
存档
最新评论