根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。
测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。
测试语言:php,但是实际开发语言可能会用c#。
数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。
虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。
搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。
je怎么没有回自己的功能....我只好修改下
数据如果要跑的话,增量将是50万的100倍,,, 当然 ...
- 20:55
- 浏览 (714)
- 评论 (0)
- 浏览: 72054 次
- 性别:

- 来自: 上海

- 详细资料
搜索本博客
我的相册
robot
共 1 张
共 1 张
最新评论
-
2008年已完成的工作
不错哦 做好了你爬虫让我看看哦
-- by isky -
中国内地高学历技术工程师 ...
还是知识分子那点自尊心在作怪 总觉得自己应该高人一等=_=
-- by 叶子 -
中国内地高学历技术工程师 ...
我个人才毕业没几年,我的朋友同学中,最好的一个 ,是没有上大学,自己做生意了,还 ...
-- by allenjiang -
中国内地高学历技术工程师 ...
jsyx 写道lmlh8686 写道难道做技术真的很悲惨吗? 惨不惨的来自于你 ...
-- by 姜太公 -
中国内地高学历技术工程师 ...
lmlh8686 写道难道做技术真的很悲惨吗? 惨不惨的来自于你的内心,不来自 ...
-- by jsyx






评论排行榜