根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。 测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。 测试语言:php,但是实际开发语言可能会用c#。 数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。 虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。 搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。
  • 20:55
  • 浏览 (214)
  • 评论 (0)
用c#写爬虫入库时,出错,关键词不大好打,直接问同事,测试了下,好像字段定义有问题 于是要检查字符串长度 我习惯性的打开zend studio,就要打php code来看字符串长度。(我就记得两行代码可以解决) 弄得旁边的同事大叫,这用不着code把? 我很汗 于是遵从他的建议,打开editplus,选中字符串右键居然有个统计,虽然我也常用editplus,但从来没用过右键。 刚看到一cuer居然不会用office,想想我今天的惯性动作,回想了以前的行为,经常会有种写也许比查或者找工具解决来得快。 看来我比较适合coder这份工作。 ps:那为什么只有北京的公司不断邀请 ...
  • 22:58
  • 浏览 (544)
  • 评论 (0)
看msn协议和有关开源的代码,文档真够少的。 用dotnet写爬虫 前段时间说不上的搜索又要上了。 合同要到期了,签? python很酷,昨天翻了下python的书,真不错。 雅虎一哥们推荐的深入浅出mysql,面面俱到,不够深入。 书都是china-pub买得,那个包装真不是一般的寒碜,一个塑料袋还是破的。两本书100多块,这包装怎么也得好点把。 买了macbook,苹果系统还真好玩。
  • 21:05
  • 浏览 (791)
  • 评论 (2)
2008-03-10

30分钟搭建一个百万全文搜索

关键字: lucene solr
公司重心转移,不再是搜索。所以比较有空写写博。   solr是lucene的企业级扩展,很好很强大。solr的性能 http://wiki.apache.org/solr/SolrPerformanceData, 现在使用solr的网站 http://wiki.apache.org/solr/PublicServers  我习惯使用tomcat,安装参考:http://wiki.apache.org/solr/SolrTomcat,当然你也可以使用其他Contains来安装。(现在的wiki真详细,以前都靠自己摸索) 如果安装成功,浏览器地址栏输入: htt ...
2008-01-31

关于房价我的一点想法

关键字: 随想
现在的房价,还有不少人进入。 房子少的可怜,人在不断长,尤其是大城市,还有很多外来人口。如此下去,大城市离鸟笼不会远了。这让我想起“一生辛劳能的盒子不错了” 从小我们就知道“中国地大物博”,不知道此刻的孩子们是否知道? 地大的中国房子却少的很,物博的中国物价快速飙升。 如此下去,若干年后我们的子孙会住在什么地方?他们能否吃到自然生长的东西?还是如同一些科幻片一样,到处倒是辐射,到处都是垃圾,人与爬虫,老鼠抢食?
2008-01-20

介绍solr

关键字: 搜索
介绍solr solr是lucene的拓展,是cnet在使用lucene的一个应用而出的开源项目。具体参看wiki。 跟踪这个开源项目至今快1年半了,具体时间我想不起了。 现在国内用的人还太少,我只碰到两个人问我中文的事情。以前关于它的文字在我以前的blog,那里我很久没更新了。(myopera给和谐了) 国内的介绍文档比较老,solr更新了很多,现在的release版本是1.2,1.3也快出来了。 使用:程序将数据合成xml(cvs)格式发送给solr就可以完成索引。搜索根据solr提供的方式可以获得xml,json,php,python很多格式数据。 所以当前大多数开发语言都 ...
2007-12-04

对分词感兴趣的可以来看下

关键字: CJK分词
http://ftp.monash.edu.au/pub/nihongo/00INDEX.html
刚发完邮件,,看到了。。 真不错。
2007-11-05

[zz] Lucene goodness

关键字: lucene
Lucene goodness Lots of good things happening in Lucene land lately, all of which should benefit users with faster indexing and searching capabilities.  Most notably, Lucene 2.3 (hopefully released this quarter) has some major changes in indexing memory management and performance.  I ha ...
2007-10-10

分布式系统之分

关键字: 分布式设计
数据达到一定规模,一台机器不能满足你要求,也许你该考虑分布式。 那么如何分,分的合理。 我觉得可以从这几方面考虑: 1: 业务 2: 效率 3: 余   业务:不同业务会有不一样的划分。举个简单例子,比如我有博客和mp3搜索两部分,这两者对于业务而言,是两个独立部分。那么将博客的索引放在一起,mp3的索引放在一起。 效率:程序设计,操作系统和硬件资源结合。合理使用硬件资源是重点。常见的mysql的isam+innodb的搭配。 余:通常它是在前面两者都不能分的时候才会用到。将资源划分成n分,采用余的方式,将资源划分。   复杂的分布式是这几种结合。分布 ...
imjl
搜索本博客
博客分类
我的相册
4ae9948d-bac9-4e81-8351-d05c0182de1b-thumb
robot
共 1 张
存档
最新评论