共计 2 篇文章

nutch抓取双语资料速度提升tips

[未写完] 1. 优化的目标 抓取网页一般是为了得到某种类型的数据,例如房产数据、影片信息,而我是为了抓取更多的中外双语的结构化文本。所以单位时间内的双语文本数量就是我的优化的目标,而单语的就算抓取很快,对我们的产出也没有任何意义。 2. 评估指标 上面提到的,是我们的最终的目标,除了最终目标外,还需要子目标来帮助我们的评估工作的。 抓取的页面数 ./runtime/deploy/bin/nutch readdb /user/dict/crawler/normal/ ...

nutch抓取实验

1. 背景 入门教程:http://wiki.apache.org/nutch/NutchTutorial 下载:http://nutch.apache.org/downloads.html 下载全网抓取的种子文件: wget http://rdf.dmoz.org/rdf/content.rdf.u8. ...