共计 2 篇文章

nutch抓取双语资料速度提升tips

[未写完] 1. 优化的目标 抓取网页一般是为了得到某种类型的数据,例如房产数据、影片信息,而我是为了抓取更多的中外双语的结构化文本。所以单位时间内的双语文本数量就是我的优化的目标,而单语的就算抓取很快,对我们的产出也没有任何意义。 2. 评估指标 上面提到的,是我们的最终的目标,除了最终目标外,还需要子目标来帮助我们的评估工作的。 抓取的页面数 ./runtime/deploy/bin/nutch readdb /user/dict/crawler/normal/ ...

dsa登录集群要注意目录权限

今天浪费了比较多的时间在集群登录上。。。 原因是最后发现/home/zhaowei目录的权限不小心改了。由于自己不能上集群操作,所以麻烦了运维同事不少的时间。 生成dsa ssh-keygen -t dsa 会生成id_dsa以及id_dsa.pub两个文件 加入授权文件中 找运维同事把iddsa.pub放到/home/zhaowei/.ssh/authorizedkeys文件中(文件名也可能是别的) cat id_dsa.pub ...