共计 3 篇文章

日志分析工具 安装篇(cm druid)

最近需要用到一些数据处理工具,折腾了一下安装,其实还是有点麻烦的。为了后续安装可以直接快速搞定,在这里记录一下整个流程。 clouder manager可以用来管理CDH/flume/spark等,主要体现在对机器状态的管理中,有免费版,不开源,但是用起来还是不错的。 而druid在日志分析领域相对于hive、kudu这样的工具来说,上手简单,除了不保存原始数据外,在查询速度、图形化界面这点上,可以快速实现一个简单版本的日志分析系统。 我选择了这两个工具来实现我的第一个简单版本的日志分析系统。 一、clouder manager的安装 1.1 ...

nutch抓取双语资料速度提升tips

[未写完] 1. 优化的目标 抓取网页一般是为了得到某种类型的数据,例如房产数据、影片信息,而我是为了抓取更多的中外双语的结构化文本。所以单位时间内的双语文本数量就是我的优化的目标,而单语的就算抓取很快,对我们的产出也没有任何意义。 2. 评估指标 上面提到的,是我们的最终的目标,除了最终目标外,还需要子目标来帮助我们的评估工作的。 抓取的页面数 ./runtime/deploy/bin/nutch readdb /user/dict/crawler/normal/ ...

nutch抓取实验

1. 背景 入门教程:http://wiki.apache.org/nutch/NutchTutorial 下载:http://nutch.apache.org/downloads.html 下载全网抓取的种子文件: wget http://rdf.dmoz.org/rdf/content.rdf.u8. ...