Fuse-DFS 编译安装及HDFS Mount

Fuse-DFS 编译安装及HDFS Mount0. 概要

Fuse-DFS 提供了使用 FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能。这是个非常实用的功能,我的使用场景是 Neo4j 的Loadcsv能够直接访问HDFS中的文件。

Hadoop 源码中自带了contr......

2017/11/06
Read All

对大量HTTP响应报文聚类分析——simhash算法的Python实现

对大量HTTP响应报文聚类分析——simhash算法的Python实现

上文我们对可能用到的相似性算法做了调研,最后暂定使用simhash作为本次相似性分类的算法。

于是经过一番搜索后,决定不去造轮子,而是直接照搬现成的代码看看效果。

但是现在不论是Google还是百度搜到的simhash......

2015/11/16
Read All

对大量HTTP响应报文聚类分析——针对HTTP报文优化simhash

对大量HTTP响应报文聚类分析——针对HTTP报文优化simhash

上文已经实现了simhash,但是经过测试,并没有达到预期的分类效果。

simhash作为Google用来网页去重的算法,对于长文本效果很不错,而且配合抽屉原理的hash匹配后效率高的惊人。

但是simhash的所有优......

2015/11/10
Read All

对大量HTTP响应报文聚类分析——相似性算法调研

对大量HTTP响应报文聚类分析——相似性算法调研

对于大量(亿级)HTTP响应报文进行分析,排除重复和相似的报文,提取出有效的信息。

对问题的分析

现在手中有大约72G HTTP响应报文数据 ,我从中提取出5w条作为样本分析,每一条报文被保存在一个以内容MD5作为文件名的文本文件中,HTTP......

2015/10/28
Read All