一种大数据量的相似记录检测算法 - java-t-go - ITeye博客

`

javatgo

浏览: 1123324 次
性别:
来自: 北京

最近访客更多访客>>

beifengbei08

kakaluyi

u012363178

jAmEs_

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1755)

社区版块

存档分类

最新评论

天空趋虚：资源还没有匮乏到这种程度吧,我觉得代码通俗易懂,可维护性强,比 ...
java编程中'为了性能'一些尽量做到的地方
wen262856298：文章写的好但是里面有错误 ...
java编程中'为了性能'一些尽量做到的地方
步青龙：你的博客中，我看的第一篇文章，感悟很深，果断关注你，谢谢你把这 ...
工作是什么？我怎么理解
accp6_0： ...
程序人生：女程序员的求职奋斗史
Dragonmandance：很不错，学习了
java编程中'为了性能'一些尽量做到的地方

一种大数据量的相似记录检测算法

阅读更多

to process the duplicate records !

分享到：

常用软件License | 硬盘安装FREEBSD5.4详细步骤

2005-12-15 18:20
浏览 470
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

粒子群优化BP神经网络用于重复记录检测: 针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经...理论分析和实验表明:该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。

论文研究-基于强相似点检测快速双目立体匹配算法.pdf: 为此，提出了一种基于强相似点的快速立体匹配算法。首先，将双目图像通过对极处理，使匹配区域固定在同一水平线上，减少匹配区域；其次，对图像进行灰度转化，并将搜索范围内与待匹配点灰度值接近的点定义为强相似点...

一种改进的相似重复记录检测方法: 针对当前相似重复记录检测方法中存在的问题,提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法,尽...

基于特征选择的K-means聚类异常检测方法: K-means算法是一种采用距离作为相似性评价指标的聚类算法,其快速简洁的特点在异常检测场景中有一定的应用价值。但是,传统的K-means聚类算法在选取初始中心和度量相似性上有一定缺陷。针对传统的K-means算法中存在的...

基于 PCA 的运动数据相似性计算: 本文提出一种方法,能够比较不同运动数据之间相似程度,这种方法基于主成分分析方法,对运动数据进行 PCA 计算,得到表示该运动数据主轴方向的特征向量和对应的特征值,将运动数据之间的相似性比较转换为对其主轴方向...

论文研究-基于Web的重复属性自动识别方法.pdf: 因此，相似重复记录的检测已经成为数据仓库等领域的热点研究问题，而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法，该算法使用搜索引擎返回的摘要和URL信息计算属性...

论文相似性检测工具（论文查重软件）: 反剽窃系统是通过比对源文档和目标文档的相似性给出相似度结果的一种信息处理系统。由武汉大学信息管理学院出版科学系教师沈阳副教授研发的ROST 文档相似性检测工具可以有效检测论文的抄袭相似情况，经过六年的研发...

论文研究-TSCAN：利用并行策略改进的图结构聚类算法.pdf: 然而，该算法存在两方面的局限性：首先，在大规模图数据上，该算法需要耗费大量的时间用于计算图中每条边的结构相似性；另一方面，该算法存在两个参数[ε]和[μ]，并且对这两个参数比较敏感。为了解决其局限性，提出...

基于深度学习的自动驾驶感知算法研究: 轻量级目标检测算法能与目前主流的目标检测取得相似的精度的同时，计算复杂度更低，更加节省资源。单图片去雨算法在合成雨水图片上取得了较好的效果的同时，而且在未标记的真实世界图像上取得了比目前最先进的方法更...

使用机器学习KNN算法对水果进行分类（附源码及数据）: 本资源使用KNN算法对水果特征数据（包括大小、颜色、甜度等等）进行分析，最终实现对水果进行分类的能力。资源包括KNN算法分析源码及...另外还有一种 Reverse KNN法，它能降低KNN算法的计算复杂度，提高分类的效率。

论文研究-一种用音频作载体的信息隐藏算法.pdf: 提出了一种利用数字音频作载体、高嵌入量的信息隐藏算法，将...实验证明，该算法听觉相似性好、稳健性较强、嵌入数据量大，能自恢复提取机密信息，可抵抗常见的信号处理及攻击，如重采样、添加高斯噪声、低通滤波等。

论文研究-一种区间型数据的离散化方法.pdf: 通过区间数的相似度来描述对象间的相似关系，定义相似度阈度确定离散关系，来实现对区间数据的离散化，经过分析相似度在算法中的作用，提出了一种新的变量——关联度，改进了算法。采用多组数据对此算法的性能进行了...

常见的聚类算法（python）: 聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、...

论文研究-融合正态分布函数相似度的协同过滤算法.pdf: 针对上述问题，设计了一种正态分布函数相似度量模型，此模型考虑了用户间的共同评分、共同评分项目数以及用户的评分值，据此提出了融合正态分布函数相似度的协同过滤算法，该算法通过综合多种评分因素利用正态分布...

论文研究-基于区间型符号数据的群组推荐算法研究.pdf: 在Hausdorff距离基础上, 采用区间内部点数据的描述统计量, 提出了一种全新的区间数距离度量方法, 并利用这种距离对区间型符号数据描述的群组实施K-均值聚类, 由此确定相似群组, 最后通过最近邻的评分预测目标群组的...

基于非加权图的大型社会网络检测算法研究: 社区检测和划分已经成为大...最后采用真实社会网络数据集进行了大量的模拟，实验结果表明,与传统的生成树算法以及CBCD算法相比，提出的方法更加有效，且计算运行时间具有线性复杂度，适用于大规模社会网络的社区检测。

机器学习实战 - KNN（K近邻）算法PDF知识点详解 + 代码实现: 邻近算法，或者说K最邻近（KNN，K-NearestNeighbor）分类算法是数据挖掘分类...另外还有一种 Reverse KNN法，它能降低KNN算法的计算复杂度，提高分类的效率 [2] 。 KNN算法比较适用于样本容量比较大的类域的自动分类

论文研究-基于小波变换和支持向量机的火灾识别算法.pdf: 以数据挖掘技术为手段，提出了一种基于K近邻方法的腧穴处方自动生成算法。该算法通过分析病历库中与目标现病史最相似K条病历的穴位配方，来自动给出患者针灸治疗的推荐方案。为更好地计算病历的相似性，根据针灸临床...

FSMBUS ：一种基于 Spark 的大规模频繁子图挖掘算法: Spark 的大规模单图频繁子图挖掘算法 FSMBUS ，通过次优树构建并行计算的候选子图，在给定最小支持度时挖掘出所有的频繁子图，并利用非频繁检测和搜索顺序选择实现优化，还设计了一种名为 Sorted‐Greedy 的轻...

论文研究-基于项目兴趣度的协同过滤新算法.pdf: 针对评分数据稀疏和单一评分相似性计算不准确导致推荐质量不高的问题, 提出一种基于项目兴趣度的协同过滤新算法。该算法先预测未评分项的值, 在此基础上基于项目的分类、评分值及次数引入项目—项目类别兴趣度特征...

Global site tag (gtag.js) - Google Analytics