开源：实时采集，实时索引，实时检索的视频搜索引擎正式开源，单机支持3000万网页的全文索引

javatgo

浏览: 1123230 次
性别:
来自: 北京

最近访客更多访客>>

beifengbei08

kakaluyi

u012363178

jAmEs_

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1755)

社区版块

存档分类

开源：实时采集，实时索引，实时检索的视频搜索引擎正式开源，单机支持3000万网页的全文索引

整个视频搜索引擎包括：网站(C#+C语言)、中文分词服务器3.2(C语言)、索引内核2.0(C语言)、索引服务器1.0(C#+C语言)、采集器3.1(delphi)

网站相关指标：
开发语言：C#+C语言
编译器：VS2008
测试环境：xp、win2000、win2003、win7、win2008、win8
数据存储：可采用mysql、sql server、sqlite、oracle中的任何一种，无须更改代码，只需更改配置文件
性能指标：每分钟有效并发10万
在线范例：http://bida.cc
下载地址：
是否开源：是，并附带完整代码注释及说明
是否可免费使用：是

索引服务器1.0 相关指标：
开发语言：C#+C语言
编译器：VS2008
测试环境：xp、win2000、win2003、win7、win2008、win8
性能指标：每天有效索引>=50万(实时:新增数据即时索引)
是否开源：是，并附带完整代码注释及说明
是否可免费使用：是

索引内核2.0(C语言) 相关指标：
名称：百万商业圈全文索引器
开发语言：C语言
编译器：GCC
测试环境：xp、win2000、win2003、win7、win2008、win8、ubuntu、SUSE、CenterOS
性能指标：采用创新的倒排全文索引，单机(普通PC 2G内存)支持3000万网页的全文索引，任意检索不超过0.2秒。
功能支持：新增索引、更新索引、删除索引、检索归并
是否开源：否，并附带完整代码注释及说明
是否可免费使用：是
索引内核1.0(C语言)说明，包括动态摘要、高亮显示、相关设置等

中文分词服务器3.2(C语言) 相关指标：
名称：百万商业圈中文分词服务器
编译器：GCC
测试环境：xp、win2000、win2003、win7、win2008、win8
质量测试：用例共 3000分10K+的随机文章
平均性能：5万字以内的文章单线程切分1秒内可以切分完毕
在线范例：http://bida.cc:888
是否开源：否，并附带完整代码注释及说明
是否可免费使用：是
内部版本：单线程稳定版
相关说明：http://www.cnblogs.com/bwsyq/archive/2011/12/02/2271611.html
注:网站开发框架中提供了三种中文分词方式默认采用百万商业圈中文分词

采集器3.1(delphi) 相关指标：
名称：百万商业圈龙蛛采集器 - 视频采集器
编译器：delphi 7.0
测试环境：xp、win2000、win2003、win7、win2008、win8
质量测试：非特殊情况可连续运行>=一年
平均性能：2MB以内带宽每分钟采集上千视频
是否开源：否，并附带完整代码注释及说明
是否可免费使用：是

附加：百万商业圈龙蛛采集器3.1 - 网页采集器：可自行设置保存目录和采集深度，
理论上根据一个入口地址可采集整个互联网，没有特殊情况程序可持续运行一年，
不会有任何错误，每5000个文档自动生成一个子目录，文件名都是整数，便于索引。

完整说明请参见：百万商业圈视频搜索引擎说明.doc (2.66MB)
完整源代码下载1：百万商业圈视频搜索引擎源代码及完整说明 (37.42MB) 在windows上打的包
完整源代码下载2：所有源代码及全部模块完整下载地址 (39.58MB) 在linux上打的包

注意：单机(普通PC、一般硬盘、2G内存)最大支持3000万条数据或网页的全文索引，任意检索不超过0.2秒。
超过3000万的数据，请使用：百万商业圈开源可编程的集群分布式云平台

0
顶

0
踩

分享到：

强大灵活的脏字过虑：1万字文章过虑1万关 ... | JXCZT网络管理系统建设方案

2011-12-20 18:03
浏览 903
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论