致CSW用户:
  
     感谢您关注 CSW分词组件

     购买联系QQ:2175252

     价格:330元/套 (授权一台服务器)

       


预览模式: 普通 | 列表

关于高亮和排序的作品

  关于关键字高亮组件和匹配度排序组件,正在抓紧测试中,待完善后将发布正式版本。

分类:所有文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2

分词技术源代码

ASP/Visual Basic代码
  1. '分词技术   
  2.   
  3. dim max,keywords,r1   
  4. r1 = Newasp.ChkQueryStr(Trim(Request("r1")))   
  5. If strWord = "" Then  
  6. dim obj   
  7. Set obj = Server.CreateObject("CSW.SplitWord")   
  8. keywords=obj.split(cstr(keyword),0,"d:\com")   
  9. 'response.write keywords   
  10. keywords=Rtrim(LTrim(keywords))'去掉获得的字符串最左边空格和最右边空格   
  11. keywords=split(keywords," ")'将输入的字符串根据空格分开,获得一个数组   
  12.   
  13. 'response.write "2_"&keywords   
  14. max=ubound(keywords)'得出这个数组的维数,即输入的关键字个数   
  15. 'response.Write max   
  16. if max=0 then '如果max等于0说明只输入了一个关键字,那么就不需要循环处理   
  17. findword = "A.Title like '%" & keyword & "%'"  
  18. else    
  19. for i=0 to max '如果关键字很多,我们要求每一个搜索都要匹配每一个关键字,通过循环来实现   
  20. if i=0 then '写入下面sql语句作为开头,仔细研究一下下面的代码   
  21. if r1=1 then   
  22. findword = findword" (A.Title like '%" & keywords(i) & "%' and "    
  23. else   
  24. findword = findword" (A.Title like '%" & keywords(i) & "%' or "  
  25. end if   
  26. else   
  27. if i=max then '如果循环到最后一个关键字,写入下面sql语句作为结尾   
  28. findword=findword" A.Title like '%" & keywords(i) & "%')"  
  29. else '如果关键自己不是开头的也不是结尾的,那么循坏写入下面的sql语句   
  30. if r1=1 then   
  31. findword=findword" A.Title like '%" & keywords(i) & "%' and "  
  32. else   
  33. findword=findword" A.Title like '%" & keywords(i) & "%' or "  
  34. end if   
  35. end if   
  36. end if   
  37. next '循环结束   
  38. end if   
  39.       end if   
  40. '分词技术  

 以上代码来源于很早以前在新云cms系统下做的分词搜索。其实这段代码是可以集成到任何asp程序中的。

分类:所有文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 6

CSW分词组件特性

4. 组件特性

4.1 适应性强

本组全部件采用ANSI标准C++开发,可广泛应用于当今的操作系统平台上,如:MS Windows 、Linux及其它各公司出品的Unix操作系统。

 

查看更多...

分类:所有文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 5

CSW分词组件公共属性及方法

方法名称
参数名称
类型
功能及用途
Split
描述: 对给定文本序列按词组进行拆分。
  参数1: InputString string 待拆分的原始文本序列。
参数2: OutputType int 指定输出类型 (0 标准分词输出, 1 附带词性输出, 2 附带词频输出)
参数3: DllPath string 指定组件所在系统中完整路径。
返回: OutputString string 分词后的文本序列。标准输出其间使用"空格"隔开。带词性及词频输出采用"/"间隔
 
About
描述: 查看组件相关信息
参数: string 分词组件动态链接库文件
返回: AboutCSW string 与此组件相关信息。
 
AddNewWord
描述: 添加自定义的新词组
参数1: Word string 自定义的词组
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 1. 如需同时添加自定义词组的词性或词频,其间须用空格间隔。如:"中文 n 62" 此处中文为自定义词组,n为词性,62为词频。
  2. 词组最大长度10个字符;词性为英文字母,最长不超过2个英文字母;词频为整型数字,最大值不超过100。
 
AddNewWord _File
描述: 从文本文件批量添加自定义的新词组
参数1: FileName string 文件名称及完整路径
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 1. 文件格式:每行一个词组,词组起止采用半角双引号表示,如有词性及词频,其间用空格间隔,如无可省略。例如:"中文 n 62" 此处"中文"为自定义词组,"n" 为自定义词性,"62" 为自定义词频 。
  2. 词组最大长度10个字符;词性为英文字母,最长不超过2个英文字母;词频为整型数字,最大值不超过100。
  3. 导入过程中,组件将自动去除重复词组。
 
AddNewWord _Import
描述: 从其它CSW词库文件格式中导入词库(不支持5.0前版本)。
参数1: FileName string 文件名称及完整路径
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 导入过程中,组件将自动去除重复词组。
 
ComponentPath
描述: 指定组件安装路径
参数1: DllPath string 组件所在系统中完整路径。
返回: State string 方法执行后的状态,字符串长度等于0,则执行成功,否则为错误信息。
备注: 如调用此方法指定路径,则其它方法中可不必再次指定路径。
 
MakeSerialNumber
描述: 产生此组件的机器码
参数1:    
返回: MachineCode string 组件所安装电脑的机器码.
 
Version
描述: 获取组件当前版本
参数1:    
返回: VersionCSW string 返回此组件当前版本.
 
WordBase_Load
描述: 加载组件的词库.
参数1: DllPath string 组件所在系统中完整路径。
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。
 
WordBase_Reset
描述: 初始化词库
参数1: DllPath string 组件所在系统中完整路径。
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。
警告: 如调用此方法后,则所有词组将会丢失,不可恢复,慎用。
 
WordBase_Update
描述: 更新词库.
参数1: DllPath string 组件所在系统中完整路径。
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 1. 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。
  2. 在添加新词后,须调用本方法将添加的词组写入词库。
 
WordIndex_Load
描述: 加载词库索引.
参数1: DllPath string 组件所在系统中完整路径。
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。
 
WordIndex_Reset
描述: 初始化词库索引
参数1: DllPath string 组件所在系统中完整路径。
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。
警告: 如调用此方法后,则所有索引信息将会丢失,不可恢复,慎用。
 
WordIndex_Update
描述: 更新词库索引
参数1: DllPath string 组件所在系统中完整路径。
返回: State string 方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。
备注: 1. 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。
  2. 在添加新词后,须调用本方法更新词库索引。
 
分类:所有文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 4

CSW分词组件能干什么

让您网站内的搜索引擎变成多关键字模糊搜索模式。我们知道传统搜索都是单关键字搜索的。
例如:
您的网站中有一篇文章叫做 csw分词组件
而用户必须输入如: "csw”   "csw分词组件"   "分词组件"   等按照先后顺序的关键字才可以找到
但如果安装了csw分词组件,我们可以输入"csw组件"  来找到这篇文章
原理就是因为普通搜索模式下,用户输入"csw组件"关键字,系统认为这是一个关键字并在数据库中查找符合"csw组件"的文章
但是发现"csw组件"和文章"csw分词组件"无法匹配,所以无法找到。
而安装了csw分词组件后,系统是把用户输入的"csw组件"自动拆分为"csw"和"组件"两个关键字,并在数据库中查找符合csw关键字并符合组件关键字的文章。这样 就可以找到了。

分类:所有文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3

csw分词搜索介绍

简介: CSW中文分词组件,是一套基于标准C++开发的,可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的DLL组件。本组件采用完全自主开发的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要,本组件同时提供词性及词频标注功能,可根据用户要求,对其拆分后的词组进行词性标注或词频标注。其广范应用于互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、 自动摘要、自动分类及信息加工处理等各个领域。

软件介绍:
一、中文智能分词技术简介
中文自动分词技术是对现代汉语序列文本语句,将其自动拆分为以词组为单位文本的技术。
二、应用范围
中文智能分词技术作为中文信息处理的核心和汉语自然语言理解的基础,其有着广泛的应用范围. 诸如:数据挖掘、文档分类、自然语言理解以及凡是涉及到信息/数据检索的各个领域。
三、应用范例
在当前中文信息检索过程中,由于汉语语言的特殊性,所检索出的结果往往差强人意。对搜索条件自动进行中文分词处理,是目前提高检索结果准确性的一种有效途径。
例如1:
搜索关键字:上海燃料化学公司
使用中文分词组件后可拆分为:上海 燃料 化学 公司
如数据库中存在的是” 上海市燃料化学总公司”,按通常的检索方法是很难检索出来的,采用中文分词技术拆分后,可对被搜索关键字进行分开匹配(Filed like ‘%上海%’ and/or Field like ‘%然料%’ and/or Field like ‘%化学%’ and/or Field like ‘%公司%’ )。从而有效避免因被检索内容中无的”上海然料化学公司”字符而导致不能正确检索出结果的现象。

四、本组件特点:
1.适应性强
基于.NET平台开发,采用DLL动态链接库,提供编程接口,可适用于网站或应用软件的数据检索
2. 响应速度快
在对搜索关键字进行智能分词时,其响应时间都在毫秒级以内。不会影响整体检索速度。
3. 词组拆分识别率高。
经实际使用过程中检测,在对数十GB的文档资料进行折分时,所其识别率均大于90%。
4. 采用倒序分词技术。
在拆分过程中,采用倒序分词技术,可有效对汉语词汇进行歧义自动识别
5. 特殊字符过滤
可过滤掉在检索中不必要或影响检索结果有效性的不必要字符。如: '~'符号,'^'符号等,亦可自定义过滤字符。
6. 无意义字及敏感词过滤功能。
集成自定义无意义字及敏感词过滤功能,可过滤掉诸如:啊、唉、个等无意义的以及煸动、反动、黄色和侵害他人的汉字、词组及英文。
7.词库覆盖面广
内置10万条汉语词库,含盖了IT、化工、金融、贸易、纺织、电子、制造等各行各业以及日常生活用语中的常用汉语词组。
8. 具有英文单词识别功能。

应用平台 封装方式 支持语言
MS Windows
2000/XP/2003或更高
COM接口 ASP、ASP.Net、C#、VB.Net、VB6.0、Delphi、VC等
MS Windows
2000/XP/2003或更高
C接口 C、C++、VC6、VC.NET、BC、PHP 等
MS Windows
2000/XP/2003或更高
Java调用接口 Java、JSP
Unix/Linux so [ 暂未推出 ]
>> 在线演示 [北京网通]          

分类:所有文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 6