我们所说的企业搜索引擎(Enterprise Search Engine,简称ESE)中的企业并非指单纯的企业,政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求,这里的“企业”可以理解为“企业级”,即企业级搜索引擎。那么,对于企业级搜索,我们对“搜索”的诉求又是什么呢?和互联网搜索引擎相比,它又有哪些不同呢? 我们所说的企业搜索引擎(Enterprise Search Engine,简称ESE)中的企业并非指单纯的企业,政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求,这里的“企业”可以理解为“企业级”,即企业级搜索引擎。那么,对于企业级搜索,我们对“搜索”的诉求又是什么呢?和互联网搜索引擎相比,它又有哪些不同呢? *SEO:搜索引擎优化,利用工具或其他手法夺取较好的网络排名。
体系架构
TRS公司推出的企业搜索引擎解决方案,利用TRS公司多年来自主开发的TRS Database Server作为企业搜索引擎服务的平台。辅以各种数据索引工具,配套数据内容分发服务模块,构建成一个完整的,能够索引企业内部全面的信息内容,提供安全分级授权的、个性丰富的检索体验的企业搜索引擎服务。其框架图:
核心优势
“安全”的搜索引擎
TRS搜索引擎技术支持内容安全性控制,可以通过域、IP段、URL等广域网范围的控制,实现授权搜索采集,不乱采集。同时,TRS对查询内容进行分级控制,特定的人只能搜索和查询特定的内容。
在TRS搜索引擎技术中提供了信息智能过滤和禁用词典设置,通过这些技术,保障搜索引擎在提供便捷的搜索服务的同时,也保证对不良信息搜索的过滤。
另一方面,TRS搜索引擎技术在安全模块设计上提供了对PKI/PMI体系支持的开放接口,可以保障将TRS搜索引擎集成在企业内整体的信息安全保障体系之中 。
全息搜索
TRS企业搜索引擎平台服务器支持Native XML的存储和搜索。实现了从全文到元数据的多种联合搜索,为企业搜索引擎应用提供了全息检索机制。
更高的搜索准确性和智能性
TRS搜索引擎技术支持按词索引、按字索引、按关键词索引,字词混合索引,适应不同应用环境的需求,同时TRS
搜索引擎内嵌中文自动分词系统--检索“北大”,检索不出“东北大学”。
内嵌歧义处理实例规则库,正确识别歧义片断,提高分词准确性分词系统要达到一定的准确率,需要和人一样不断积累知识,也就是不断积累分词规则。TRS公司从80年代末就开始积累分词规则,这些规则从大量的语料中统计产生,如果语料的数量不够则产生的规则往往带有片面性,TRS积累了20~30GB的文本语料,且这些语料能反应现中文语言的特点。如果一个语句切分时有歧义片段,则按适合的规则切分歧义片段,提高了查准率。
在查询方面,TRS提供了基于词典的智能扩展查询,可以按同义词、行业主题词等词典进行智能扩展查询,例如,在查询“锐器”时,系统将自动将包括“匕首”、“刀”等内容提供给信息搜索人员。
在查询中,对自动聚类技术进行充分利用,可以实现各类信息自动相关等功能,为内容比对分析提供了有利工具。
个性化的搜索体验
TRS搜索引擎内容分发服务模块充分考虑了信息搜索过程中工作繁忙、对信息构序等功能。例如:使用者可以定制查询任务,比如“专项斗争”、“专题文件”等单项任务,又如可以定制查询更新时间,查询系统将根据定制的任务,定期进行相关信息查询,定期将查询结果推送到用户的工作界面,方便信息需求者。
另外,系统还提供了个人检索历史记录、个性化界面设置等等功能,不同的使用者可以选择适合自己的工作查询界面,提升系统的易用性和灵活性。
实时资源整合搜索
TRS搜索引擎技术能将各种RDBMS、文件系统、网页信息等实时发现,创建索引,为搜索服务提供基本的保障。
标准、开放的系统
标准、开放是一个应用系统得以发展和壮大的基础,通过标准开放的模式,可以保证用户更多地采用先进的技术搭建个性化的应用。随着技术的发展,各个软件供应商越来越在某一领域具有专利或优势技术,但是用户的需求是全方位的,因此,最好的解决方案就是采用统一规范标准的接口进行应用集成,这也是国际化软件发展趋势。
TRS公司设计的搜索引擎解决方案在很多方面为应用集成提供了保证,如支持系统三层体系结构,支持J2EE标准中间件,支持XML数据交换规范,提供底层数据库的各种平台的完善的开发接口,提供模块组件,支持二次开发,开放底层数据存储格式等。
强壮可靠的系统、低成本按需扩展
TRS搜索引擎平台服务器采用了TRS集群服务器技术,实现了TRS全文检索数据库的集群和负载均衡应用,在采集方面利用分布式采集和任务集中控制模式可以进行大规模采集,在未来可以通过增加硬件的方式,就能提高系统的处理能力。
另外,随着未来负载和访问量的增加,可以分步建立镜像中心,满足大规模应用需要 。
基于内容的自动分类和聚类技术
TRS搜索引擎中嵌入式的内容分类技术和聚类技术,不但可以先按内容、地区、来源等多种方式快速标引各类信息,而且可以基于内容对信息进行自动、准确的分类,这两种分类方法有机结合为TRS搜索引擎提供全面的、准确的、快速的、智能的分类服务。另外,系统还提供了个人检索历史记录、个性化界面设置等等功能,不同的使用者可以选择适合自己的工作查询界面,提升系统的易用性和灵活性。 实时资源整合搜索
TRS搜索引擎技术能将各种RDBMS、文件系统、网页信息等实时发现,创建索引,为搜索服务提供基本的保障。 标准、开放的系统
标准、开放是一个应用系统得以发展和壮大的基础,通过标准开放的模式,可以保证用户更多地采用先进的技术搭建个性化的应用。
随着技术的发展,各个软件供应商越来越在某一领域具有专利或优势技术,但是用户的需求是全方位的,因此,最好的解决方案就是采用统一规范标准的接口进行应用集成,这也是国际化软件发展趋势。
TRS公司设计的搜索引擎解决方案在很多方面为应用集成提供了保证,如支持系统三层体系结构,支持J2EE标准中间件,支持XML数据交换规范,提供底层数据库的各种平台的完善的开发接口,提供模块组件,支持二次开发,开放底层数据存储格式等 。
强壮可靠的系统、低成本按需扩展
TRS搜索引擎平台服务器采用了TRS集群服务器技术,实现了TRS全文检索数据库的集群和负载均衡应用,在采
集方面利用分布式采集和任务集中控制模式可以进行大规模采集,在未来可以通过增加硬件的方式,就能提高系统的处理能力。
另外,随着未来负载和访问量的增加,可以分步建立镜像中心,满足大规模应用需要。
基于内容的自动分类和聚类技术
TRS搜索引擎中嵌入式的内容分类技术和聚类技术,不但可以先按内容、地区、来源等多种方式快速标引各类信息,而且可以基于内容对信息进行自动、准确的分类,这两种分类方法有机结合为TRS搜索引擎提供全面的、准确的、快速的、智能的分类服务。
优异的全文检索性能
TRS全文检索系统在行业里具有领先的性能,是中文全文检索的事实上的标准,众多的全文检索厂商都以TRS的性能指标作为自己软件评测的标准和系统发展
以保证用户更多地采用先进的技术搭建个性化的应用。
随着技术的发展,各个软件供应商越来越在某一领域具有专利或优势技术,但是用户的需求是全方位的,因此,最好的解决方案 就是采用统一规范标准的接口进行应用集成,这也是国际化软件发展趋势。
TRS 公司设计的搜索引擎解决方案在很多方面为应用集成提供了保证,如支持系统三层体系结构,支持J2EE标准中间件,支持XML数据交换规范,提供底层数据库的各种平台的完善的开发接口,提供模块组件,支持二次开发,开放底层数据存储格式等。
目前国内唯一的商用千万级数据库——新华社多媒体数据库就是采用TRS作为底层检索平台,目前,该系统已有将近8T数据量,检索(包括简单检索和复杂检索)的平均响应时间是秒级。并且,TRS的检索性能随着数据的增加不会呈线性下降,可以在一个非常广的数据规模范围内保证用户的实际应用。
|