金色坐标

关注互联网应用和搜索引擎技术

Lucene建立索引的四种类型

Lucene是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。Lucene提供四种不同类型的索引方法,分别是Keyword,UnIndexed,UnStored和Text,用户可以根据需要来选择合适的类型。下表详细说明了每种索引类型的用途和特点...

要善于利用博客搜索引擎

现今在网络上寻找信息,使用搜索引擎是众所周知,但是博客搜索的使用率相对还是偏低的。其实,博客搜索既然作为独立搜索功能被开发出来,其本身是有一些独到之处的。如果能够善于利用博客搜索,有时候就能得到更加良好的搜索体验。博客搜索比通用搜索的独到之处有很多,但主要在于其有较高的时效性和真实性...

搜索引擎是否应该人工干预

由于此前百度爆发的虚假医药信息风波,很多人在对百度的口诛笔伐之中,加入了对百度人工干预搜索引擎结果的批判。但是实际上,人工干预搜索引擎本身并没有错误,如何进行干预才是真正需要关注和改进的地方...

Lucene使用代码实例之搜索文档

利用Lucene为文本文档建立索引之后,就可以基于这个索引进行文档的内容搜索,从而找到包含某个关键词或短语的文档。Lucene在搜索文档时主要会用到IndexSearcher, Term, Query, TermQuery, Hits等五个基础类...

Lucene使用代码实例之建立索引

需要对一些HTML文档,PDF文档或者数据库文本数据进行索引的话,首先需要把HTML文档,PDF文档等转化成文本格式内容,然后将转化后的内容交给Lucene进行索引,再把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。使用Lucene的代码简单来说可以分为两部分,一是建立索引,二是搜索内容。首先下载Lucene软件包,其发布形式是一个Jar文件,其中在为文档建立索引时主要会用到Document, Field, IndexWriter, Analyzer, Directory等五个基础类...

网络营销(垃圾邮件)邮件地址获取方法

目前,网络营销手段之一就是向广大用户定时群发邮件,当然某种程度之下也会被称为垃圾邮件轰炸。那么进行群发邮件的前提是需要事先具有大量的邮件地址(Email Address),那么这些邮件地址是怎样被发送者所获取的呢...

互联网到底能提供哪些有价值信息

每个人都在说互联网信息的海量性,每个人都在说互联网信息的丰富,甚至还有一门学科就叫Web信息挖掘。那么,互联网到底能提供哪些有价值的信息呢?Web信息挖掘到底包括哪几方面呢?通常情况下,Web信息挖掘主要分为Web文本信息挖掘,Web结构信息挖掘和Web访问信息挖掘,因此互联网的有价值信息主要可以分为以下三类...

网页搜集的性能优化点

面向互联网和海量Web信息进行网页搜集,必须进行一系列的搜集性能优化工作,否则搜集网页的数量和质量(例如时效性)都将无法得到保证。这些技术涉及到很多方面,下面挑选几个有代表性的进行介绍...

搜索引擎到底怎样才算公正

央视在曝光百度虚假医药广告之后,近日又对谷歌进行了批评,加上网络和各路媒体的推波助澜,一时间搜索引擎成为众矢之的,就其虚假信息和行业公正问题热议不断。其实,单就网络上的虚假信息来说,搜索引擎本身对其也是深恶痛绝的,唯一能引起争议的话题在于,搜索引擎的广告中含有虚假信息,搜索引擎应该如何自处...

主题搜索引擎(垂直搜索引擎)如何进行主题描述

主题描述是指对主题的量化表现,即通过一定的方法和模型将抽象的主题概念表达为可量化计算和对比的表现形式。主题描述是主题Web搜集的基础,因为主题Web信息是通过判断Web信息是否与搜集主题相关来筛选所需的,主题描述的精确度直接影像着搜集信息的质量。目前通用的主题描述方法是选取一定的主题样本并基于一定的数学模型对其进行样本分析和特征提取,从而建立相应的主题特征描述...

主题搜索引擎(垂直搜索引擎)网页抓取要点

主题搜索引擎与通用搜索引擎有所不同,主题搜索引擎是以构筑某一专题或学科领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需要的信息资源。这些差异决定了主题搜索引擎在网页抓取中,与通用搜索引擎有几个差异点...

主题搜索引擎(垂直搜索引擎)的实现原理和方法

主题搜索引擎(垂直搜索引擎)与通用搜索引擎有所不同,主题搜索引擎是以构筑某一专题或学科领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需要的信息资源,能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家等等在内的信息用户,提供整套的网络信息资源开发方案。主题搜索引擎的实现方法主要有三种...

搜索引擎的实现原理和架构分析

搜索引擎根据用户提交的类自然语言查询词或者短语,将一系列很可能与该查询相关的网页信息返回给用户,此时搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。现代大规模高质量搜索引擎的主流是采用“从互联网上抓取网页(搜集)-建立索引数据库(整理)-在索引数据库中搜索并排序(服务)”的三段式工作流程...

搜索引擎的版权问题—大众点评网诉爱帮网侵权

日前,针对搜索引擎抓取内容版权的问题,又一个宣判案例被提上了桌面。这是在通用搜索引擎经历过一系列战火,例如Google报纸版权案,百度MP3版权案,甚至包括迅雷下载版权案之后,第一次延伸至生活搜索领域的版权案。搜索引擎涉及的版权官司,本质上来源于搜索引擎本身是不产生网络信息的,它的信息来源于网络抓取,那么就存在一个问题,将网络上的信息抓取并用于向用户提供检索和展示,是否侵犯信息本身拥有者的权利...

个人和企业网站站点型搜索引擎的建立方法

所谓站点型搜索引擎,即针对单个网站或者某几个网站内容提供检索功能的微型搜索引擎。和通用搜索引擎相比,不同点在于通用搜索引擎是面向整个互联网,或者至少是面向某个特定领域对大量网站内容的检索,而站点型搜索引擎,主要用于对个人或者企业自身所建网站和信息系统内容的检索。以企业网站为例。目前,单个企业网站实现自身的搜索功能,通常有两个办法...

Google新网上工具绘画流感地图—搜索引擎的社会化应用

今天在bbc上看到一则新闻:Google新网上工具绘画流感地图。新闻介绍Google推出了一个新的网上工具,可以协助用户追踪在美国的流感散布状况。原理是目前美国的病患者大多会首先在网上使用Google寻找治疗方法,然后才找医生帮忙。这个工具通过记录一些常用词汇例如"感冒","肌肉痛"等的搜寻,绘画出美国感冒病人的聚落,以追踪疫情的扩散。这个新的网络追踪系统被...

分页:[«]1[»]

订阅博客

  • 订阅我的博客:订阅我的博客
  • 通过Google订阅本站
  • 通过bloglines订阅本站
  • 通过抓虾订阅本站
  • 通过yahoo订阅本站

Search

Google

金色坐标博客——京ICP备09009094号

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.
KingXY Blog - This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.