预览模式: 普通 | 列表

搜索引擎技术解析:中文分词技术

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。

搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

中文分词和搜索引擎

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索:

查看更多...

Tags: 分词技术 搜索引擎 SEO

分类:网络 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2154

今天有朋友提醒,网站有风险,百度的结果如上图。

百度什么时候推出这个功能我还真不知道,到了自己头上才发现。其实360浏览器,Firefox浏览器,Google搜索引擎早在几年前就有这样的功能,而且我也通过他们的这个功能成功诊断、解决过网站的安全问题——一般是在页面里被写入了木马代码。但这次我找不到方向了,因为其他几个都没有提示,而且网页文件源码也没有异常。

不会是与google分析的代码有关吧?

查看更多...

Tags: 百度 安全风险

分类:网络 | 固定链接 | 评论: 2 | 引用: 0 | 查看次数: 2885

一种不知名的植物,给我奇怪的感觉





不知道这是什么植物,但这花让我心里一动,是什么东西?女人的衣袖,对,垂下来的,像是在送别,又像是在受训,一种让人不悦的感觉。

Tags: 植物 感觉

分类:闲话 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2160

如果祖国是母亲,那党就是后妈

母亲与后妈

昨天看电视上播蒋大为的演唱会”最美的歌儿唱给妈妈“,突然就想到了这句话:如果祖国是母亲,那党就是后妈。

我们作为普通老百姓,对于经济建设的成果,社会财富的增长,是在某些人充分享受、分配完了之后才得到些许好处的,这很类似家里的情况。虽然俗话说”后娘养的“是指待遇不好,但因为后娘当权,当然是后娘的孩子能得到更多。

 

查看更多...

Tags: 母亲 后妈 红十字会 捐献 慈善

分类:闲话 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2271