2018-08-18

索引的处理过程

提取文字

搜索引擎蜘蛛抓取页面之后,从HTML中找出单纯文字信息,JavaScript代码、HTML标记语言的普通标签对搜索引擎来讲是毫无意义的。

除了提取普通文章外,还会提取图片或Flash的alt属性中的文字、以及链接锚文本等,同时,还有meta标签中的标题与页面描述信息。

② 中文分词

中文分词:指的是将一个汉字序列切分成一个个单独的词。

在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

中文分词有三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

字符匹配:它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。

理解法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

统计法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

置顶文章