痞子瑞:seo研究中词项词典及倒排记录表

  • SEO优化顾问 2018-03-03
<返回列表

首先问顾一下构建倒排索引的几个主要步骤:


seo研究中词项词典及倒排记录表

 

()收集待建索引的文档:

 

(2) 对这些文档中的文本进行词条化,

 

(3)对第2步产生的词条进行语言学预处理,得到词项,

 

(4)根据词项对所有文档建立索引。

 

本章首先定义文档的基本组成单位并介绍在文档中确定这些单涉及到的主要的语言学相见2 1节)。接着,我]将详细讨论在词条化和语言学预处理过程中所大问题,通过词条化和语言学预处理可以确定系统所用的词项词典(参见22)。所谓训条化(okizio)指的是将原始的字符流转模成个个词条(oken) 的过程。而语言学顾处理的上要目的在于建立词条的等价类,其中每个等价类对应一个词项,这些词项最终用于建立文档的索引。构建索引的过程主要在第1章和第4章介绍,本京暂不详述。本章最后讨论倒排记录表的具体实现可题。2 3节考察了一个扩展的带跳表倒排记录表数据结构,该结构能够支持查询的快速处理。2.4节主要介绍适合于处理短语查询和邻近查询的索引结构,这些查询在支持扩展布尔操作的检索系统和Web搜索系统中的使用十分普遍。

 

2.1文档分析及编码转换

 

2 1.1字符序列的生成

 

作为索引构建过程的输人,数字文档一般由文件中或者Web服务器上的一系列字节组成。

 

因此,文档处理的第一步往往是将这些字节序列转换成线性的字符序列。对于ASCI编码的纯英文文本来说,处理起来似平并非难事。然而、实际中往往会遇到非常复杂的情况。比如字符序列可能采用各种单字节或者多字节编码方式(比如Unicode中的UTF-8编码),也可能采用不同国家、不同厂家的特定编码方式。因此,为了实现从字节序列到字符序列的转换,首先要正确地判断出文档的编码方式。可以将该判断过程看成是一个基于机器学习的分类问题“(我们将在第13 章讨论) 来处理,但在实际中往往通过启发式方法来实现,也可以利用文档的元信息或者直接由用户手工选择来确定。确定编码方式后,我们就可以将字节序列转换成字符序列,在此过程中还应该保存编码信息,因为该信息有时能帮助确定文档的语言种类。

 

分类器是个将具有同种属性的对象归人一个或多个类别的的数,它往往通过机器学习方法(如慨率方法) 来实现,当然它也可以通过人工编写的规则来实现。

更多阅读

小六seo:企业网站怎么针对图片SE

SEO培训 2017-11-08
一直都有很多seoer在问小六,图片优化怎么做,这类问题,本文就和大家讲一讲。 众所周知的网站图片优化无非就是对图片大小的控制... 查看全文

蚌埠seo:日常SEO优化中影响seo效

SEO基础知识 2018-08-03
很多seoer在优化网站的过程中,效果不好,甚至于效果微乎其微,这个状况是普遍的。为什么同样都是做seo的,有些效果好,有些效果... 查看全文

杭州SEO:启拉网络SEO推广运营新

杭州seo 2018-04-06
现在新媒体平台很多,如何借助新媒体的价值来做SEO。如果想了解更多关于推广 的知识可以阅读: 小白SEO:全网推广思路具体操作方... 查看全文

2018年百度算法更新,怎么让网站

SEO基础知识 2018-04-14
随着百度算法经常更新及智能化,现在的seoer已经快跟不上步伐了,整天研究怎么做网站流量,那么2018年百度算法更新,怎么让网站排名... 查看全文

【东莞seo学习】百度快照时间到

SEO基础知识 2018-11-09
搜索关键词 首页排名的快照时间,跟直接搜索网址的得到的 最新首页快照时间不一样,我知道快照存在多个,存在于不同的服务器上,... 查看全文

【张岩seo】SEO和竞价,企业该怎

SEO优化顾问 2018-03-07
张岩seo建议,seo和竞价同时做事非常好的,网大了好扑鱼,做网络营销也一样,你在网络上联系方式越多,看到的人总会有的,从而成交的... 查看全文
返回全部新闻
扫描二维码分享到微信
确 认
Copyright © 2009-2015; SEO教程百科网-杭州小周SEO优化教程学习及SEO新手培训教程,版权所有