博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
向量空间搜索引擎基本理论
阅读量:5153 次
发布时间:2019-06-13

本文共 600 字,大约阅读时间需要 2 分钟。

  向量空间搜索引擎所运用的简单技术源自矩阵代数,它基于字符在文件中出现的频率来比较文件。向量空间搜索引擎中第一个重要的元素是项空间(term space)的概念,简而言之,一个项空间由文件中出现的每个独立的词组成.

  向量空间搜索引擎中第二个重要的元素是项数(termcounts)。项数就是文件中每个字符出现的次数,通常可由表的形式列出,通过将项空间作为坐标空间,项数作为项空间中的坐标,我们可为每个文件生成一个向量。

  为了了解怎样生成这些向量,我们看一个简单例子.大家可能对笛卡尔坐标比较熟悉,点的刻画沿X,Y,Z轴.类似的,在我们的例子中一个项空间由三个独立项组成,我们把它们分别称作项1轴,项2轴,项3轴.(在向量空间搜索引擎理论中这些轴通常被称作维数.)通过计算文件中各项出现的次数,并沿各项轴画出坐标,我们就可确定出与文件所对应的项空间中的点.由这些点则可生成该文件的向量.一旦在项空间中画出该文件的向量,我们就可计算向量的大小.我们把大小看作是原点(我们的例子中是坐标(0,0,0)点)到当前文件点之间连线的距离.这样就可运用向量的长度通过计算夹角的余旋来比较不同的文件.例如,相同的文件夹角余旋为1,文件中含有类似项的夹角余旋会是正小数,文件中含有截然不同项的夹角余旋会是0.

转载于:https://www.cnblogs.com/sunfie/p/6679069.html

你可能感兴趣的文章
Linux下源码编译安装PostgreSQL数据库
查看>>
Win7生产力心得(1)——如何让资源管理器中目录树与内容窗口产生联动效果
查看>>
C. Tanya and Toys_模拟
查看>>
System.nanoTime与System.currentTimeMillis
查看>>
mysql的锁机制
查看>>
菜根谭#163
查看>>
CVE-2017-5638——S2-045
查看>>
入职互联网行业两个月
查看>>
最大子阵列和
查看>>
作IFRAME于iOS您的设备上支持滚动
查看>>
SQL生成n位随机字符串
查看>>
oracle备份和升级数据库
查看>>
开机黑屏 只显示鼠标 电脑黑屏 有只老鼠 举 [我们已经成功地解决了]
查看>>
Swift初窥----语法进阶
查看>>
UVA 11997 - K Smallest Sums(优先队列+多路合并)
查看>>
import与import static
查看>>
Common Subsequence(dp)
查看>>
如何用Perl截取报文
查看>>
porm.xml-ssh
查看>>
DataList怎么分页
查看>>