参考答案和解析
正确答案: 1)建立检索系统数据库中文档的向量表示,并进行聚类处理,形成聚类文档。2)接受用户检索请求,并将检索请求表示或转换为提问向量;3)确定相似度计算函数,并计算提问向量与聚类文档中各文档类向量之间的相似度。4)根据系统中预定义的相似度阈值,选择与提问向量相似度值大于阈值的类向量作为下一步进行检索的文档范围;或者,只选择与提问向量最相似的类向量中的文档作为继续检索匹配的对象。5)在选中的类向量所包含的文档集合中,逐一计算提问向量与各文档向量的相似度,并将相似度值大于指定阈值的文档作为命中结果排序输出。
更多“论述聚类检索算法的基本思想。”相关问题
  • 第1题:

    简述k-means算法,层次聚类算法的优缺点。


    正确答案:(1)k-means算法:
    优点:算法描述容易,实现简单快速
    不足:
    簇的个数要预先给定
    对初始值的依赖极大
    不适合大量数据的处理
    对噪声点和离群点很敏感
    很难检测到“自然的”簇
    (2)层次聚类算法:
    BIRCH算法:
    优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
    不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
    C.URE算法:
    优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
    缺点:算法在处理大量数据时必须基于抽样,划分等技术。
    R.OCK算法:
    优点:分类恰当,可采用随机抽样处理数据。
    缺点:最坏的情况下时间复杂度级数大。
    基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。

  • 第2题:

    通过发现的左侧聚类,如何实现缩小检索范围()

    • A、勾选聚类后,点击“确定”按钮
    • B、直接勾选聚类即可

    正确答案:A

  • 第3题:

    计算机检索方法包括()。

    • A、布尔检索
    • B、截词检索
    • C、原文检索
    • D、聚类检索

    正确答案:A,B,C,D

  • 第4题:

    K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。


    正确答案:错误

  • 第5题:

    主要的数据挖掘算法有()。

    • A、分割聚类法
    • B、ID3算法
    • C、Apriori算法
    • D、遗传算法

    正确答案:A,B,C

  • 第6题:

    下列哪种算法属于聚类算法的范畴().

    • A、Apriori算法
    • B、k-means算法
    • C、kNN算法
    • D、C4.5算法

    正确答案:B

  • 第7题:

    问答题
    按照聚类的原理和方法划分有哪三类聚类算法?各种聚类算法的思想是什么?

    正确答案: 按照聚类的原理和方法来划分聚类算法,分为:
    ①层次聚类;②划分聚类;③基于密度的聚类。
    各种聚类算法的思想如下:
    ①层次聚类:递归的对对象进行合并或者分裂,直到满足某一终止条件。根据二叉树生成的顺序,可以把层次聚类方法分为合并型层次聚类和分解型层次聚类;
    ②划分聚类:给定聚类数目k和目标函数F,划分聚类算法把D划分成k个类,是的目标函数在此划分下达到最优,划分算法把聚类问题转化成一个组合优化问题,从一个初始划分或者一个厨师聚点集合开始,利用迭代控制策略优化目标函数。
    ③基于密度的聚类:根据空间密度的差别,把具有相似密度的点作为聚类。通常只扫描一次数据库。
    解析: 暂无解析

  • 第8题:

    问答题
    简述动态聚类法的基本思想和步骤,在实际应用中如何确定合理的聚类数目?

    正确答案: 基本思想:首先选择若干个样本作为聚类中心,再按照事先确定的聚类准则进行聚类。在聚类过程中,根据聚类准则对聚类中心反复修改,直到分类合理为止。
    步骤:(1)选择凝聚点,凝聚点就是一批有代表性的样品。可以凭经验选择,或将所有样品随机分成k份,计算每一类的均值,将这些均值作为凝聚点;也可以采用最大最小原则或密度法。
    (2)初始分类
    (3)判断分类是否合理,若不合理,则修改分类,重复步骤(2)
    (4)至分类结果合理,结束分类。
    聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中,可以根据方差分析理论,应用混合F统计量来确定最佳分类数。
    解析: 暂无解析

  • 第9题:

    多选题
    主要的数据挖掘算法有()。
    A

    分割聚类法

    B

    ID3算法

    C

    Apriori算法

    D

    遗传算法


    正确答案: B,C
    解析: 暂无解析

  • 第10题:

    问答题
    试述系统聚类的基本思想。

    正确答案: 系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
    解析: 暂无解析

  • 第11题:

    多选题
    目前聚类算法的选择缺觉与()的类型,()的目的和应用
    A

    数据

    B

    关联

    C

    聚类


    正确答案: A,B
    解析: 暂无解析

  • 第12题:

    判断题
    K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。
    A

    B


    正确答案:
    解析: 暂无解析

  • 第13题:

    常见的聚类算法可以分为几类?


    正确答案:基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法等。

  • 第14题:

    什么是P类问题?什么是NP类问题?请描述集合覆盖问题的近似算法的基本思想。


    正确答案:用确定的图灵机可以在多项式实践内可解的判定问题称为P类问题。
    用不确定的图灵机在多项式实践内可解的判定问题称为P类问题。
    集合覆盖问题的近似算法采用贪心思想:对于问题,每次选择F中覆盖了尽可能多的未被覆盖元素的子集S,然后将U中被S覆盖的元素删除,并将S加入C中,最后得到的C就是近似最优解。

  • 第15题:

    BIRCH是一种()。

    • A、分类器
    • B、聚类算法
    • C、关联分析算法
    • D、特征选择算法

    正确答案:B

  • 第16题:

    现代信息检索系统中最常用的一种方法是()。

    • A、布尔检索
    • B、截词检索
    • C、原文检索
    • D、聚类检索

    正确答案:A

  • 第17题:

    目前聚类算法的选择缺觉与()的类型,()的目的和应用。

    • A、数据
    • B、关联
    • C、聚类

    正确答案:A,C

  • 第18题:

    问答题
    快速聚类法(K—均值法)的基本思想是怎样的?

    正确答案: 如果待分类样品比较多,应先给出一个大概的分类,然后不断对其进行修正,一直到分类结果比较合理为止。
    解析: 暂无解析

  • 第19题:

    问答题
    什么是P类问题?什么是NP类问题?请描述集合覆盖问题的近似算法的基本思想。

    正确答案: 用确定的图灵机可以在多项式实践内可解的判定问题称为P类问题。
    用不确定的图灵机在多项式实践内可解的判定问题称为P类问题。
    集合覆盖问题的近似算法采用贪心思想:对于问题,每次选择F中覆盖了尽可能多的未被覆盖元素的子集S,然后将U中被S覆盖的元素删除,并将S加入C中,最后得到的C就是近似最优解。
    解析: 暂无解析

  • 第20题:

    问答题
    论述聚类检索算法的基本思想。

    正确答案: 1)建立检索系统数据库中文档的向量表示,并进行聚类处理,形成聚类文档。2)接受用户检索请求,并将检索请求表示或转换为提问向量;3)确定相似度计算函数,并计算提问向量与聚类文档中各文档类向量之间的相似度。4)根据系统中预定义的相似度阈值,选择与提问向量相似度值大于阈值的类向量作为下一步进行检索的文档范围;或者,只选择与提问向量最相似的类向量中的文档作为继续检索匹配的对象。5)在选中的类向量所包含的文档集合中,逐一计算提问向量与各文档向量的相似度,并将相似度值大于指定阈值的文档作为命中结果排序输出。
    解析: 暂无解析

  • 第21题:

    单选题
    下列哪种算法属于聚类算法的范畴().
    A

    Apriori算法

    B

    k-means算法

    C

    kNN算法

    D

    C4.5算法


    正确答案: D
    解析: 暂无解析

  • 第22题:

    单选题
    以下哪个聚类算法不是属于基于原型的聚类()。
    A

    模糊c均值

    B

    EM算法

    C

    SOM

    D

    CLIQUE


    正确答案: C
    解析: 暂无解析

  • 第23题:

    单选题
    以下哪个聚类算法不属于基于网格的聚类算法()。
    A

    STING

    B

    WaveCluster

    C

    MAFIA

    D

    BIRCH


    正确答案: C
    解析: 暂无解析