Dimensinality reduction and topic modeling_topic modeling, dimensionality reduction-程序员宅基地

技术标签: NLP  自然语言处理  

Dimensinality reduction and topic modeling

0 Abstract

BOW is not effective facing synonym and polysemy.
Dimension reduction can solve this, represent a document in lower-dimension, and reflect concepts.

Two froms of dimension reduction:

  • latent semantic indexing using spectral decomposition
  • Topic modeling PLSI & LDA using probabilistic model to find the co-occurrence patterns which correspond to semantic topic

Then a survey of advances to apply these techiniques to large and envolving datasets and to in corporate network and contextual information

1 Introduction

  • Index of Hebrew difficulties
    • suppress difference sin which were not significant.
    • preserving diffrences that might affect the sematics.
  • core task automated text-mining
    • synonymy & ploysemy
  • Bag of words (BOW)
    • acounting for frequency ignoring order
    • high dimensionality and sparse (term-document matrix)
  • relationship between Clustering, Reduction and Topic modeling
    • (Discriminate method) Clustering & soft clustering: uses similarity, natural cluster but hard to interpretate. soft (associate with multiple clusters)
    • (Discriminate method) Dimension reduction: BOW representation, more original and coupling, still hard to interpretate.
    • (Generative method) Topic modeling: combination of soft clustering and dimension reduction.

2 latnet semantic indexing

projecting documents into semantic space, analysising at conceptual level.

  • Overcome synonymy and ploysemy (help term-based information retrieval)

  • From 1980s

    • information retrieval
    • assigning papers to reviewers
    • cross-lingual retrieval
  • Based on the approximation SVD of the term-document matrix, view low-rank space as semantic concepts space

  • Procedure

    • SVD
      X = U Σ V T X=U \Sigma V^{T} X=UΣVT
    • low-rank approximation (minimizes spectral norm and Frobenius norm).
      X ^ = U ^ Σ ^ V ^ T = [ U 1 … U K ] [ σ 1 ⋱ σ K ] [ V 1 T ⋮ V K T ] \begin{aligned} \hat{X} &=\hat{U} \hat{\Sigma} \hat{V}^{T} =\left[\begin{array}{lll} \boldsymbol{U}_{1} & \ldots & \boldsymbol{U}_{K} \end{array}\right]\left[\begin{array}{lll} \sigma_{1} & & \\ & \ddots & \\ & & & \sigma_{K} \end{array}\right]\left[\begin{array}{c} \boldsymbol{V}_{1}^{T} \\ \vdots \\ \boldsymbol{V}_{K}^{T} \end{array}\right] \end{aligned} X^=U^Σ^V^T=[U1UK]σ1σKV1TVKT
    • document and term representations
      X d = U ^ Σ ^ X ^ d T v = V ^ Σ ^ T ^ v \boldsymbol{X}_{d}=\hat{U} \hat{\Sigma} \hat{\boldsymbol{X}}_{d} \qquad \boldsymbol{T}_{v}=\hat{V} \hat{\Sigma} \hat{\boldsymbol{T}}_{v} Xd=U^Σ^X^dTv=V^Σ^T^v
    • application
      • Information retrieval
        q ^ = Σ ^ − 1 U ^ T q \hat{\boldsymbol{q}}=\hat{\Sigma}^{-1} \hat{U}^{T} \boldsymbol{q} q^=Σ^1U^Tq
      • Document similarity: One solved non-identifiability of the SVD [63]
      • Term similartiy
  • Implementation

    • Term-Document Matrix
      • DF*IDF
      • language pyramid model [70]
    • Computation
      • Lanczos algorithm (for sparse matrix)
    • Handling changes: corpus changes
      • fold in: computing new ones using original decomposition. Efficient O(KN).
      • Updating semantic space: [ 8 (1995) , 52 (1994) , 74 (1999) ]
        • [74]: [ X ^ X ′ ] \left[\hat{X} X^{\prime}\right] [X^X] instead of [ X X ′ ] \left[X X^{\prime}\right] [XX]
  • Some Analysis

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lost_pork/article/details/109993601

智能推荐

给广大码农分享福利:一个业界良心的github仓库,中文计算机资料_码农 库-程序员宅基地

文章浏览阅读1.6k次,点赞2次,收藏7次。我今天查资料时无意发现的,https://github.com/CyC2018/CS-Notes这个仓库包含了下列几个维度的计算机学习资料:深受国内程序员喜爱,已经有超过3万多star了。1. 算法(1) 剑指 Offer 题解:目录根据原书第二版进行编排,代码和原书有所不同,尽量比原书更简洁。这里面包含了非常多的程序员找工作面试和笔试需要准备的知识点:1. 前言2. 实现 S..._码农 库

Ant Design Vue Tree 树形控件实现添加子节点_antd tree加子节点-程序员宅基地

文章浏览阅读4.6k次。先上个效果图????#要点# JS对象是地址引用的所以找到了要添加子节点的对象把它赋值到自己定义的对象中,就可操作此对象了,如添加子节点。添加到根目录下这个比较简单,因为树就是从root开始的,所以直接拿到root节点的子节点数组,添加新节点对象即可。addMenu() { const newChild = { title: '编辑菜单', key: (new Date()).getTime(), scopedSlots: {title: 'title'}, _antd tree加子节点

【jsp】如何获取jsp中输入框的值_jsp点击按钮获取填的值-程序员宅基地

文章浏览阅读1.2w次,点赞8次,收藏30次。目录一、简介二、代码三、总结一、简介由于jsp和JavaScript其实还不能完全相等,可能有一些地方有所差异,所以还是记录一下jsp是如何获取输入框的值。二、代码以判断两次密码是否正确为例,编写script标签内的函数 <script language="javascript" type="text/javascript"> <%-- 判断密码--%> function checkPwd(_jsp点击按钮获取填的值

asyncio学习_asyncio详解-程序员宅基地

文章浏览阅读260次。asyncio学习https://blog.csdn.net/sylgdxsgx/article/details/79437928_asyncio详解

ie11支持java什么版本号,Javascript检测浏览器类型和版本的代码(兼容ie11)-程序员宅基地

文章浏览阅读329次。对象/特征检测法该方法是一种判断浏览器能力(而非浏览器的确切型号)的通用方法。大部分JS专家认为这个方法最合适,因为他们认为按照该方法所编写的脚本是经得起未来考验的。//获取IE浏览器的版本号//返回数值,显示IE的主版本号function getIEVer() {var ua = navigator.userAgent; //获取用户端信息var b = ua.indexOf("MSIE ");..._兼容i11js

安装sikuli报错:jnius/jnius_conversion.pxi:54:31: Casting temporary Python object to non-numeric non-Pyth_error compiling cython file: ----------------------程序员宅基地

文章浏览阅读1.1k次。问题:Error compiling Cython file:------------------------------------------------------------... if py_arg is None: j_args[index].l = NULL elif isinstanc_error compiling cython file: -----------------------------------------------

随便推点

xmanager出不了图形化---解决-程序员宅基地

文章浏览阅读93次。xmanager出不了图形化-解决如下:export DISPLAY=IP:XX.0在本地 ipconfig 输出如下:以太网适配器 VMware Network Adapter VMnet8: 连接特定的 DNS 后缀 . . . . . . . : 本地链接 IPv6 地址. . . . . . . . : fe80::f4fd:9408:8371:753d%14 IP..._xmanager执行sh显示不了弹出框

探索Mumble-Web:新一代实时语音通讯平台-程序员宅基地

文章浏览阅读314次,点赞5次,收藏8次。探索Mumble-Web:新一代实时语音通讯平台项目地址:https://gitcode.com/Johni0702/mumble-webMumble-Web 是一个基于Web的实时语音通信解决方案,它允许用户通过浏览器进行高质量、低延迟的声音交流,无需安装任何桌面应用。这个开源项目由Johni0702开发并维护,旨在提供一种更加便捷、跨平台的团队协作与游戏语音工具。技术分析Mumble-...

票据身份验证并存入Cookie-程序员宅基地

文章浏览阅读475次。C#票据身份验证前言一、票据身份验证是什么?二、使用步骤1.存入Cookie(信息存入Cookie之后基本就可以通过Cookie是否存在去判断用户是否登录过)2.在Global文件中获取Cookie值,解析Cookie值,拿到Cookie信息在全局中进行操作总结前言一、票据身份验证是什么?C#票据身份验证一般用于登录验证存取用户信息以及判断用户是否登录二、使用步骤1.存入Cookie(信息存入Cookie之后基本就可以通过Cookie是否存在去判断用户是否登录过)代码如下(示例):一般票据

typedef struct 用法详解_typedef struct的用法-程序员宅基地

文章浏览阅读2.6k次,点赞7次,收藏12次。分三块来讲述:1首先:在C中定义一个结构体类型要用typedef:typedef struct Student (key){int a;}Stu;于是在声明变量的时候就可:Stustu1;如果没有typedef就必须用struct Studentstu1;来声明这里的Stu实际上就是struct Student的别名。另外这里也可以不写Student(于是也_typedef struct的用法

月薪三万的中专生给予大学生的忠告_中专学历程序员能月入过万吗-程序员宅基地

文章浏览阅读781次。作者:佚名 先谈谈本人的经历,本人15岁开始打工。刚开始是半工读,利用暑期假日等做临促和兼职模特。半年后索性休学做起全职促销员。04年来到深圳,从刚开始的月薪1600元,到现在的月薪三万元。今年在福田买了套一居室,办完这件大事下来,我突然感觉自己24岁的人生遇到了瓶颈,职场也出现了疲态。找朋友谈心后,决定买一些书回来充电,找到重新出发的目标。也将自己的一些总结跟大家分享一下。  一、 千万不要认为读书没用   有许大学毕业生毕业的时候恐怕会突然发_中专学历程序员能月入过万吗

Anaconda新建tensorflow环境下后解决The kernel appears to have died. It will restart automatically.-程序员宅基地

文章浏览阅读1.4w次,点赞2次,收藏6次。所遇情况:Anaconda新建了一个tensorflow的环境(我自己的取名为tfenv)之后在jupter notebook中import numpy 和 matplotlib中的包时出现**“The kernel appears to have died. It will restart automatically.”**启动(tfenv)环境之后,conda安装这些包之后在终端运行并导入..._the kernel appears to have died. it will restart automatically.