热点话题挖掘(热点挖掘话题的例子)
【点击查看】低成本上班族靠谱副业好项目 | 拼多多无货源创业7天起店爆单玩法
【点击查看】逆林创业记 | 拼多多电商店铺虚拟类项目新玩法(附完整词表&检测工具)
【点击查看】逆林创业记 | 小白ai写作一键生成爆文速成课
领300个信息差项目,见公众号【逆林创业记】(添加请备注:网站)
在国外, 学者们对话题检测的研究已经取得了很多成就。文献[]提出了一种崭新的近似算法, 将其运用于话题检测的实际问题中, 并利用分阶段算法对其进行了分析。文献[]为了改善实验过程中的运行速度, 在指标Precision(准确率)的基础上提出了一种新颖的挖掘话题的算法。文献[-]对相关检测算法进行了优化改进, 并运用博客上的网络文章进行热点话题的挖掘。文献[]第一次将实时性列入识别话题算法的评判指标, 对话题的实时性作出了相关的实验证明。该评判指标后期得到了广泛应用。文献[]研究了实时Twitter流的事件检测技术, 将Twitter和微博等各种社交网络的文章用于话题检测。文献[]将关联性强的节点作为话题词, 并将话题词作为关键词挖掘出了网络平台上的相关文章。文献[]提出了基于改进的Single - Pass聚类(单遍聚类)的MC - TSP算法发掘话题, 并采用词位置信息TF - IWF - IDF方法表示博客文章内容向量, 最后在博客数据集上验证了改进算法的准确性和效率。文献[]提出了基于动态概念划分的问答系统的话题追踪与分析的算法, 并在文本语料库上证明了该算法适用于动态文本数据流。文献[]采用有监督学习算法抽取文本关键字, 将关键字作为结点构建词图, 利用图的分割技术将图分成子图并从子图中抽取话题词, 再按照文本的话题词对文章进行聚类, 最后插入Story Forest系统中。文献[]利用Twitter流数据在线检测话题子事件, 使用卡尔曼滤波器、高斯过程和概率主成分分析3种统计方法, 将话题子事件识别过程定义为异常检测问题。文献[]利用Twitter流的时间顺序并考虑其序列性质, 将社交媒体流中的话题子事件检测问题构造为序列标记任务, 其本质上是根据上下文内容对线性序列中每个元素进行分类。
近几年, 国内学者也进行了相关研究。李倩[]在原始单遍聚类算法的基础上提出了相应的改进算法, 在微博数据集上进行话题识别。万越等人[]提出一种基于数据时序性的动态增量模型, 在模型中将用户的行为看成特征, 以此检测微博中突发事件的解决方案。李新盼[]将改进后的Single - Pass聚类(单遍聚类)与传统的层次凝聚聚类算法相结合, 在微博数据集上验证了该算法的可行性。林丹等人[]提出了一种新型算法——文本关联算法, 利用传统的文档主题生成模型(LDA模型)[]挖掘舆论关心的热点, 对LDA模型得到的话题词进行聚类分析, 并对实验结果提出了优化调整的想法。周楠等人[]提出了一种基于语言模型的PLSA算法,经过Wiki数据集上的实验证明热点话题挖掘, 所提出的算法比基线算法更有优越性。王圣[]提出了一种基于细粒度文本的话题检测算法,在大规模的网络数据中筛选出需要的话题信息并获取其他话题信息热点话题挖掘, 以此掌握所有次话题分布情况。谭梦婕等人[]在新闻数据集上提出了一种基于时间切片的文本数据流算法, 依据前后文本的句子含义提取文本关键词, 利用K近邻算法和层次凝聚聚类算法获取话题簇。张瑞琦[]利用关键词作为文本特征进行聚类分析, 进一步生成了排名前N名的热点话题。陈笑蓉等人[]提出了一种基于距离的文本聚类重构算法, 对非正常和相似集群分别进行调整及合并, 最后用实验证明了算法的合理性。田诗宵等人[]在二维主成分分析法的基础上提出了一种适用于文本聚类的算法, 并在海量数据集上实现文本聚类的并行处理。周炜翔等人[]建立了IDLDA模型, 将隶属于同个话题的内容归类至同一个集合, 利用改进的字符串编辑距离方法建立模型以获取内容摘要和核心特征, 然后将核心特征词变成话题短语, 最后结合短语和摘要来阐述文本话题。
综合国内外研究现状, 很多研究人员在中文长文本或者短文本进行主题检测, 并取得了相应的成果, 但在中文长短文本共存的形式下, 还有很大的研究空间, 值得进一步探索。
文章评论(0)