摘要
本文针对在线旅游评论数据,采用LDA主题模型和LightGBM分类模型,开展了景区及酒店印象分析、综合评价、网评文本有效性识别和特色分析四个方面的研究。
1. 景区及酒店印象分析
- 对原始数据进行预处理,包括文本去重、分词、词性标注和去停用词,并保留名词、名动词和形容词。
- 对比了基于词频、TF-IDF和textrank三种算法进行文本关键词提取的结果,最终选择TF-IDF算法提取关键词,并制作了50个景区和50家酒店的印象词云表。
- 分析结果显示,A01景区适合小朋友游玩,价格实惠;H01酒店交通便利,客房服务和设施配备良好。
2. 景区及酒店综合评价
- 基于LDA模型进行主题识别,构建了景区和酒店主题词典。
- 对评论数据进行分句处理,并基于主题词典进行分句筛选和分类,使用Senta进行情感分析,并进行情感得分规范化。
- 基于用户对各评价维度的关注度,计算每个景区或酒店总得分时的权重,并进行综合评价。
- 模型在测试集上的预测评分均方误差结果显示,对景区在服务、位置、设施、卫生和性价比上预测评分的均方误差分别为0.24,0.37,0.21,0.10和0.10;对酒店在服务、位置、设施、卫生和性价比上预测评分的均方误差分别为0.11,0.24,0.10,0.03和0.24。
3. 网评文本有效性分析
- 从内容相关性、内容有用性和内容简单重复三个方面构建了评论文本有效性评价体系。
- 采用人工标注的方式对评论进行有效性标注,并进行一致性检验,Kappa值分别为0.627(景区)和0.912(酒店)。
- 基于LightGBM模型进行有效评论识别,模型在测试集上的分类准确率为94%,对有效评论的识别精度为94%,F1值为84%,对无效评论的识别精度为93%,F1值为96%。
4. 景区及酒店特色分析
- 基于综合评价结果,分别筛选了高中低三个层次中各三个景区和酒店,并分析用户对不同层级中景区和酒店关注点的分布差异。
- 对正负向评论进行主题识别,结果显示,服务、设施和性价比是正向评论中的热点,门票价格是用户负面评价中普遍关注的问题;服务、位置和设施是用户正面评价中关注的热点,设施和卫生为用户负面评价中关注的热点。
- 通过分析不同层级中景区和酒店的正向评论的特征词云图,进一步挖掘了各景区及酒店的特色,例如A12景区以园林景观为特色,A28景区以海洋沙滩为主要景观,H03酒店以贴心的服务和干净的卫生为特色,H16酒店以热情的服务人员和整洁的卫生为特色。
研究结论
本文提出的基于LDA主题模型和LightGBM分类模型的方法,能够有效地对在线旅游评论进行印象分析、综合评价、网评文本有效性识别和特色分析,为提升景区及酒店的服务质量和用户体验提供了有价值的参考。