Spark大数据分析实战【1.5】

张开发
2026/4/19 15:40:24 15 分钟阅读

分享文章

Spark大数据分析实战【1.5】
第7章 热点新闻分析系统7.1 新闻数据分析很多互联网公司都在以不同的形式提供热点新闻的服务,例如百度、谷歌、搜狗等,百度新闻系统实时抓取主流媒体的新闻数据,进行相似新闻侦测,并且以此为基础加入手工编辑的话题信息等,形成热点事件的展示页面。百度新闻系统的访问量已经非常可观,由此可见基于新闻的热点事件侦测已成为当前互联网时代不可或缺的技术。本章将基于Spark构建热点新闻分析系统,通过Spark进行实时和离线热点新闻的分析。7.2 系统架构本节将介绍整个系统的核心架构。通过对整体架构的了解,用户能够变换其中各个部分的组件,构建符合自身生产环境和实验环境需求的分析系统。系统主要分为几个模块:1)新闻抓取模块:通过开源爬虫Scrapy抓取新闻,并将新闻传输到后端消息中间件Kafka和离线Key-Value存储引擎MongoDB。2)实时新闻分析模块:Spark Streaming实时从Kafka获取新闻消息,进行预处理,实时进行新闻数据分析。3)离线新闻分析模块:Spark定期从MongoDB中批量读取新闻,进行离线热点新闻分析。4)可视化呈现界面:通过可视化界面呈现热点新闻、热点关键词等信息。图7-1为系统架构图。通过以上架构介绍,读者可以对整个系统有直观的了解,下面将对各个模块进行更细节的介绍。7.3 爬虫抓取网络信息很多数据产品和系统的数据源是互联网,公共数据的获取需要有爬虫的支撑,本节将通过开源爬虫工具Scrapy进行互联网上公共新闻的获取,为后续新闻文本的数据分析准备数据集。7.4 新闻文本数据预处理首先启动MongoDB,之后从MongoDB中读取爬虫爬取的信息。这样可以对存储在MongoDB的重点文本进行数

更多文章