四叶草 2019-12-19
一、主题式网络爬虫设计方案(15分)
1.主题式网络爬虫名称
名称:爬取电影天堂华语电视剧信息和下载链接
2.主题式网络爬虫爬取的内容与数据特征分析
本次爬虫主要爬取电影天堂华语电视剧信息
3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)
本次设计方案依靠request库访问,用BeautifulSoup分析网页结构获取数据,采集信息进行数据持久化,保存在本地文件中。
技术难点主要包括对页面结构分析、对数据的采集和数据持久化。
二、主题页面的结构特征分析(15分)
1.最新电影列表页面结构分析