Python 网络爬虫实战:去哪儿网旅游攻略图文爬取保存为 Markdown电子书_markdown 旅游攻略-CSDN博客

网站介绍:文章浏览阅读2.6k次,点赞10次,收藏46次。接上回,《Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据》。我们爬取到了数千篇的旅游攻略文章的数据。但是事情还没有结束,对于大部分的人来讲,最希望得到的东西应该不是这种干巴巴的 Excel 数据,而是这种图文并茂的文章吧!其实之前我们爬过很多类似的网站,比如 《人民日报新闻爬虫》,《知乎问题回答爬虫》,都是爬取大段的文章。不过区别在于,那些爬虫的关注点在于文字,主要用来做分词,语义情感等方面的分析,不需要人工阅读,所以直接将图片,超链接,排版格式等东西舍弃,仅.._markdown 旅游攻略