爬虫系列:读取文档_python读取文件除了utf-8-CSDN博客

网站介绍:文章浏览阅读252次。上一篇文章我们介绍了如何通过 MySQL 存储 Python 爬虫采集的内容,以及使用Python 与 MySQL 交互,这篇文章我们介绍如何通过 Python 读取文档。虽然互联网在20世纪60年代末期就已经以不同的形式出现,但是 HTML 直到1992年才问世。在此之前,互联网上基本就是收发邮件传输文件;今天看到的网页概念那时还没有。总之,互联网并不是一个 HTML 页面的集合。他是一个信息集合,而 HTML 文件只是展示信息的一个框架而已。如果我们的爬虫不能读取其他类型的文件,包括纯文本、PDF、_python读取文件除了utf-8