还是上次的那个网站,不过这次我们用request+beautifulsoup来进行爬取了。
思路和上次的那个基本上是一样的,不过就是把定位信息的方法从原来的使用python内置的str模块中的函数方法改成了使用beautifulsoup这个第三方的模块,这个模块的手册在网上能找到,翻译得不错,基本上是一看就懂的那种。注释的话我这次没写了,因为和上次一样的,想看注释的可以去看上一篇文章。
这次的存储方法与上次使用urllib的有所不同,上次的存储是直接保存HTML文件的要使用一些处理结构性文档的工具才能查看文章的内容,而且文件命名也是使用的网站上的URL来进行的,这样的命名毫无意义也就无法知道文件中的内容是什么,所以这次我们把爬取的文章标题作为文件名,保存为txt记事本文件。
|
|