三个步骤搞定一个爬虫（2）

第一篇文章写了怎么去获取一篇文章，这一篇文章就写写怎么把一页中的10篇文章全部获取到。

开始工作

获取其他链接

上一次我说了怎么去获取第一条的文章链接，现在我们再来爬取本页后面剩下的链接。我们先来看看上次我们爬取链接用的代码。

获取后面的链接我们能不能如法炮制呢，我们先来试试。我们把代码写成下面那样

然后我们现在来试试

结果我们发现我们试图获取的三条链接都是一样的，可以看出，这还是本页的第一篇文章的链接。证明我们这种方法是不可行的。我们回想一下上一节课我们讲的定位链接使用函数。

就是这个find函数，我们看看帮助，我们发现了我们可以自定义开始寻找的下标和寻找结束的下标。我们从html里面发现我们想要爬取的链接相隔都不是很远，都处在同一个div下面。于是我们来试试，从第一条链接后面开始寻找第二条链接。

这里我们要注意后面两条代码，我们选择了开始的下标是从上一条链接的尾部开始的。现在我们来试试是否可以获取正确的链接。

现在我们获取到了三条不同的链接，我们再通过对比html来看看我是否获取的是正确的链接。

从结果来看，我们的代码成功的获取了本页的前几篇文章的链接。关于怎么获取剩下的链接我们应该有头绪了。当然，这里一页只有10篇文章，也就是只有10个链接，我们可以把我们的获取链接的代码复制10次，可是如果一页有20篇，30篇，50甚至是100篇呢，难道我们也要将代码复制那么多的次数，肯定不能，也不科学。很多人现在已经知道要用循环来做了，但是这个要怎么循环，从哪里循环呢？我们再来看看我们上面的代码，我们发现除了第一条链接获取的代码不一样，后面两条链接获取的代码都是一样的，这时我们就知道我们应该从第二条链接获取代码进行循环了。

这里我们要先定义一个列表对获取的链接进行存储，因为是10篇文章，所以这里定义的就是一个10个元素的空的字符串列表。下面是我们循环的代码块。

这里结束一下我们为什么不是从0开始进行赋值，大家注意到没有，我们是从第二条文章链接看是循环的，那么第一条的文章链接在哪呢？当然是存储在了列表的第一个位置，也就是下标为0的那个位置了，关于range后面的范围，大家知道是包下不包上的就行了，就是说在range（x，y）的循环中，循环是从x开始，到y-1结束的，不包括y本身。我们现在来运行一下我们的代码看看是否获取的是正确的链接。