当前位置: 首页 > 热点

全球讯息:爬虫数据一般怎么存-爬虫数据

2023-03-08 14:43:53 来源:互联网

1、比如我们的需求是:经验的标题超链接。

2、(可以点击右边作者头像进入目标抓取页面。)

3、第一步是通过当前页面的url进行连接。


(资料图片仅供参考)

4、(比图自己打印代码,不要偷懒,多练习会熟悉的!)

5、为了说明我们已经成功获得了页面源代码,我只展示了一些信息。

6、那么我们想要的所有数据都在抓取的HTML代码中。接下来要做的就是方便我们快速定位内容信息。

7、解析完代码后,我们可以继续了。

8、首先,我们需要使用浏览器页面“”来定位目标内容。

9、在目标页面的空白处,选择。

10、点击弹出的界面。

11、然后就可以用鼠标走了。

12、点击目标内容,发现“”自动定位到相关的“”。

13、然后我们从这个位置开始,仰望水平面,得到:

14、我们想要的是:

15、1.在一个大的区域标签下。

16、2.在部分标签中的ul标签下。

17、3.标签里的李

18、因为我们使用了BeautifulSoup来解析代码,所以非常容易得到。

19、我们得到它的一般方式是根据标签名和它的“类”类名,有时简单明了的是不需要类名。

20、输出李找到的标签数量,一致!

21、然后我们要分析整个“李”,它是页面中的一个文章展示区。

22、在浏览器的“”中,我们已经定位了标题的位置和超链接的位置,发现它们都在一个A标签中。我们的任务是跟踪李的标记。

23、然后按照层次结构写代码。

24、请注意,此处返回的url信息与页面显示不一致。

25、至此,一个简单的爬行器已经完成,但是还有一些额外的问题是这个示例没有遇到的:

26、1.如何抓取多页信息?(随便找url的规律)

27、2.如何防止爬虫被遮挡?

28、3.如何抓取非HTML页面的信息,比如Json信息?

29、4.如何下载图片?

30、5.……

31、也请关注,我以后还会继续有相关经验!

32、(如果想练习以上步骤,可以尝试爬上百度经验,任意栏目下的精选经验,获取它们的标题和超链接信息。掌握一项技能需要更多的练习~)

本文到此结束,希望对大家有所帮助。

关键词:

相关阅读

Copyright   2015-2022 华中技术网 版权所有  备案号:京ICP备12018864号-26   联系邮箱:2 913 236 @qq.com