Python入门（三）：解析

本篇我们主要讲一下第一篇教程提到的解析。这次我们换一个更复杂的例子，主要教一下大家如何使用审查元素找到我们需要的数据。这只是一个初步的对于HTML解析的方法，更多奇怪的问题，我们会在之后的教程通过实例一个一个深入探讨。

今天我们的示例网页是：巨潮资讯网，我们的目标是获取所有的股票代码和对应的公司名称。

一、HTML简介

HTML是一种标记语言。作为“标记语言”，需要有标记符号去标记。我们简单介绍一下一些标记。

为了和爬虫更好地结合一下，我们教一下大家使用审查元素。我们打开示例网页，然后点击右键，选择“审查元素”或者“检查元素”，然后把标签都收起来，收到这样：

首先我们看到最基本的几个标签：

"html"定义了这个文件是个HTML，"head"定义了标题，就是这个：

"body"里面的就是网页里面的正文。后面一个斜杠加一个同样名字的标签代表这部分结束。

好的，我们继续往下。对着某一个我们需要的数据，比如

点击“审查元素”，我们会看到：

开发者工具很好地显示了HTML的层层逻辑。我们在这里列举一下我们经常见到的一些标签。（关于标签详细含义的介绍，请戳本节结束的参考资料。）

我们再观察一下我们需要的数据的那段HTML：

我们看到，在标签的里面还有一些XX="XX"的东西，这个是标签的属性。（具体的含义我们也不多介绍，如果想深入了解，请戳本节结束的参考资料。）

一些基本的概念就讲到这里。也许你会以为这还不够。这当然不够，但是对于bs4的一些基本用法已经足够了。

参考资料：W3School是一套非常好的Web开发教程。关于HTML，请戳：HTML 简介

二、bs4解析HTML

这次我们使用IDLE来编写程序。

在使用之前，你需要下载一下这个第三方库。

我们打开一个新文件：

然后按照第二讲的请求方法，先把HTML请求下来：

接着，我们在审查元素里面去找我们需要的数据（见本篇第一部分）。我们接下来要做的事情是，用bs4这个强大的工具，通过前面提到的标签和标签的属性定位到某个标签。

首先我们要导入模块并创建一个BeautifulSoup对象：

后面的这个参数是解析器。关于解析器的选择，请参考官方文档：Beautiful Soup 4.2.0 文档。我们这里使用python自带的解析器，这样可以避免windows下坑爹的lxml安装问题。
Python入门（三）：解析

事实上，找合适的标签这个技能有很多简便的实现方式和技巧。但是对于新手来说，最简单的方法反而是一个一个标签定位下去。这小段代码就示例了这个过程。从代码我们可以看到，直接索引和用find方法都是可以的。find方法里面也可以加上attrs参数，然后用字典传入我们想找的标签属性。

一个小Tip：HTML的标签习惯用“-”连接，比如“list-ct”，而不是“_”，比如

继续往下解析：

如果我们想取出某一类标签下所有的HTML，那就用find_all方法就可以。如果我们想要某个标签属性里面的值，那么就用字典的语法索引就可以。如果我们想要标签里面的文字，就使用get_text方法。

这里我们仍然只是把结果print出来，在下一讲再说储存：

我们把上面的函数拼到一起：

运行结果：

更多bs4用法，请戳官方文档：Beautiful Soup 4.2.0 文档

三、完整代码示例

End.

作者： iGuo （中国统计网特邀认证作者）

就读于厦门大学王亚南经济研究院，China's Prices Projectleader。擅长的领域主要是数据分析相关，包括爬虫、数据清洗、数据分析、数据可视化等，正在研究海量数据的计算和挖掘。 GitHub：https://github.com/Guo-Zhang项目网站：http://www.xmucpp.com/ 项目地址：https://github.com/xmucpp

来源：微信公众号Python中文社区

本文为中国统计网原创文章，需要转载请联系中国统计网（小编微信：itongjilove），转载时请注明作者及出处，并保留本文链接。

Python入门（三）：解析

Trending Articles

[奇怪机翻组] 双梦相牵 / ふたりの夢もち [RJ01259078] [WebRip] [1080P HEVC-10Bit AAC 2.0]...

HONDA CITY VTI-S 菜單分享

#新闻拍一拍# 新的摩尔定律：黄氏定律

一如既往的痴情能否打动月瓶金蝎？ (豆瓣月亮水瓶小组)

求購按摩椅~'~

「粉红」不是霸凌辜莞允杠部落客：我爽在哪？

Intel 7-10代集成显卡驱动31.0.101.2137完整版

涉Gotbit加密货币市场操纵台男纽约被捕

臺灣法治會計學會2025年第三季研討會

不靠姊姊！張柏芝弟弟開計程車維生

关门一家亲：习远平、张澜澜、徐才厚

剑指offer——24.二叉树中和为某一值的路径

苏珊米勒日晕05.11｜狮子鼓励孩子；处女相信自己 (豆瓣 SUSAN MILLER小组)

【台積電IT卓越新戰略5】台積IT組織5年三次大調整，要靠平臺工程讓DevOps創新再加速

【日语无字】春之钟.Haru.no.kane.1985.JAP.vhsrip.NoSub.by.xiongzaixia&vivi

美籍老公不讓步李愛綺兒子念公立小學

新华网这张照片绝了!直讽江泽民宋祖英淫乱组图

湖州师范学院音乐学院开发的 Kontakt 8 明代魏氏乐琵琶/瑟/月琴音源即将发布

Google Chrome Portable 140.0.7339.186 穩定版免安裝中文版 - Google 瀏覽器

免费翻墙节点大全