使用Python从Markdown文档中自动生成标题导航

概述

Markdown 很适合于技术写作，因为技术写作并不需要花哨的排版和内容，只要内容生动而严谨，文笔朴实而优美。

为了编写对读者更友好的文章，有必要生成文章的标题导航，让读者有个预期的阅读概览。当文章标题比较多时，手工去编写导航锚点比较费时，因此决定使用python解析Markdown文档自动生成标题导航。

知识与思路

写过Markdown的人知道，Markdown的标题是使用一到六个# 左右包围住标题文字，而锚点是。比如 ## 知识与思路 ## ，锚点连接是。标题文字允许包含空格，不过最好不要用空格或特殊不可打印字符，因为在网页上点击带锚点的链接时可能失效，并且网站对Markdown锚点的支持可能有特殊规则，比如博客园会将标题中的大写字母自动转成小写字母，并且对于有空格的标题可能无法链接到锚点。

这样，就需要解析标题行，从中提取出标题并生成锚点链接。通常使用正则表达式来匹配和提取文本内容。此外，为了排版，也要根据标题的级别生成相应的缩进。考虑到段落中很可能含有#字符，因此标题最好从第二级开始，不超过四级。

标题行的正则表达式是：

\s*(#{2,6})\s*(.*?)\s*(?:\1)\s+

知识点：

2-6 个#号使用 #{2,6} 匹配；由于行起始和标题前后都可能含有空格，因此需要使用\s*来兼容；行末尾至少有个换行符，因此要使用 \s+；使用(subregex)捕获 subregex 匹配的文本，使用 \1 表示后面与前面对应的被匹配的分组文本, 使用 (?:subregex) 表示匹配 subregex 的文本，但在捕获分组时忽略，不作为提取内容；使用 (.*?) 匹配标题内容，？表示非贪婪模式，避免将 # 也包含到标题中；标题的缩进比较简单，第二级的不缩进，第N级缩进 (N-2)个指定字符，这里字符选定为中文空格 &emsp; 代码实现 #!/usr/bin/python #_*_encoding:utf-8_*_ import re mdTitleRegex = r'\s*(#{2,6})\s*(.*?)\s*(?:\1)\s+' mdTitlePatt = re.compile(mdTitleRegex) def parseLineByRegex(line, regex_patt): m = regex_patt.match(line) return m.groups() if m else () def outputAnchor(titleTuple): if len(titleTuple) == 2: intents = '' * (len(titleTuple[0])-2) print intents,transToAnchor(titleTuple[1].decode('utf-8')) def procLine(line): outputAnchor(parseLineByRegex(line, mdTitlePatt)) def transToAnchor(title): return '[%s](#%s)' % (title, title) if __name__ == '__main__': with open('gaiyao.txt') as mdtext: mdTitles = map(procLine, mdtext.readlines())

使用Python从Markdown文档中自动生成标题导航

Trending Articles

SM3268AB 8CE三星量产无法格式化

[下载工具]Think4V utubedown(Youtube高清视频下载工具) v2.1.6 官方版2.1.3

出售: SINE Othello 電源線

博讯｜张磊帮助下，李源潮的儿子被耶鲁录取

FullEventLogView 1.73 免安裝中文版 - 事件檢視器取代工具

同門四角戀？李沛旭喇舌「小郭雪芙」曾智希，蔡淑臻拍完婚紗...怒毀婚

五代RAV4 降車身（機械車位因素）

[攻略] 《魔獸世界》6.2.2 白色魚人蛋再現！來去收編魚人寶寶特基！

jetBrains Product crack 2024 Java based

2013 KUGA 6G轉動方向盤會聽到摳摳摳的異音，有人知道原因嗎?

【豌豆字幕組】[藥屋少女的呢喃（藥師少女的獨語）/ Kusuriya no Hitorigoto][25][繁體][1080P][MP4]

好用的照片后期处理软件【DxO PhotoLab Elite 5.4.0.4765 (x64) 多语言便携版】..

出售: Thixar Silence Plus 啫喱板

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

三條崙討海人故事…重建烏倉寮憶43年前船難

致喬立建設道歉聲明

[一般] 神州全地圖掉寶資料

方易通7862 8/128G 無360 刷機

動感校園小記者・瑪利諾修院學校｜採訪王瑋駿陳晞文帶領試玩風帆

有藍電流行車紀錄器分享文嗎