Front Matter 提取方案 V1。

需求

从一大段文中解析出 markdown 文本所需的 Front Matter 元数据。

依赖 <think> 标签或特定起始位置的逻辑是非常脆弱的，因为有些大模型输出的数据没有 think 标签。因而采用更健壮的 “Seek and Extract”（搜寻与提取） 策略。

清洗预处理 (Pre-clean):
- 将所有换行符统一规范化为 \n。
- 检查并移除外层的 Markdown 代码块包裹 (如 markdown ... )，只保留内部内容。
定位起始符 (Scan Start):
- 逐行扫描文本，寻找第一个严格等于 --- (忽略尾部空格) 的行。
- 关键点: 这意味着 LLM 输出的任何前置废话（如 "Thinking Process...", "Here is the file:", <think>...</think>）都会被自动跳过并视为噪点。
定位结束符 (Scan End):
- 从起始符的下一行开始，继续寻找下一个 --- 行。
- 如果找不到成对的结束符，则判定为解析失败（避免错误截取）。
精准提取 (Extract):
- YAML: 截取两个 --- 之间的所有行。
- Body: 截取结束符之后的所有行，并去除首部多余空行。
- Noise: 起始符之前的所有内容被丢弃。
校验 (Validate):
- 尝试解析提取出的 YAML。如果解析失败（非有效 YAML 对象），则回退，避免因偶然出现的 --- 导致程序崩溃。