WORKFLOW AUDIT

Issue #29 流程盘点:夜间 AI 资讯 → Digest → 播客 → 多端分发

2026-01-29 19:08 · Zon · Issue #29 · 本机资产 + 系统技能

基于你本机已有 assets + system skills 的现状核对:完成了什么、缺什么、下一步怎么落地(含流程图)

把需求拆成“采集→归档→筛选→生成→分发→监控”六段,对照你电脑里现有脚本/skills/目录,给出完成度与最短闭环方案。

ISSUE #29AI DIGESTOBSIDIANRSSHUBN8NWECHAT DRAFTXHSTTS

TL;DR

可直接复用模块
4
关键缺口模块
5
最短 MVP 闭环
48h
默认发布策略
半自动

说明:此环境直接访问 github.com/EOMZON/myObsidian 返回 404(可能为私有/已迁移)。本报告以你本机 Obsidian vault 中对 Issue #29 的记录与两份本地 HTML 报告作为“需求事实来源”。

Evidence (Local)

用于核对“完成了什么/缺什么”的本机证据

Issue #29 核心需求(从本机记录抽取)
  • 明确 ck 的含义:token/调用费用 vs Cookie/登录凭证;列出目标平台(X/YouTube/GitHub/知乎/微博/小红书/小宇宙…)。
  • 整理 sources(关键词/账号/频道/仓库规则,先 20 个关键词)。
  • 部署 RSSHub + FreshRSS(或 RSSHub 直出)并打通夜间定时抓取。
  • 实现去重 + 打分 + 摘要:输出 Obsidian 的每日 Digest.md,并写入成本账本。
  • 做一版 3–5 分钟 TTS 播客样例,验证音质与播放方式(私有 RSS/链接);是否自动上传小宇宙后置。

Inventory (What you already have)

模块 现状 证据(路径) 状态
Issue #29 方案/拆解 已生成两份结构化方案报告(含流程图与落地步骤)。 /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/docs/reports/report-20260129-143738.html
/Users/zon/Desktop/MINE/6 Obsidian/myObsidian/docs/reports/report-20260129-143621.html
DONE
多平台热榜抓取(国内) Weibo/Douyin/Toutiao/XHS 等已做“时间戳快照 + YAML 元数据 + 词表命中”;Weibo AI 看板可直接输出。 search-flow/search/hot-search-pipeline/
TASKS/CODEXhelpME/01_Agent与工作流/doing/search/info/hot_pipeline_status.md
DONE
公众号草稿箱发布 一键发布到 Drafts(含 IP 白名单自动处理 + 重试)。 TASKS/CODEXhelpME/01_Agent与工作流/ref/package.json
~/.codex/skills/.system/wechat-draft-publish/SKILL.md
DONE
小红书发布(半自动) Playwright 自动填充创作页,停在“发布前”人工确认(降低风控)。 TASKS/CODEXhelpME/06_应用构建/自动化多平台发布工具/xiaohongshu/publish_xhs.js DONE
定时任务骨架 launchd + venv + 运行日志已在日记自动总结场景中跑通,可复用到“夜间抓取”。 /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/04-Workflow/actions/scheduler/com.zon.dailyautosummary.plist DONE
YouTube 接入 存在 n8n 模板与报告资产,但未发现与 Issue #29 统一管道的可复用“采集→归档→打分”实现。 useN8n/20251112tryn8n/docs/json/9718-track-social-media-growth-and-weekly-reports-with-x-api-youtube-api-and-gmail.json PARTIAL
GitHub Trending / 高增速仓库 Issue 方案里明确需要 GitHub Search API,但当前仓库未找到对应“定时拉取 + 去重 + 打分 + 落盘”的实现。 /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/docs/reports/report-20260129-143621.html MISSING
统一 sources.yaml 被多处提及,但未落盘为可执行配置文件。 /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/00-LifeOS/DailyRecord/2025-独立实践期/2026-01-27.md MISSING
Digest.md 自动写入 Obsidian 已有日记自动总结写入 vault 的模式,但“AI 资讯 Digest”尚未做独立脚本与目录落点。 /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/04-Workflow/actions/ MISSING
TTS 播客(音频 + 私有 RSS) 方案中给出 edge-tts/Piper/ffmpeg 等建议;本机未发现“脚本→音频→托管→RSS feed”的最小实现。 sound/voice-clone-workflow/(偏 VC/RVC,不等价于 TTS 最小链路) MISSING
ck/成本账本 日记自动总结已有 LLM provider 统一配置,但未看到对每次调用 usage 的落盘/汇总。 /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/04-Workflow/actions/core/llm_config.py MISSING

Flows (Visual)

三张流程图:主链路 + 已有可复用子流程

Sources Weibo/热榜 ✅ YouTube 🟡 GitHub ❌ / X ❌ Collect 时间戳快照 ✅ YAML 元数据 ✅ Playwright sessions ✅ Normalize URL 规范化 🟡 统一 Item schema ❌ SQLite/索引 ❌ Score 关键词词表 ✅ 跨源去重/打分 🟡 审阅队列/UI 🟡 Generate Obsidian Digest.md ❌ 公众号草稿(内容生成)🟡 TTS 播客 ❌ Distribute (keep semi-auto for MVP) 公众号 Draft 发布 ✅(已含 IP 白名单自动处理) 小红书发布 ✅(半自动:发布前人工确认) 小宇宙上传 🟡(并行/思路有,未见最小脚本) · X 自动发布 ❌(合规/风控高) Legend ✅ DONE · 🟡 PARTIAL · ❌ MISSING
Issue #29 的端到端链路:你已经有强力的“采集/草稿分发骨架”,缺口在统一 schema+落盘+Digest/TTS 生成层。
Write article (md) ref/articles/.../article_*.md imgs: PNG-only Build assets scripts/make_* → preview/ hi-res cover/figures Publish to Drafts wechat-official-publisher --draft=true Auto retry IP whitelist via Playwright (wechat:ip)
你已具备“公众号草稿发布”流水线;Issue #29 需要补齐的是:每天自动生成当天 Digest/稿件,并写入对应 article.md。
Login once weibo:login sessions/weibo/ Dump snapshots weibo_dump.js etc data/*/*.md + YAML Enrich + AI weibo_ai_trending.js comments/sentiment Outputs outputs/*.html *.json
热榜抓取管道已是 Issue #29 “采集层”的可复用模块;缺口是把 outputs 进一步汇总成每日 Digest(并写入 Obsidian / 公众号草稿)。

Best Minds (Expert Views)

3 个“最懂的人”视角(以公开观点为基础的模拟,均为 paraphrase)

Martin Kleppmann · Data Systems

  • Thesis:先把“内容对象”当作数据系统做对——统一 schema、可追溯、可重复运行(idempotent),再谈上层分发。
  • Arguments:多源抓取的核心 bug 都来自“不一致的 key/时间/去重策略”;用 SQLite + append-only log 保存 raw,再派生 curated,比直接写最终稿更稳。
  • Limits:过早上 Postgres/队列/微服务会拖慢 MVP;但 schema 与原始数据保留必须从第一天做。

Charity Majors · Observability

  • Thesis:自动化内容流水线的成败不在“能不能跑”,而在“坏了你能不能立刻知道、能不能快速定位”。
  • Arguments:每一步要产出结构化日志与指标:抓取条数、去重后条数、每源失败率、LLM 调用次数与 ck;否则你会被隐性成本与偶发风控耗死。
  • Limits:不要把监控做成巨系统;先把 metrics 写入一个 runs.sqlite 就够,用图表看趋势。

广播/播客制作人视角 · Editorial

  • Thesis:播客质量取决于“脚本结构”,不是摘要堆叠;结构一旦固定,TTS 才会像节目。
  • Arguments:固定栏目(开场→3条头条→1个仓库/论文→1个行动→结尾),每条控制 20–40 秒;show notes 用链接包承接深读。
  • Limits:全自动上传平台风险高;先做私有 RSS(自己听)验证“通勤价值”,再扩展到小宇宙。

Gaps & Next Steps

按“48 小时内能闭环”排序(推荐先做最小闭环,再扩大平台)

  1. 落盘 sources.yaml:把 20 个关键词 + 必看频道/账号 + GitHub topic/阈值 + 输出条数(10/20/30)写成配置,而不是散落在对话与脑内。
  2. 统一 Item schema + SQLite:最小字段 {id, source, url, title, published_at, captured_at, raw_path, score, tags, summary, cost};保证 nightly 任务可重复跑、可去重。
  3. 接入 2 个低风险源:优先 YouTube Channel RSS + GitHub Search API(近 24h/7d 高增速 repo);X 放最后(合规/配额/风控)。
  4. 生成 Obsidian Digest.md:写入 vault 的固定目录(例如 00-LifeOS/DailyDigest/2026-01-30.md),并在日记中反向链接当天 Digest。
  5. 生成公众号草稿(内容):把 Digest 渲染成当天的 article.md(留人工审阅),再调用现有 Draft 发布流水线。
  6. TTS 先做样例,不做全自动分发:先输出 mp3 + show notes + 私有 RSS feed;小宇宙上传保持手动或“半自动”。
  7. ck/成本账本:每次 LLM/TTS 调用把 token/耗时/错误写入 runs.sqlite,按天汇总。

Stage completeness (rough)

采集(热榜/抓取)
70%
归档(落盘/元数据)
65%
筛选(去重/打分)
40%
生成(Digest/稿件)
35%
分发(公众号/XHS)
60%
监控(ck/失败率)
20%

注:百分比为基于“已存在脚本/配置/可运行链路”的启发式估计,用于帮助你决定优先级,不是严格度量。

建议的目录/文件落点(MVP 版本)
  • /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/04-Workflow/actions/news_digest/:新增 ingest_*.py / render_digest.py / run_news_digest.sh
  • /Users/zon/Desktop/MINE/6 Obsidian/myObsidian/00-LifeOS/DailyDigest/:每日 Digest 输出目录(Markdown)。
  • TASKS/CODEXhelpME/01_Agent与工作流/ref/articles/:每日生成公众号草稿(Markdown),由现有 Draft 发布脚本推送。
  • search-flow/search/hot-search-pipeline/outputs/:作为“国内热榜采集”输入之一,定时抽取并汇总。

下一步:在 48 小时内跑通 “热榜 + YouTube RSS + GitHub Search → Obsidian Digest.md → 公众号草稿(半自动发布)”,先让你每天 10:00 能读/能听。

ONE NEXT ACTION