跳到主要内容

帮我搜一下最近 AI 有什么新动态:多源信息聚合的场景与检索技巧

"最近 AI 有什么新动态?" —— 看似简单的一句话,背后是 RSS 多源抓取、关键词过滤、去重排序、摘要翻译、格式化输出的完整管线。本文拆解信息聚合场景的技术链路,分享让 Agent 搜得更准、整理得更好的检索技巧。

场景画像

高频指令

  • "最近 AI 有什么新动态"
  • "帮我搜一下今天的科技新闻"
  • "有没有关于大模型的最新消息"
  • "帮我关注一下竞品最近的动态"

用户痛点:信息过载。一个关注 AI 领域的人可能需要刷 Twitter/X、Hacker News、各大 AI 博客、国内科技媒体——每天花 30-60 分钟才能大致了解行业动态。Agent 可以把这个时间压缩到 1 分钟(读一条摘要)。

场景拆解:信息聚合的四层管线

第一层:多源数据获取

CountBot 的 news 技能维护了 20+ 个 RSS 源,覆盖中英文两大信息圈:

中文源(8 个分类):

# 热点新闻(人民网、新华网、澎湃新闻)
python3 skills/news/scripts/news.py hot --limit 10

# 科技新闻(36氪、IT之家)
python3 skills/news/scripts/news.py category --cat tech --limit 10

# 财经新闻(新浪财经、东方财富)
python3 skills/news/scripts/news.py category --cat finance --limit 10

AI 技术源(12 个源):

# AI 技术(MIT Tech Review、OpenAI Blog、Google AI Blog、DeepMind 等)
python3 skills/news/scripts/news.py category --cat ai --limit 10

# AI 社区(Hacker News、Product Hunt、AI News Daily)
python3 skills/news/scripts/news.py category --cat ai-community --limit 10

第二层:关键词过滤

当用户有特定关注点时,Agent 会使用关键词过滤:

# 只看关于 GPT 的新闻
python3 skills/news/scripts/news.py category --cat ai --keyword "GPT" --limit 15

# 只看关于开源模型的新闻
python3 skills/news/scripts/news.py category --cat ai --keyword "open source" --limit 15

第三层:深度阅读

如果用户想深入了解某篇文章,Agent 有两种策略:

# 策略 1(推荐):从 RSS 获取全文,不截断
python3 skills/news/scripts/news.py category --cat ai --keyword "GPT" --detail -1 --limit 5

# 策略 2(仅限中文源):使用 web_fetch 抓取原文
# 注意:OpenAI Blog、MIT Tech Review 等国际站点会返回 403,不要尝试

第四层:百度搜索补充

当 RSS 源覆盖不到的信息,Agent 会调用百度搜索:

# 网页搜索(最近一周)
python3 skills/baidu-search/scripts/search.py "AI Agent 最新进展" --freshness pw --json

# 自定义时间范围
python3 skills/baidu-search/scripts/search.py '{"query":"2026年AI发展趋势","count":5,"freshness":"2026-01-01to2026-03-01"}' --json

提示词技巧:让搜索更精准

技巧一:明确信息需求的维度

不建议的搜索方式:

帮我搜一下 AI 新闻

推荐的搜索方式:

帮我搜一下最近一周 AI 领域的重要动态,关注以下方向:
1. 大模型发布和更新(新模型、性能突破)
2. AI Agent 和自动化工具
3. 开源项目和社区动态
每个方向给我 3-5 条,附上来源链接。
英文内容翻译成中文摘要。

技巧二:建立"信息订阅"记忆

告诉 Agent 你的长期关注点:

记住我的信息关注偏好:
- 重点关注:AI Agent、大模型、开源 AI
- 一般关注:云计算、Web3
- 不关注:加密货币价格、娱乐新闻
- 偏好中文摘要,英文原文附链接

Agent 会记住这些偏好,后续每次搜索新闻时自动应用。

技巧三:对比式搜索

帮我对比一下 Claude 和 GPT 最近的更新,
各自有什么新功能,哪个更适合做 AI Agent。

Agent 会分别搜索两个关键词,然后由 LLM 进行对比分析。这种"搜索 + 分析"的组合是 Agent 的强项。

技巧四:定时信息监控

帮我创建一个定时任务:
每天下午 6 点搜索一次 AI 新闻,
如果有重大发布(新模型、重要论文、大公司动态),
立即通知我;如果没有,就不用打扰。

这利用了 Cron 系统 + AgentLoop 的判断能力——Agent 不仅搜索,还会判断信息的重要程度,只在有重大消息时才通知。

技巧五:深度阅读策略

当你对某篇文章感兴趣时:

第 3 条新闻(OpenAI 发布新模型)帮我详细看看,
给我一个 500 字的中文摘要,包含:
- 模型名称和关键参数
- 与前代的主要区别
- 对开发者的影响

Agent 会使用 --detail -1 获取 RSS 全文,或对中文源使用 web_fetch 抓取原文,然后由 LLM 生成结构化摘要。

技术细节:多工具协同的执行流程

当用户说"最近 AI 有什么新动态"时,AgentLoop 的典型执行路径:

第 1 轮:LLM 决策 → 先加载 news 技能的 SKILL.md
shell_exec("cat skills/news/SKILL.md") # 了解可用的命令和分类

第 2 轮:获取 AI 技术新闻
shell_exec("python3 skills/news/scripts/news.py category --cat ai --limit 10")

第 3 轮:获取 AI 社区动态
shell_exec("python3 skills/news/scripts/news.py category --cat ai-community --limit 5")

第 4 轮:(可选)百度搜索补充
shell_exec("python3 skills/baidu-search/scripts/search.py 'AI 最新进展' --recency week --json")

第 5 轮:LLM 综合所有结果
→ 去重(同一事件可能出现在多个源)
→ 排序(按重要性和时效性)
→ 翻译(英文内容翻译为中文摘要)
→ 格式化输出

信息源的可靠性层次

层次来源可靠性时效性深度
第一层官方博客(OpenAI、Google AI)最高中等
第二层技术媒体(MIT Tech Review、KDnuggets)较快
第三层社区(Hacker News、Product Hunt)中等最快
第四层搜索引擎(百度搜索)参差实时参差

Agent 的最佳策略是先用 RSS 获取可靠信息,再用搜索引擎补充时效性信息

边界与局限

  • RSS 源有延迟:通常 15-60 分钟,不适合追踪突发新闻
  • AI 博客反爬:OpenAI Blog、Google AI Blog 等不支持 web_fetch 直接抓取
  • 百度搜索有额度:免费 100 次/天,查询最长 72 字符
  • 英文内容翻译质量:依赖 LLM 的翻译能力,专业术语偶尔不准确

小结

信息聚合是 AI Agent 的"信息触角"——它把分散在十几个平台上的信息汇聚成一条结构化的摘要。CountBot 的 news 技能(20+ RSS 源)+ baidu-search 技能 + LLM 的综合分析能力,构成了一个完整的信息聚合管线。关键技巧是:明确信息维度、建立偏好记忆、善用关键词过滤、区分信息源的可靠性层次。