任意 URL 转 Markdown,即刻完成
将任意网页转为干净 Markdown,为 AI Agent、LLM 与开发者而生。开源、边缘部署、21 个平台适配器。
format · selector · force_browser · raw · engine
📱 微信公众号
关注公众号
深度解析:大模型在企业的落地实践
张三 | 2026-03-25
⚠️
此内容需要在微信客户端中打开
长按识别二维码
在微信中打开
推荐阅读 ▼
Ad
Ad
Ad
# 深度解析:大模型在企业的落地实践
> 张三 | 2026-03-25
## 核心观点
1. 大模型的应用场景正在从实验室走向生产环境
2. RAG 架构成为企业级应用的首选方案
3. Agent 工作流将重新定义软件开发流程
2. RAG 架构成为企业级应用的首选方案
3. Agent 工作流将重新定义软件开发流程
## 背景
随着 GPT-4、Claude 等模型的发布,企业开始认真考虑将大语言模型集成到核心业务流程中...
```python
from langchain import ChatOpenAI
llm = ChatOpenAI(model="gpt-4")
```
from langchain import ChatOpenAI
llm = ChatOpenAI(model="gpt-4")
```
✓ X-Method: browser+readability · 2.1s · cached
其他工具搞不定的,我们行
JS 驱动的 SPA、付费墙内容、反爬网站。21 个适配器覆盖国内外主流平台。
→
BLOCKED PAGE
知乎 - 有问题,就会有答案
如何评价大模型在企业中的落地?
近年来,随着大语言模型技术的突破性进展,越来越多的企业开始探索将 AI 融入核心业务...
登录后查看完整内容
Login to view full content
登录
注册
CLEAN MARKDOWN
# 如何评价大模型在企业中的落地?
近年来,随着大语言模型技术的突破性进展,越来越多的企业开始探索将 AI 融入核心业务流程。
## 三大趋势
- 多模态能力成为标配
- 私有化部署需求增长
- Agent 框架百花齐放
- 私有化部署需求增长
- Agent 框架百花齐放
✓ 通过浏览器渲染提取
User
读一下这篇文章,总结核心观点
https://mp.weixin.qq.com/s/abc123
https://mp.weixin.qq.com/s/abc123
Claude
⚙ convert_url
url: "https://mp.weixin.qq.com/s/..."
✓ 3,421 chars · 2.1s
这篇文章的核心观点:
1. 大模型正在从实验走向生产
2. RAG 是当前最实用的架构
3. Agent 将改变软件开发方式
2. RAG 是当前最实用的架构
3. Agent 将改变软件开发方式
文章还提到了一个有趣的案例...
天生为 AI 而造
MCP Server、Agent Skills、llms.txt 开箱即用。你的 AI Agent 直接就能用,不需要胶水代码。
生产环境就绪
568 项测试、5 层 fallback 管线、KV 缓存,部署在 Cloudflare Workers 边缘。
Request:
https://example.com/article
Layer 1 — Native Markdown
Cloudflare edge
⚡ 0.1s ✓
│ fail?
Layer 2 — Readability + Turndown
HTML parsing
⚡ 0.5s
│ fail?
Layer 3 — Browser Rendering
Headless Chrome
⚡ 2-5s
│ fail?
Layer 4 — CF REST API
Browser Rendering
⚡ 1-3s
│ fail?
Layer 5 — Jina Reader
External fallback
⚡ 2-4s
结果:干净 Markdown · 99.2% 成功率
覆盖每种工作流
AI Agent
把任意网页内容以干净 Markdown 喂给 LLM
知识库构建
用深爬 API 抓取文档、Wiki、博客
内容迁移
批量转换,一次最多 10 个 URL
研究分析
任意文章,无需登录、无 JS 渲染困扰
中文网站
微信公众号、知乎、飞书、语雀、CSDN...
结构化提取
CSS 选择器、XPath 或正则表达式
21 个平台适配器
WeChatZhihuFeishuYuqueJuejinCSDN36KrToutiaoWeiboNetEaseTwitter/XRedditNotionGitHubSubstackMedium
工作原理
i
添加前缀
在任意网址前加上 md.genedai.me/
ii
边缘处理
5 层 fallback:原生 → Readability → 浏览器 → CF REST → Jina
iii
干净输出
Markdown、JSON、HTML 或纯文本
常见问题
什么是 Website2Markdown?
一个免费、开源的 API,可将任意网页 URL 转为干净、可读的 Markdown。基于 Cloudflare Workers,5 层 fallback 管线:原生边缘 Markdown → Readability → 无头浏览器 → CF REST API → Jina Reader。
它是免费的吗?
是的,完全免费并以 Apache-2.0 开源。你可以自行部署,也可以使用 md.genedai.me 的托管服务。
支持哪些平台?
21 个内置适配器:微信公众号、知乎、飞书/Lark、语雀、掘金、CSDN、36氪、头条、微博、网易、Twitter/X、Reddit、Notion 等。任何公开 URL 都可通过通用 fallback 处理。
如何处理 JS 渲染密集型页面?
自动 5 层 fallback。原生提取失败后,依次升级到 Readability、Cloudflare 无头 Chrome 浏览器渲染,最后 Jina Reader 兜底。使用 ?force_browser=true 可直接跳到浏览器渲染。
如何与 AI Agent 集成?
三种方式:(1) Agent Skills——Claude Code/OpenClaw 一条命令安装。(2) MCP Server——Claude Desktop、Cursor IDE。(3) llms.txt——所有 AI 系统自动发现。
如何使用 API?
在任意 URL 前加上 md.genedai.me/。获取原始 Markdown 加 ?raw=true。示例:curl "https://md.genedai.me/https://example.com?raw=true"。完整 API 参考见文档标签页。
立即试试。
快速开始
# 获取原始 Markdown
curl -H "Accept: text/markdown" https://web2md.cutexiaoguigui.eu.org/https://example.com# 获取 JSON 输出
curl "https://web2md.cutexiaoguigui.eu.org/https://example.com?raw=true&format=json"# 批量转换
curl -X POST https://web2md.cutexiaoguigui.eu.org/api/batch \
-H "Authorization: Bearer API_TOKEN" \
-H "Content-Type: application/json" \
-d '{"urls":["https://example.com"]}'API 参考
| 路由 | |
|---|---|
GET /{url} | 将单个 URL 转为 Markdown |
GET /api/stream | 单 URL SSE 转换进度(step / done / fail) |
POST /api/batch | 最多转换 10 个 URL(需要 API_TOKEN) |
POST /api/extract | 结构化提取(css / xpath / regex) |
POST /api/jobs | 任务创建、查询、状态流与执行 |
POST /api/deepcrawl | BFS / BestFirst 深爬,支持过滤与打分 |
GET /api/health | 健康检查与运营指标 |
GET /api/og | 分享图生成 |
GET /llms.txt | AI 可读的 API 描述 |
查询参数
?raw=true | 返回原始 Markdown(不包裹 HTML) |
?format= | 输出格式 (markdown | html | text | json) |
?selector=.css | 仅提取匹配的 CSS 选择器 |
?force_browser=true | 强制使用无头浏览器渲染 |
?engine=jina | 使用指定引擎转换(jina / cf) |
?no_cache=true | 绕过缓存,抓取最新内容 |
?token= | 公开 API 令牌 |
鉴权
PUBLIC_API_TOKEN — 单 URL 转换与 /api/stream 支持 Bearer 或 ?token=...
API_TOKEN — /api/batch、/api/extract、/api/jobs*、/api/deepcrawl 需要 API_TOKEN
curl 示例
# 获取原始 markdown
curl -H "Accept: text/markdown" https://web2md.cutexiaoguigui.eu.org/https://example.com# 获取 JSON 输出
curl "https://web2md.cutexiaoguigui.eu.org/https://example.com?raw=true&format=json"# 批量转换
curl -X POST https://web2md.cutexiaoguigui.eu.org/api/batch \
-H "Authorization: Bearer API_TOKEN" \
-H "Content-Type: application/json" \
-d '{"urls":["https://example.com"]}'# 结构化提取
curl -X POST https://web2md.cutexiaoguigui.eu.org/api/extract \
-H "Authorization: Bearer API_TOKEN" \
-H "Content-Type: application/json" \
-d '{"strategy":"css","url":"https://example.com","schema":{"fields":[{"name":"title","selector":"h1","type":"text","required":true}]}}'# Deep Crawl
curl -X POST https://web2md.cutexiaoguigui.eu.org/api/deepcrawl \
-H "Authorization: Bearer API_TOKEN" \
-H "Content-Type: application/json" \
-d '{"seed":"https://example.com/docs","stream":true}'响应头
X-Markdown-Method | native | readability+turndown | browser+readability+turndown | jina |
X-Cache-Status | HIT | MISS |
X-Source-URL | 原始目标 URL |
选择你的集成方式
你的 Agent 有终端吗?
是 → Agent Skills(最快,上下文最丰富)
否 → MCP Server
所有 AI → llms.txt 自动发现
Agent Skills
适用:Claude Code、Codex CLI、Gemini CLI、OpenClaw
一条命令安装,Agent 自动发现。包含完整使用模式、错误处理和 21 个平台适配器指南。
Claude Code
git clone https://github.com/Digidai/website2markdown-skills ~/.claude/skills/website2markdown
Codex CLI
git clone https://github.com/Digidai/website2markdown-skills ~/.codex/skills/website2markdown
Gemini CLI
git clone https://github.com/Digidai/website2markdown-skills ~/.gemini/skills/website2markdown
OpenClaw
npx clawhub@latest install website2markdown
一条命令安装,新会话自动发现,无需额外配置
MCP Server
适用:Claude Desktop、Cursor IDE、Windsurf
标准 MCP 协议,提供 convert_url 工具。
npm install -g @digidai/mcp-website2markdown
Claude Desktop 配置 (~/.claude/claude_desktop_config.json)
{
"mcpServers": {
"website2markdown": {
"command": "mcp-website2markdown",
"env": {
"WEBSITE2MARKDOWN_API_URL": "https://web2md.cutexiaoguigui.eu.org"
}
}
}
}
llms.txt
适用:任何有 Web 访问的 AI 系统
遵循 llms.txt 标准的机器可读 API 描述。AI 系统访问此端点即可了解所有能力。
https://web2md.cutexiaoguigui.eu.org/llms.txt →对比
| Skills | MCP | llms.txt | |
|---|---|---|---|
| 延迟 | ★★★ | ★★ | ★★★ |
| 上下文 | ★★★ | ★ | ★★ |
| 安装 | 1 条命令 | 1 条命令 | 无需 |
| 最适合 | CLI AI | IDE AI | 全部 |