转换文档
Escriba 几乎能把任何东西转换成 Markdown。识别是自动的 —— 你很少 需要告诉它你丢进去的是哪种文件。
你能转换什么
Section titled “你能转换什么”- 文档 —— PDF、Word、Excel、PowerPoint、HTML、CSV、EPUB、ZIP 等等。
- 图片 —— 自动 OCR(Tesseract);可选的 AI 描述。
- 音频与视频 —— 用 Whisper 进行本地、离线转写(mp3、wav、mp4、mov、mkv……)。
- URL 与 YouTube —— 转换一个网页,或抓取一份 YouTube 字幕。
智能 OCR
Section titled “智能 OCR”图片中的文字会被自动识别。扫描的以及旋转的 PDF 会被 检测、OCR 识别并即时自动摆正。如果某个 PDF 看起来像扫描件,且你的 访问级别允许 OCR,Escriba 会无需你开口就自动应用它。
你也可以在高级选项中强制 OCR —— 这对于重音符号错乱的 PDF (例如从 LaTeX 导出的)很有用。强制 OCR 会使用你选择的文档语言, 所以请设置好它以获得最佳效果。
对于长 PDF,只转换你需要的页面。在每个排队的 PDF 旁边都有一个 页面选择器,它会显示文档的总页数并让你选择:
- 整篇文档(默认)。
- 一个区间 —— 例如第
5页到第67页。 - 单独的页面或区间 —— 例如
1, 6, 9,或混合写法如1, 2, 5-67。
无需记忆任何语法:选择器就是为此而生的。选择是逐文件进行的, 所以同一批次中的不同 PDF 可以使用不同的页面。
打开高级面板来微调一次转换:
- 文档语言 —— 改善音频转写和强制 OCR 的效果。
- 强制 OCR —— 用于扫描件 PDF 或重音符号错乱的情况。
- 高级 PDF 提取 —— 一个可选启用的 OpenDataLoader 引擎,适用于复杂版式:更好的阅读顺序和标题层级,并在失败时 自动回退到默认提取器。速度较慢,但在棘手文档上更精准。
- 脱敏 —— 剥离或替换个人数据;参见脱敏。
- AI 提供方 —— 可选。默认是 No AI(仅本地文本 / OCR)。
在导出或配音之前先编辑
Section titled “在导出或配音之前先编辑”结果并非只读。点击 Edit 即可在一个带实时预览的全屏 Markdown 编辑器中打开它,把它整理干净 —— 删掉样板内容、修正某个标题、剔除 杂讯 —— 然后保存。你的编辑会成为结果:下游的一切 (导出、音频、复制和下载)都使用这份清理后的 文本。在你动手之前,什么都不会被发送到任何地方;一切都只在你的浏览器里。
一次添加多个文件(你的访问级别决定了数量上限)。把
它们全部转换,然后将所有内容下载为一个 .zip。上传的文件在转换后立即
删除 —— 不留存任何内容。