Total Pageviews

Friday, 23 January 2026

PDF文件秒变Markdown文件-开源神器MinerU

MinerU是一款将PDF转化为机器可读格式的开源工具(如markdown、json),可以方便地抽取为任意格式。公式、表格、图片精准提取,扫描件也能搞定!项目遵守AGPL3.0开源协议。

🔥 MinerU核心功能

1️⃣ 智能解析结构

    自动删除页眉、页脚、页码,保持文本连贯
    保留标题、段落、列表等原文档结构,阅读顺序智能优化
    多栏排版自动识别,输出符合人类阅读习惯的文本

2️⃣ 多模态内容提取

    图片+描述:提取文档中所有图像并保存到独立文件夹
    表格+公式:自动识别表格和数学公式,转换为LaTeX/HTML格式,科研文献处理友好!
    OCR支持:检测扫描版/乱码PDF时自动启用OCR,支持84种语言识别

3️⃣ 跨平台高效运行

    支持CPU/GPU加速
    兼容Windows、Linux、macOS

使用CPU快速体验
1. 安装magic-pdf

最新版本国内镜像源同步可能会有延迟,请耐心等待

conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

2. 下载模型权重文件

3. 修改配置文件以进行额外配置

完成下载模型权重文件步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。

源代码:https://github.com/opendatalab/MinerU/tree/master

No comments:

Post a Comment