MinerU是一款将PDF转化为机器可读格式的开源工具(如markdown、json),可以方便地抽取为任意格式。公式、表格、图片精准提取,扫描件也能搞定!项目遵守AGPL3.0开源协议。
🔥 MinerU核心功能
1️⃣ 智能解析结构
自动删除页眉、页脚、页码,保持文本连贯
保留标题、段落、列表等原文档结构,阅读顺序智能优化
多栏排版自动识别,输出符合人类阅读习惯的文本
2️⃣ 多模态内容提取
图片+描述:提取文档中所有图像并保存到独立文件夹
表格+公式:自动识别表格和数学公式,转换为LaTeX/HTML格式,科研文献处理友好!
OCR支持:检测扫描版/乱码PDF时自动启用OCR,支持84种语言识别
3️⃣ 跨平台高效运行
支持CPU/GPU加速
兼容Windows、Linux、macOS
使用CPU快速体验
1. 安装magic-pdf
最新版本国内镜像源同步可能会有延迟,请耐心等待
conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
2. 下载模型权重文件
3. 修改配置文件以进行额外配置
完成下载模型权重文件步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。
源代码:https://github.com/opendatalab/MinerU/tree/master
看得透又看得远者prevail. ppt.cc/flUmLx ppt.cc/fqtgqx ppt.cc/fZsXUx ppt.cc/fhWnZx ppt.cc/fnrkVx ppt.cc/f2CBVx
ppt.cc/fKlBax ppt.cc/fwlgFx ppt.cc/fVjECx ppt.cc/fEnHsx ppt.cc/fRZTnx ppt.cc/fSZ3cx ppt.cc/fLOuCx ppt.cc/fE9Nux ppt.cc/fL5Kyx ppt.cc/f71Yqx tecmint.com linuxcool.com linux.die.net linux.it.net.cn ostechnix.com unix.com ubuntugeek.com runoob.com man.linuxde.net ppt.cc/fwpCex ppt.cc/fxcLIx ppt.cc/foX6Ux linuxprobe.com linuxtechi.com howtoforge.com linuxstory.org systutorials.com ghacks.net linuxopsys.com ppt.cc/ffAGfx ppt.cc/fJbezx ppt.cc/fNIQDx ppt.cc/fCSllx ppt.cc/fybDVx ppt.cc/fIMQxx
Total Pageviews
Friday, 23 January 2026
PDF文件秒变Markdown文件-开源神器MinerU
Labels:
程序和源码
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment