首页 教程 Web前端 MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

介绍

最近发现了一款工具大语言语料处理神器-MinerU, 非常适合在RAG等应用场景中使用, 开源免费

MinerU其中的一个功能是将 PDF 转化为 markdown 格式的工具, 对PDF文档提取的效果目前是市面上效果比较好的, 最新的版本还支持了PDF中表格的识别

MinerU 官方仓库: https://github.com/opendatalab/MinerU

MinerU 版本更新记录

  • 2024/11/22 0.10.0发布,通过引入混合OCR文本提取能力,
    • 在公式密集、span区域不规范、部分文本使用图像表现等复杂文本分布场景下获得解析效果的显著提升
    • 同时具备文本模式内容提取准确、速度更快与OCR模式span/line区域识别更准的双重优势
  • 2024/11/15 0.9.3发布,为表格识别功能接入了RapidTable,单表解析速度提升10倍以上,准确率更高,显存占用更低
  • 2024/11/06 0.9.2发布,为表格识别功能接入了StructTable-InternVL2-1B模型
  • 2024/10/31 0.9.0发布,这是我们进行了大量代码重构的全新版本,解决了众多问题,提升了性能,降低了硬件需求,并提供了更丰富的易用性:
    • 重构排序模块代码,使用 layoutreader 进行阅读顺序排序,确保在各种排版下都能实现极高准确率
    • 重构段落拼接模块,在跨栏、跨页、跨图、跨表情况下均能实现良好的段落拼接效果
    • 重构列表和目录识别功能,极大提升列表块和目录块识别的准确率及对应文本段落的解析效果
    • 重构图、表与描述性文本的匹配逻辑,大幅提升 caption 和 footnote 与图表的匹配准确率,并将描述性文本的丢失率降至接近0
    • 增加 OCR 的多语言支持,支持 84 种语言的检测与识别,语言支持列表详见 OCR 语言支持列表
    • 增加显存回收逻辑及其他显存优化措施,大幅降低显存使用需求。开启除表格加速外的全部加速功能(layout/公式/OCR)的显存需求从16GB降至8GB,开启全部加速功能的显存需求从24GB降至10GB
    • 优化配置文件的功能开关,增加独立的公式检测开关,无需公式检测时可大幅提升速度和解析效果
    • 集成 PDF-Extract-Kit 1.0
      • 加入自研的 doclayout_yolo 模型,在相近解析效果情况下比原方案提速10倍以上,可通过配置文件与 layoutlmv3 自由切换
      • 公式解析升级至 unimernet 0.2.1,在提升公式解析准确率的同时,大幅降低显存需求
      • PDF-Extract-Kit 1.0 更换仓库,需要重新下载模型,步骤详见 如何下载模型
  • 2024/09/27 0.8.1发布,修复了一些bug,同时提供了在线demo的本地化部署版本和前端界面
  • 2024/09/09 0.8.0发布,支持Dockerfile快速部署,同时上线了huggingface、modelscope demo
  • 2024/08/30 0.7.1发布,集成了paddle tablemaster表格识别功能
  • 2024/08/09 0.7.0b1发布,简化安装步骤提升易用性,加入表格识别功能
  • 2024/08/01 0.6.2b1发布,优化了依赖冲突问题和安装文档
  • 2024/07/05 首次开源

装环境相对麻烦, 为此我制作了Windows系统的环境一键整合包, 下面就介绍下这个环境一键包的使用

下载地址

MinerU环境一键整合包下载地址

链接: https://pan.quark.cn/s/f57a7b0f0232

搞不定环境的可以用这个 里面有使用说明文档(在Windows11正常运行, 其他系统未测, 如有问题, 可以留言)

使用

使用很简单, 无需复杂的安装部署, 下载后解压即可使用, 已经包含了模型, 整合了Python单独的环境以及所需的包, 独立不干扰系统环境, 小白也可以用, 也可以用于开发

使用之前需要安装里面的cuda, 安装cuda的教程自行百度, 如果已经安装请忽略
如果之前安装有cuda这个报错的, 可以卸载之前的cuda, 安装里边的cuda11.8版本

解压后即可运行
但要注意: 解压的路径最好不要带中文, 或者带空格的文件夹, 以免导致各种疑难杂症

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

点击运行Gradio简易版界面.bat, 运行Gradio简易版界面, 页数限制改成了100000

和 https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程
点击Gradio完整版界面.bat, 运行Gradio完整版界面, 把页数限制改成了100000
MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

点击运行web版.bat 运行web网页版
功能和 https://opendatalab.com/OpenSourceTools/Extractor/PDF 一样

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

文件说明

目录python为嵌入版的环境, 已经安装了所有依赖

想深入使用, 可以配合官方说明文档使用, 下面是一些简要说明

magic-pdf.json
为配置文件, 使用的方式和官方一样

small_ocr.pdf

为测试用pdf文件

app.py
为gradio网页在线版 和 https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样

运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令

./python/python.exe app.py

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

demo.py

为官方运行示例

运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令

./python/python.exe demo.py

如果要对Python环境里边的包进行操作的, 将原有的

pip install xxx

换成

./python/python.exe -m pip install xxx

就可以了

扩展使用

命令行使用

官方的命令使用

magic-pdf -p {some_pdf} -o {some_output_dir} -m auto

在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令

./python/Scripts/magic-pdf.exe -p {some_pdf} -o {some_output_dir} -m auto

例如

./python/Scripts/magic-pdf.exe -p small_ocr.pdf

或者路径填magic-pdf.exe所在的绝对路径, 例如

G:/MinerU/python/Scripts/magic-pdf.exe -p small_ocr.pdf

如果包损坏了, 可以通过下面两个命令进行重新下载更新

./python/python.exe -m pip install -U magic-pdf[full]

./python/python.exe -m pip install -r ./projects/web_demo/requirements.txt

开发使用

在pycharm里环境变量填python/python.exe所在目录

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

更新版本

更新命令

./python/python.exe -m pip install --upgrade magic-pdf

更新后需修改文件

python/Lib/site-packages/magic_pdf/libs/config_reader.py

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

把13-14行红框替换为如下代码

# 获取当前目录 current_dir = os.getcwd()print("当前目录为: ", current_dir)# 定义配置文件名常量 CONFIG_FILE_NAME = os.path.join(current_dir,"magic-pdf.json")print("配置路径为: ", CONFIG_FILE_NAME)

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

在69行最用红框处插入如下代码

models_dir = os.path.join(current_dir, models_dir)print(f"模型目录为: {models_dir}")

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

MinerU 0.10.0 环境整合一键包(无需安装部署) 使用教程

这样路径才不会报错

评论(0)条

提示:请勿发布广告垃圾评论,否则封号处理!!

    猜你喜欢
    【MySQL】用户管理

    【MySQL】用户管理

     服务器/数据库  2个月前  2.18k

    我们推荐使用普通用户对数据的访问。而root作为管理员可以对普通用户对应的权限进行设置和管理。如给张三和李四这样的普通用户权限设定后。就只能操作给你权限的库了。

    Cursor Rules 让开发效率变成10倍速

    Cursor Rules 让开发效率变成10倍速

     服务器/数据库  2个月前  1.24k

    在AI与编程的交汇点上,awesome-cursorrules项目犹如一座灯塔,指引着开发者们驶向更高效、更智能的编程未来。无论你是经验丰富的老手,还是刚入行的新人,这个项目都能为你的编程之旅增添一抹亮色。这些规则文件就像是你私人定制的AI助手,能够根据你的项目需求和个人偏好,精确地调教AI的行为。突然间,你会发现AI不仅能理解Next.js的最佳实践,还能自动应用TypeScript的类型检查,甚至主动提供Tailwind CSS的类名建议。探索新的应用场景,推动AI辅助编程的边界。

    探索Django 5: 从零开始,打造你的第一个Web应用

    探索Django 5: 从零开始,打造你的第一个Web应用

     服务器/数据库  2个月前  1.16k

    Django 是一个开放源代码的 Web 应用程序框架,由 Python 写成。它遵循 MVT(Model-View-Template)的设计模式,旨在帮助开发者高效地构建复杂且功能丰富的 Web 应用程序。随着每个版本的升级,Django 不断演变,提供更多功能和改进,让开发变得更加便捷。《Django 5 Web应用开发实战》集Django架站基础、项目实践、开发经验于一体,是一本从零基础到精通Django Web企业级开发技术的实战指南《Django 5 Web应用开发实战》内容以。

    MySQL 的mysql_secure_installation安全脚本执行过程介绍

    MySQL 的mysql_secure_installation安全脚本执行过程介绍

     服务器/数据库  2个月前  1.09k

    mysql_secure_installation 是 MySQL 提供的一个安全脚本,用于提高数据库服务器的安全性

    【MySQL基础篇】概述及SQL指令:DDL及DML

    【MySQL基础篇】概述及SQL指令:DDL及DML

     服务器/数据库  2个月前  491

    数据库是长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库不仅仅是数据的简单堆积,而是遵循一定的规则和模式进行组织和管理的。数据库中的数据可以包括文本、数字、图像、音频等各种类型的信息。

    Redis中的哨兵(Sentinel)

    Redis中的哨兵(Sentinel)

     服务器/数据库  2个月前  316

    ​ 上篇文章我们讲述了Redis中的主从复制(Redis分布式系统中的主从复制-CSDN博客),本篇文章针对主从复制中的问题引出Redis中的哨兵,希望本篇文章会对你有所帮助。