最近发现了一款工具大语言语料处理神器-MinerU, 非常适合在RAG等应用场景中使用, 开源免费MinerU其中的一个功能是将 PDF 转化为 markdown 格式的工具, 对PDF文档提取的效果目前是市面上效果比较好的, 最新的版本还支持了PDF中表格的识别MinerU 官方仓库: https://github.com/opendatalab/MinerU装环境相对麻烦, 为此我制作了环境一键包, 下面就介绍下环境一键包的使用。
102 0 3个月前
Python爬虫之Scrapy框架系列(24)——分布式爬虫scrapy_redis完整实战【XXTop250完整爬取】
51 0 3个月前