文档解析教程¶
本教程将介绍如何使用 Python 进行文档解析,涵盖传统 OCR 技术到现代多模态大模型的完整知识体系。
教程目录¶
- 第一章:文档解析概述
- 第二章:PaddleOCR 入门
- 第三章:Tesseract OCR
- 第四章:PDF 文档解析
- 第五章:多模态大模型解析
- 第六章:文档结构提取
- 第七章:表格识别与提取
- 第八章:实战项目:智能文档处理系统
学习前提¶
- Python 基础
- 了解深度学习基本概念
- 有一定的图像处理经验
教程目标¶
学完本教程后,你将能够: 1. 使用 PaddleOCR 进行文本识别 2. 使用 Tesseract 进行 OCR 识别 3. 解析 PDF 文档提取文本和表格 4. 使用多模态大模型进行文档理解 5. 构建完整的文档处理流水线