pdfplumber模块初始用
2024-10-21 10:08:02
import pdfplumber
import re
def pdf_read():
pdf=pdfplumber.open('文件路径'")#文件路径,读取文件
page0=pdf.pages[11] #指定页数
tables=page0.extract_tables()#获得该页的表格
texts=page0.extract_text()#获得text文本值
pdfplumber 缺省通过表格线来区分行和列,所以下列情况是无法提取出表格的:
* 你的表格是图片,通过选择可以确定是否图片
* 你的表格不是用线来分隔,或者分隔不全,例如列用线,行没线
这种情况下,你就需要尝试:page0.extract_tables(table_settings={})
最新文章
- 输入三个数a,b,c,要示按由小到大的顺序输出
- 8-IO总结
- 一个优秀的Android应用从建项目开始
- accept函数
- JsRender系列-11
- nodejs7.0 试用 async await
- http://www.linuxidc.com/Linux/2007-09/7399.htm
- mac/linux install hg
- C# 未能加载文件或程序集“MySQLDriverCS..."; 错误解决
- 【免费】iPhone上最好用的短信群发软件: 高速短信4.1
- 一个完整的PHP类包含的七种语法说明
- [Day01] Python基础
- [HNOI2010]MATRIX 矩阵
- ORACLE 触发器 基础
- momentjs 学习
- Unity游戏开发常用的一些函数用法
- html5文件读取+按钮样式重置+文件内容预览
- Springboot 学习遇到的一些错和埋坑之旅
- quartz2.2.1 web配置
- ActiveMQ开发注意要点
热门文章
- nginx配置ssl加密(单/双向认证、部分https)
- CSS3 之loading动画实现思路
- 多项式乘法,sb题
- 二分法python实现
- 第12组 Alpha冲刺(5/6)
- CNN中各类卷积总结:残差、shuffle、空洞卷积、变形卷积核、可分离卷积等
- Git push origin dev-rgq-istokenstatus 【dev-rgq-istokenstatus ->; dev-rgq-istokenstatus】
- spring4.x企业应用开发读书笔记1
- 【JS】AJAX跨域-被调用方与调用方解决方案(二)
- 【翻译】Flink Table Api &; SQL —Streaming 概念 ——时间属性