# https://www.jianshu.com/p/f33233e4c712
import pdfplumber # 为了操作PDF
from openpyxl import Workbook
wb = Workbook() # 创建文件对象
ws = wb.active # 获取第一个sheet
path="C:/Users/Lenovo/Desktop/中国建筑集团2020届校园招聘需求名录.pdf"
pdf = pdfplumber.open(path)
print('\n')
print('开始读取数据')
print('\n')
print(pdf.pages[].extract_tables()[][])
ws.append(pdf.pages[].extract_tables()[][])
for page in pdf.pages:
# 获取当前页面的全部文本信息,包括表格中的文字
# print(page.extract_text())
for table in page.extract_tables():
# print(table)
for row in table:
if "序号" not in row:
# print(type(row))
rowlist=str(row).replace("[","",).replace("]","").replace("'","").replace("\\n","").split(",")
print(rowlist)
ws.append(rowlist)
print('---------- 分割线 ----------')
pdf.close()
# 保存Excel表
wb.save('中国建筑集团2020届校园招聘需求名录.xlsx')
print('\n')
print('写入excel成功')
print('保存位置:')
print('中国建筑集团2020届校园招聘需求名录.xlsx')
print('\n')

最新文章

  1. Spring基础学习笔记-Bean的基础知识
  2. OAF_开发系列01_实现OAF资料主从关系Master-Detail联动(案例)
  3. TopCoder
  4. Palindrome Partitioning II Leetcode
  5. AngularJS 中的 Promise 和 设计模式(转)
  6. 一模 (1) day2
  7. Sort Colors —— LeetCode
  8. [置顶] mkdir函数-linux
  9. HDU4344(大数分解)
  10. openstack私有云布署实践【14.2 登录页dashboard-controller(办公网环境)】
  11. angular2 学习笔记 ( 第3方插件 jQuery and ckeditor )
  12. Mysql-单表查询的操作和注意事项
  13. [NewLife.XCode]高级增删改
  14. git(三) 使用github
  15. easyui 单元格超出鼠标放上弹出全部
  16. Java并发编程(二)-- 创建、运行线程
  17. easyui中combobox 取值
  18. 滑动CheckBox样式
  19. win10上Tensorflow的安装教程
  20. 切图psd to html页面制作技术学习与总结

热门文章

  1. TextureMerger使用教程
  2. 基于Bootstrap 3可预览的HTML5文件上传插件
  3. JavaScript高程第三版笔记(1-5章)
  4. 【C/C++】对于可重入、线程安全、异步信号安全几个概念的理解
  5. IIS配置相关问题:Framework 4.5 在IIS 7.5中运行
  6. [python] 格式化方法 format
  7. 小记--------spark内核架构原理分析
  8. 说一下redis中5种数据类型的底层数据结构
  9. C++学习 之 类中的特殊函数和this指针(笔记)
  10. GDOI2018游记