excel 大文件解析原理实现
2024-10-11 12:07:51
问题
目前的excel 不像之前的excel了可以支持的数据量更大,可以支持支持1048576行,16384列。
之前使用poi读取,直接报错,使用excel 事件的方式读取,还有不少的bug,关键是程序写的很复杂。
解决方案
我们知道excel 文件实际上是一个压缩包来的,我们将excel 直接改名为rar或zip文件。
我们可以将文件解压出来。
我们可以看到excel 实际上是一堆xml文件的集合。
worksheets 中实际存了 这个excel的sheets数据。
但是excel 在存数据的时候,他会将字符串数据存在在sharedString.xml 文件中。
sharedString.xml 文件数据如下:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<sst
xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="6" uniqueCount="4">
<si>
<t>guangzhou</t>
</si>
<si>
<t>beijing</t>
</si>
<si>
<t>hujun</t>
</si>
<si>
<t>c</t>
</si>
</sst>
这个数据存放了字符串的数据。
sheet 表文件也是一个xml文件,格式如下图:
我们查看xml文件可以得知。
这里0,1,2,3 存的是 sharedString.xml 字符串的下标。
数字和日期型数据是直接存放在sheets 数据中的。
日期型数据的存储有些特殊
比如这个 他的日期实际是 2019-5-29日,这个是怎么计算的呢,他实际是从1900-0-0 开始加上43614天。
因此 明白了excel的结构 ,我们就很容易去实现读excel的代码,可以绕开poi哪些api。
直接读取xml。
实现思路
1.将文件解压。
2.读取sharedString.xml 将数据读取到list列表。
3.读取sheet.xml文件数据,遍历这个数据,将字符串的数据,去上面的列表中查找,其他类型的数据直接在sheet.xml 中读取。
最新文章
- 安装CentOS7文字界面版后,无法联网,用yum安装软件提示 cannot find a valid baseurl for repo:base/7/x86_64 的解决方法
- 闭包和重写函数 返回IE浏览器版本号
- stunnel+CCProxy,搭建加密代理
- Win2008R2配置WebDeploy
- thinkphp3.2 namespace及use用法
- ASP.NET程序从IIS6移植到IIS7时出现500.22错误
- smarty模板引擎中section循环loop与total的区别
- Android程序的入口点
- Spring线程池开发实战
- .NET Core版本七牛云SDK使用
- Linux学习之CentOS(五)--CentOS下VMware-Tools安装
- FFMPEG结构体分析:AVFormatContext
- Java体系学习书籍推荐
- Uniprot数据库
- selenium怎么操作web页面常见的元素
- springMVC学习之路2-文件上传
- k8s-YAML配置文件
- JAVA所属公司与非盈利组织
- redis命令手册
- ubuntu14.04, keyboard shortcuts
热门文章
- 洛谷 P5057 [CQOI2006]简单题 题解
- 【JZOJ5740】【20190706】幻想世界
- 第02组Beta冲刺(4/4)
- failed to execute /bin/bash: Resource temporarily unavailable的问题处理
- 2018-2019-2 网络对抗技术 20165230 Exp9 :Web安全基础
- Hyperledger Fabric 1.4 快速环境搭建
- 使用vue搭建应用五引入Mock.js
- serializers进阶
- 【数据结构与算法】线性表操作(C语言)
- Java并发编程基础-Unsafe