html table 批量转 Excel(xlsx)

发表于2020-07-12|更新于2023-04-15|编程Python

|总字数:243|阅读时长:1分钟|浏览量:|评论数:

由于实验设备导出的数据为 html 格式，单个 html 文件达到 10-200M。采用 python 脚本，批量将 html 中的 table 批量转为 Excel，并导出到文件。

¶主要流程

1. 采用 Beautifulsoup 4 库进行解析，获取 html 中的 table;
1. 采用 pandas 解析 table 库中的数据，并进行整合；
1. 将整合后的 DataFrame 导出到各 Sheet，并保存到文件。

html 浏览器视图

¶依赖包

bs4
pandas

¶主要代码

from bs4 import BeautifulSoup
import pandas as pd
print('Reading Started')
html_id=2
html=BeautifulSoup(open('Ma-%s-statistics.html'%html_id,'r').read())
tables=html.find_all('table',class_='Data')
print('Reading Finished')
SHEETS=[]
for i in range(8):
    SHEETS.append(pd.DataFrame())
for i,table in enumerate(tables):
    df = pd.read_html(str(table))[0]
    if i/8<1:
        SHEETS[i%8]=df
    else:
        SHEETS[i%8]=SHEETS[i%8].append(df)
    print('Handling %s/%s'%(i,len(tables)))

writer = pd.ExcelWriter('output-%s.xlsx'%html_id)
for i in range(8):
    SHEETS[i%8].to_excel(writer,'Sheet%s'%i,index=False)
    print('Saving %s/%s'%(i,8))
writer.save()
print('Finished')

¶Author

Dorad, ddxid@outlook.com

文章作者: Dorad

文章链接: https://blog.cuger.cn/p/13045/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源遐说！

请喝果茶

Wechat
Alipay

相关推荐

Python读取NetCDF文件-裁剪&计算

近期项目又开始倒腾NetCDF文件了，处理全国降雨数据，记录一下代码片段。

pymongo 使用记录

近期项目开始使用 pymongo，遇到一对坑。 ¶pymongo 使用过程中的坑 ¶0x0 Question 1: 插入自动生成 _id 123db.collection.insert(array)db.collection.insert_one(array)db.collection.insert_many(array) 均会使 array 生成 mongodb 中的自增 ObjectId ，且使用 12for row in array: del row['_id'] 无法进行删除!造成后续更新过程中的困扰。 ¶Solution 由于 python 在传参过程中属于地址传递，所以会造成上述问题。可使用copy.deepcopy()生成副本后再进行插入操作。 12345678910111213141516171819...import copyarray=[ { 'name':'张三', 'age':10 }, { ...

通过三个点绘制三维圆弧-python

通过圆弧的圆心及两个端点坐标，绘制圆弧的三维形状。 ¶Introduction 起源于某同学今年打研究生数学建模竞赛。绘制飞机航迹图。通过中心点坐标c(x,y,z)、端点坐标1p1(x,y,z)和端点坐标2p2(x,y,z)，绘制三维圆弧。起初以为很简单，接锅后发现事情不简单。。。 ¶Method 主要思路为：通过将圆弧端点c,p1,p2旋转到XOY平面，插值后，再旋转回原平面。主要步骤如下：计算c, p1, p2 三点共面的平面法向量cp 通过平面法向量cp，计算其与z轴夹角sita及旋转轴roteAxis 通过旋转轴roteAxis和sita计算旋转矩阵roteMatrix和逆向旋转矩阵roteBackMatrix 将c,p1,p2旋转到XOY平面，根据step插值得到弧线点坐标roteArc 利用roteBackMatrix将roteArc旋转到原坐标系, 得到圆弧曲线坐标arc ¶Code GitHub ¶arc.py 12345678910111213141516171819202122232425262728293031323334353...

评论