由于实验设备导出的数据为 html 格式，单个 html 文件达到 10-200M。采用 python 脚本，批量将 html 中的 table 批量转为 Excel，并导出到文件。

主要流程

1. 采用 Beautifulsoup 4 库进行解析，获取 html 中的 table;
1. 采用 pandas 解析 table 库中的数据，并进行整合；
1. 将整合后的 DataFrame 导出到各 Sheet，并保存到文件。

html 浏览器视图

依赖包

bs4
pandas

主要代码

from bs4 import BeautifulSoup
import pandas as pd
print('Reading Started')
html_id=2
html=BeautifulSoup(open('Ma-%s-statistics.html'%html_id,'r').read())
tables=html.find_all('table',class_='Data')
print('Reading Finished')
SHEETS=[]
for i in range(8):
    SHEETS.append(pd.DataFrame())
for i,table in enumerate(tables):
    df = pd.read_html(str(table))[0]
    if i/8<1:
        SHEETS[i%8]=df
    else:
        SHEETS[i%8]=SHEETS[i%8].append(df)
    print('Handling %s/%s'%(i,len(tables)))

writer = pd.ExcelWriter('output-%s.xlsx'%html_id)
for i in range(8):
    SHEETS[i%8].to_excel(writer,'Sheet%s'%i,index=False)
    print('Saving %s/%s'%(i,8))
writer.save()
print('Finished')