python 庖丁科技pdflux的表格解析(精度很高)

网友投稿 1687 2022-08-22

python 庖丁科技pdflux的表格解析(精度很高)

python 庖丁科技pdflux的表格解析(精度很高)

最近有个人叫我把印刷版的pdf解析一下,我试了腾讯,阿里,百度的方法,都不太行,后面发现创业公司庖丁科技对这方面优化得还可以,所以买了API,这里分享一下我的python实现。

官网为:​​requests,jsonfrom Get_Token import encode_url""" 读取图片 """def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read() def upload(URL,fname): url = encode_url(URL, 'pdflux', 'qTLmxhIi20YH') data = {'file':open(fname, 'rb')} r =requests.post(url,files=data) return r.text if __name__ == "__main__": fname='../chengdu/1995.pdf' user='' URL=' result=upload(URL,fname) print(result) json_file=fname+'.json' with open(json_file, "w") as fp: fp.write(json.dumps(result,indent=4))

有人会有疑问,Get_Token是哪里来的呢?其实就是官方工作人员给你账号以后,登陆进去就能-了。登陆地址:​​requests,jsonfrom Get_Token import encode_urlfrom upload_file import uploadimport timeimport osdef get_status(uuid,user): URL=' url = encode_url(URL, 'pdflux', 'qTLmxhIi20YH') r =requests.get(url) return r.textdef download_data(uuid,file_name,user): url=' down_url=encode_url(url, 'pdflux', 'qTLmxhIi20YH') down_res = requests.get(url=down_url) with open(file_name,"wb") as code: code.write(down_res.content)def test_status(): uuid='fad4c522-c71c-11ea-ba3d-00163e028884' # uuid='fb892010-c6a6-11ea-ba3d-00163e028884' res=get_status(uuid) print(res)if __name__ == "__main__": fnames=['./pdf_data/1988.pdf','./pdf_data/1989.pdf','./pdf_data/1990.pdf','./pdf_data/1991.pdf','./pdf_data/1992.pdf','./pdf_data/1993.pdf','../pdf_data/1996.pdf'] user='' uuids=[] for uuid,fname in zip(uuids,fnames): file_name=fname+'.xls' if(os.path.exists(file_name)): continue while True: res=get_status(uuid,user) res=json.loads(res) print(res) if(res['data']['parsed']==2): download_data(uuid,file_name,user) break time.sleep(20)

upload文件

import requests,jsonfrom Get_Token import encode_url""" 读取图片 """def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read() def upload(URL,fname): url = encode_url(URL, 'pdflux', 'qTLmxhIi20YH') data = {'file':open(fname, 'rb')} r =requests.post(url,files=data) return r.text

填上你的user和uuid那些,就等着处理完了以后-下来了哈,最终会把所有pdf里面的表格整合成一个excel,非常的方便哈,我也有点好奇他们是怎么实现这个pdf表格解析这项技术的,我试了好多开源的方案和大厂的API,都达不到他们的这种水平。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:mac homebrew修改为国内的阿里源和中科院镜像
下一篇:Chinese-ELECTRA ‘adam_m not found in checkpoint ‘
相关文章

 发表评论

暂时没有评论,来抢沙发吧~