完整版代码,从pdf提取文本、进行清洗、统计字数等,还有可以优化的地方,有时间了再重构,后期可以整合为一个框架。先记着。

# encoding: utf-8

"""
    author: Gupern 
    purpose: extract text from pdf, clean[......]

Read more