Science

python从pdf中提取信息,并统计文本英语单词个数

September 10, 2017 IT, Python No comments , , ,

完整版代码,从pdf提取文本、进行清洗、统计字数等,还有可以优化的地方,有时间了再重构,后期可以整合为一个框架。先记着。

# encoding: utf-8

"""
    author: Gupern 
    purpose: extract text from pdf, clean[......]

Read more

python进行目录遍历并将pdf转换为txt(二)

September 9, 2017 IT, Python No comments , , ,

前言

刚刚用的是pdfminer3k的版本,解析某个pdf的时候出现了一个问题,如图:
pdfminer3k的问题

于是继续深入,发现pdfminer3k这个包已经很久远了,再找到一个pdfminer.six的包,并进行代码编写。

  • 注意,要把pdfminer3k卸载了才能用pdfminer.six,总之两个不兼容。

[......]

Read more

python进行目录遍历并将pdf转换为txt(一)

September 9, 2017 IT, Python No comments , , , ,

今天心学来潮,研究下python从pdf中提取文字到txt,涉及到遍历目录下所有文件,觉得挺有用的,记录一下。

依赖模块

  • pdfminer3k
    pip install pdfminer3k

这个包是python3专用的,一开始看找到的是pdfminer,但是其官网说只支持python[......]

Read more

linux tips之docker、tmux和nginx

September 3, 2017 IT, Unix/Linux No comments , , ,

由于项目需要,这几天接触到了如题的一些tips

docker 相关

docker log -f dockerName用来查看docker容器日志

docker exec -ti dockerName /bin/bash 用来进入docker容器进行操作

tmux

tmux是一个终端[......]

Read more

关于博客维护的规划

August 29, 2017 IT No comments

找个时间重构博文栏目

目前规划中的栏目有:

  • 精品博文
  • 粗制滥造
  • 微博感想
  • 博客日志 (about放在此栏目下)

Mastering Bitcoin:Quick Glossary

August 18, 2017 IT No comments , ,

Quick Glossary

This quick glossary contains many of the terms used in relation to bitcoin. These terms are used throughout the book, so bookmark this[......]

Read more