Python

ubuntu服务器python selenium webdriver phantomjs 截屏埋坑记

November 14, 2017 IT, Python, Science No comments

因项目要实现小程序分享图片截屏转发的功能,写了一个后台接口,踩了不少坑,趁着还没忘记下来。

《selenium webdriver学习(二十二)------------XVFB实现selenium在linux上》

坑1:缺失字体导致样式失败

  • ubuntu服务器上没有界面,要用Firef[......]

Read more

爬取casmart网站供应链页面

November 3, 2017 IT, Python No comments ,

http://www.casmart.com.cn/product/supplierlist.aspx

图就懒得放了,有个人问我如何获取这个网址里的供应商列表,浏览器分析找不到ajax请求数据的接口。总之,直接登进这个网址,是看不到供应商的,刷新一遍就有了。

初步认为是后台搜索慢引起的,因为在手[......]

Read more

python从pdf中提取信息,并统计文本英语单词个数

September 10, 2017 IT, Python No comments , , ,

完整版代码,从pdf提取文本、进行清洗、统计字数等,还有可以优化的地方,有时间了再重构,后期可以整合为一个框架。先记着。

# encoding: utf-8

"""
    author: Gupern 
    purpose: extract text from pdf, clean[......]

Read more

python进行目录遍历并将pdf转换为txt(二)

September 9, 2017 IT, Python No comments , , ,

前言

刚刚用的是pdfminer3k的版本,解析某个pdf的时候出现了一个问题,如图:
pdfminer3k的问题

于是继续深入,发现pdfminer3k这个包已经很久远了,再找到一个pdfminer.six的包,并进行代码编写。

  • 注意,要把pdfminer3k卸载了才能用pdfminer.six,总之两个不兼容。

[......]

Read more

python进行目录遍历并将pdf转换为txt(一)

September 9, 2017 IT, Python No comments , , , ,

今天心学来潮,研究下python从pdf中提取文字到txt,涉及到遍历目录下所有文件,觉得挺有用的,记录一下。

依赖模块

  • pdfminer3k
    pip install pdfminer3k

这个包是python3专用的,一开始看找到的是pdfminer,但是其官网说只支持python[......]

Read more

python 多进程、多线程与协程初探

August 15, 2017 IT, Python, Unix/Linux No comments , ,

近来接手一个项目,里面大量用到多线程、协程,因此顺便重新学习了。本文中大多代码是直接引用廖雪峰博客上的,为的只是以后方便找出模块的用法样例,特此声明。

名词解释

关系与背景知识

一个进程里至少有一个线程,即一个进程里[......]

Read more