Python 爬虫实战 - 糗事百科段子
早上起来闲来无事做,莫名其妙的就弹出了糗事百科的段子,转念一想既然你送上门来,那我就写个爬虫到你网站上爬一爬吧,一来当做练练手,二来也算找点乐子。 其实这两天也正在接触数据库的内容,可以将爬取下来的数据保存在数据库中,以待以后的利用。好了,废话不多说了,先来看看程序爬取的数据结果 值得一提的是,我在程序中想一下子爬取糗事百科 30 页的内容,但是出现了连接错误,当我把页数降到 20...
View ArticleData Migrations in Django 1.7+
Starting in Django 1.7, migrations were built into Django and you no longer need to use south . One of the minor things that changed was the way you create data migrations. If you are familiar with...
View ArticlePython 中的可视化工具介绍
几周前,R语言社区经历了一场关于画图工具的讨论。对于我们这种外人来说,具体的细节并不重要,但是我们可以将一些有用的观点运用到 python 中。讨论的重点是 R 语言自带的绘图工具 base R 和 Hadley Wickham 开发的绘图工具 ggplot2 之间的优劣情况。如果你想了解更多细节内容,请阅读以下几篇文章:...
View Article爬虫中使用Python穿越百度云防护
在做爬虫时,直接访问目标URL时scrapy会返回503响应,手工访问后,发现是网站采取了百度云加速的防护机制:直接 返回一个页面,页面内部有一段隐藏的form,然后js代码随机生成form中某个input的值,最后进行提交,提交之后 服务器会返回一个cf_clearance的cookie,获取这个cookie后,休眠五秒钟,再用此cookie去访问目标URL,目的当然是用来过滤我们机器人的…....
View ArticleAnalyzing Pronto CycleShare Data with Python and Pandas
This week Pronto CycleShare , Seattle's Bicycle Share system, turned one year old. To celebrate this, Pronto made available a large cache of data from the first year of operation and announced the...
View ArticlePython 中单例模式的大招小式
单例模式,也叫单子模式,是一种常用的软件设计模式。在应用这个模式时, 单例对象的类必须保证只有一个实例存在。许多时候整个系统只需要拥有一个 全局对象,这样有利于我们协调系统整体的行为。 --以上来自维基百科 从定义上来看,这会是一个很有用的避免冲突的设计模式,相当于把所有同样资源的调用 都交给了一个资源代理。那么 python 中该如何实现这一模式呢? 装饰器...
View ArticlePython多进程编程入门
本文由 python 翻译组 最新翻译出品,原作者为 Michael Discroll,译者为 cystone,并由编程派作者 EarlGrey 校对。昨天,编程派已经发布了一篇多线程编程的教程,一文学会Python多线程编程。 译者简介:cystone,成都信息工程大学,计算机学院学生。擅长领域:图像处理,机器学习。 多进程(multiprocessing)模块是在 Python 2.6...
View Articleuvloop: Python极速网络互连
本文作者为 Yury Selivanov,译者是 唐晓霆 Jason ,由 EarlGrey 校对。译者简介:唐晓霆,在香港的成都人,城市大学研究助理,会写python,兴趣是深度学习。 asyncio 是Python 标准库里的一个异步 I/O 框架。在本文中,我们将介绍 uvloop : 这是 asyncio 默认事件循环的一个代替品,实现的功能完整,且即插即用。uvloop 是用 Cython...
View Articletryexceptpass: I’m glad you had a chance to go down this path.
I’m glad you had a chance to go down this path. I think it’s great to have some options, and I see that you went with some of the ideas we’ve discussed previously for the underlying mechanism with...
View ArticleConfiguring IPython Notebook Support for PySpark
Apache Spark is a great way for performing large-scale data processing. Lately, I have begun working with PySpark , a way of interfacing with Spark through python. After a discussion with a coworker,...
View Articlepython [吐槽]关于nan类型时遇到的问题
今天在用写一段求和的代码时候,发现最后返回的是nan的结果,这段循环求和代码依次调用了三个函数,于是依次打印这三个函数的返回值,发现其中一个函数的返回值为nan,原来是因为这段函数里面没有相似的用户,所有返回结果为nan,于是我就想加一个判断条件,当结果为空时,跳过本次循环: if res==nan:...
View Articlepython调用java API
JPype documentation JPype is an effort to allow python programs full access to java class libraries. This is achieved not through re-implementing Python, as Jython/JPython has done, but rather through...
View Articlepython爬取糗事百科的爬虫
python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子。包含的信息有作者名称,觉得好笑人数,评论人数,发布的内容。 如果发布的内容中含有图片的话,则过滤图片,内容依然显示出来。...
View Article帮助Python开发者解决具体技术问题
帮助python开发者解决具体技术问题 一点号零传媒5小时前 在众多计算机编程语言中,目前最具代表性的应该就属java了,它也是目前应用最广的编程语言之一。 但是有一种兴起的语言――Python正在逐渐被广泛应用于处理系统任务和Web编程中。 Var4Log这个平台的出现,就是为了这些在使用Python语言的程序员所搭建的。...
View ArticleData Science & Visualization
Dev sprint as we know, is a day that is dedicated to solving bugs for a project or building a new project in itself. Having never done a dev sprint before, we chose to visualize data in Pandas using...
View ArticleWeb框架本质
Web框架本质 众所周知,对于所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端。 #!/usr/bin/env python#coding:utf-8import socketdef handle_request(client): buf = client.recv(1024) client.send("HTTP/1.1 200...
View ArticleSimple Multithreaded Download Manager in Python
Introduction A Download Manager is basically a computer program dedicated to the task of downloading stand alone files from internet. Here, we are going to create a simple Download Manager with the...
View Article[Python]-10-模块与包
引言 这篇文章介绍python中模块和包的概念。 文章目录 0×1.如何导入模块 简单的讲,模块就是可以扩展python功能的一些对象的集合,可以是类,方法,或者简单的数值对象,他们被存放在一个或多个单独的文件中,python安装后自带了大量的模块文件,我们也可以自己创建模块放入系统对应的目录中实现调用。...
View Article深入理解Python中的ThreadLocal变量(中)
在 深入理解python中的ThreadLocal变量(上) 中我们看到 ThreadLocal 的引入,使得可以很方便地在多线程环境中使用局部变量。如此美妙的功能到底是怎样实现的?如果你对它的实现原理没有好奇心或一探究竟的冲动,那么接下来的内容估计会让你后悔自己的浅尝辄止了。 简单来说,Python 中 ThreadLocal...
View ArticlePython实时监控文件方法
在业务稳定性要求比较高的情况下,运维为能及时发现问题,有时需要对应用程序的日志进行实时分析,当符合某个条件时就立刻报警,而不是被动等待出问题后去解决,比如要监控nginx的$request_time和$upstream_response_time时间,分析出最耗时的请求,然后去改进代码,这时就要对日志进行实时分析了,发现时间长的语句就要报警出来,提醒开发人员要关注,当然这是其中一个应用场景,通过这种...
View Article