爬虫技术栈小结

做了接近一个月爬虫,中间爬到数据多的爬过唯品会,dpchallenge,frilly。百度图片和1688也是取了一部分数据来。这里做一些爬虫技术总结记录,包括基本的requests使用,json,bs4,OrderedDict,下载图片,多进程以及post一个数组。 首先,基本的爬虫以唯品会(这里以女装做示范),主要用以接口获取json数据,json解析,json格式化。 首先获取一下他的分......

用google的GAE部署kindle的自动推送

偶然在github看到一个kindleear,发现可以在google的gea配置推送到kindle,便来试试,这里记下最简单的几步操作。 具体可以参考网页—https://bookfere.com/post/19.html 首先,到google的https://console.developers.google.com/project?hl=zh-cn创建一个新项目。 之后在https://......

爬进数字杭电python篇

上次有的php篇数字杭电模拟登陆,不过由于如今没有了验证码,可能会出点小错误,因此用python再来进进出出一遍。 此次主要还是熟悉一下python requests的使用以及对网站cookie变化的准确捕捉。post的参数以及header也是这里的重点部分,其他还能加点简单的正则。 具体细节在代码注释里: import requests import re #先访问一次登录网站得到lt(......

python cv2图像处理小结

这里做图像处理初学的一个阶段性小结。从简单的读写到复杂点的开闭运算。还有一些用到过的边缘提取,垂直水平投影等方法。 首先是读写和展示 import cv2 #imread第二个参数不写默认是rgb彩色,有0读取到的就是黑白二值图 im = cv2.imread("image.jpg",0) #写入文件 cv2.imwrite("img.jpg",im) #展示 cv2.imshow("ima......

three.js第四发,粒子与第一视角的尝试

点这里先看效果,会有点晕,毕竟第一视角。 其中的大致思路:首先是舞台, 摄像机,渲染器。然后有一个clock,用于更新摄像机位置时候。FirstPersonControls用于制作第一视角的,后面也设置了许多参数。createSprites函数中先是创造了点云的几何和材料,然后把向量点加进去,最后在把点云加到舞台。通过渲染持续创造点云,为所有点云改变位置。 <!DOCTYPE html......

hack个验证码验证多字符连接识别与切割识别的优劣

有个多个字符识别的需求,想是要切割还是字符连接整个一起识别,所以就找了一个验证码来做对比尝试。这个验证码很简单,验证码链接,就中规中矩, 简单贴一下验证码爬下来的代码 import requests from PIL import Image from io import BytesIO from threading import Thread headers = {'User-Agent'......

python爬虫初入门实战 [aim->拉勾网]

作为pythoner爬虫还是必备技能之一,说上手就上手。 入门选了个拉勾网(莫名躺枪,下手轻点)。 这次具体来讲一下爬网页走过的流程。 先在chrome打开拉勾网主页,打开开发者工具network项,点每个资源就知道他的request和reponse。主页他是直接返回的内容,所以直接去爬主页,三行搞定。 import requests req=requests.get("https://ww......

three.js第三弹,一个可玩的魔方

魔方对于大多数人都不陌生,也是个立方体的玩意儿。 这里就简单用three.js实现一下,复杂的还是定位,毕竟是3d的还能乱转。 点击这里先看效果哦!! 看代码前还是先来说明:基本框架还是一样----舞台,摄像头和渲染器。 之后用faceMaterial写一个6面颜色不一样的cube,并用27个这样的cube组成魔方的基本样子。 trackballControls是摄像头控制函数,加入可以用鼠......

three.js第二波,实现类似反应堆的游戏

一开始还就迷茫呢碰撞检测比较难,后来发现了physi.js。 也是在看three.js看到的一个库,用了web worker实现各种复杂的计算。 先点击这里看效果,手机电脑支持web worker(一般都支持)的都可以运行 初次加载看起来快,实际一个用于计算的ammo.js也有1.2M,只是他在后台加载。所以可能得等一会儿。 这个本应该有个onload的,不过目前还没有发现这个函数,之后有机......

初试web worker,感觉是神器

在做3d的时候偶然发现其中用了web worker,因为要做大量的运算,如果放在js的主单线程里就会让页面卡的不行。 不信可以运行下面的Fibonacci <!DOCTYPE html> <html lang="en"> <head>     <meta charset="UTF-8">     <title>web worker&......