ziYang Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 工具
    短链接 面试题库 在线工具 随机图片

五八同城租房爬虫 项目总结

项目概览 目标:抓取 58 同城租房详情页信息,并入库 Oracle。 语言/版本:Python 2.7 模块分层: 入口:run.py 启动任务 抓取调度:reptile_58.py(分页、链接提取、重试与限速) 网络请求:python_web.py(urllib2 + UA 伪装) 解析入库:regexp_house.py(正则解析)→ insert_oracle.py → py_o
2018-10-27
后端编程相关 > python > python2基础
#Python #Python2.7

pip 安装与依赖管理

适用范围:Python 2.7 环境。 安装 pip 在线安装: 123python get-pip.pypython -m pip --versionpython -m pip install -U "pip<21" # 固定到兼容 2.7 的版本 离线(无网/内网) 先安装 setuptools: 12# 解压 setuptools-*.ta
2018-10-24
后端编程相关 > python > python2基础
#Python #Python2.7

Day10 学习笔记

爬虫整体流程(分页 → 列表页 → 详情页 → 入库) 核心步骤: 构造请求(带 User-Agent)获取 HTML 在列表页提取详情链接集合 逐个请求详情页并用正则提取字段 组织结构化数据并写入数据库(或文件) 请求与伪装头 使用 urllib2 构造带 UA 的请求,读取页面源码: 123456789import urllib2headers = {"User-A
2018-10-24
后端编程相关 > python > python2基础
#Python #Python2.7

Day09 学习笔记

线程同步:互斥锁 Lock 多线程访问共享资源时使用互斥锁,保证同一时间只有一个线程进入临界区。 123456789101112131415161718192021222324252627282930import threadingimport timelock = threading.Lock()class MyThread(threading.Thread): def __init__
2018-10-23
后端编程相关 > python > python2基础
#Python #Python2.7

Day08 学习笔记

输入与类型 使用 input() 接收键盘输入,并保留原有数据类型;打印其值与类型便于观察: 1234# input.pyc = input("请输入:")print cprint type(c) 线程基础(thread 模块) 通过 thread.start_new_thread(func, args) 启动轻量线程;主线程可 sleep 等待子线程执行完毕: 1234
2018-10-22
后端编程相关 > python > python2基础
#Python #Python2.7

Day07 学习笔记

面向对象基础 类与实例:使用 class 定义;通过构造函数 __init__(self, ...) 初始化实例属性。 类变量与实例变量: 类变量在所有实例间共享,如计数 empCount;通过 ClassName.var 或实例方法内部引用。 实例变量绑定在 self 上,如 self.name、self.salary。 常用内置属性:__doc__ 文档字符串、__dict__ 属性字典等
2018-10-21
后端编程相关 > python > python2基础
#Python #Python2.7

Day06 学习笔记

正则校验示例 身份编号:^(\d{18}|\d{17}X|\d{15})$ 说明:匹配 18 位纯数字、17 位数字 + 大写 X、或 15 位纯数字。 使用:m = re.match(pattern, s);匹配成功后 m.group() 取整段结果。 邮箱格式:^[0-9a-zA-Z_-]+@([0-9a-zA-Z]+\.)
2018-10-20
后端编程相关 > python > python2基础
#Python #Python2.7

Day05 学习笔记

正则表达式基础(re 模块) 核心方法: re.match(pattern, string):从开头匹配;不匹配则返回 None。 re.search(pattern, string):在任意位置查找首个匹配。 re.sub(pattern, repl, string):按模式替换为 repl。 常见元字符与语法: 字符类与简写:[aeiou]、[^aeiou]、\d(数字)/\w(
2018-10-17
后端编程相关 > python > python2基础
#Python #Python2.7

Day04 学习笔记

文件读写基础 打开文件:open(path, mode),常见模式: "r" 读;"w" 写(覆盖);"a" 追加; 读写结合:"r+"(读写,文件必须已存在); 二进制:在以上模式后加 b,如 "wb"。 基本属性与关闭:f.mode 查看模式,f.closed 查看是否关闭;操作完成后 f.
2018-10-16
后端编程相关 > python > python2基础
#Python #Python2.7

Day03 学习笔记

函数基础 定义与调用:def func(a, b): ...;通过函数名调用并传入参数。 文档字符串:定义体首行用字符串描述用途,便于帮助信息展示。 返回值:使用 return 返回结果;return 之后的语句不再执行。 函数内外打印:可在函数内打印过程信息,在外部接收并再打印结果以区分作用域。 参数类型 位置参数:按顺序传参,对应函数形参位置。 关键字参数:func(age=18, name
2018-10-15
后端编程相关 > python > python2基础
#Python #Python2.7
1…2223242526…28

搜索

Hexo Fluid
载入天数... 载入时分秒...
总访问量 次 总访客数 人