Python | heyaohua's Blog

淘宝自动化框架选择方案

淘宝自动化框架选择方案 🎯 推荐方案：DrissionPage + 现有架构为什么选择 DrissionPage？专为中国网站设计针对淘宝、京东等电商网站优化内置常见反爬虫机制绕过国产框架，中文文档完善与现有架构完美融合可以直接使用现有的 requests session 支持与 mitmproxy 代理集成兼容现有的数据处理管道性能与易用性并存基于 Chromium 内核，性能优秀 API 设计简洁直观支持页面模式和 requests 模式切换 📊 框架对比分析特性 DrissionPage Playwright Selenium Requests-HTML 性能很快最快中等快反爬虫能力优秀优秀一般较弱淘宝适配优秀好一般较弱学习成本低中中低中文文档优秀一般好一般社区支持活跃活跃最大较小 🛠️ 技术实施路线阶段一：环境准备 # 安装 DrissionPage pip install DrissionPage # 安装备选方案（可选） pip install playwright pip install selenium 阶段二：基础集成创建 TaobaoAutomator 类集成现有的代理服务器实现基础的搜索和数据提取功能阶段三：高级功能反爬虫策略优化数据清洗和存储错误处理和重试机制阶段四：性能优化并发处理资源管理监控和日志 💡 备选方案方案 A：纯 Playwright（如果团队技术能力强）性能最佳功能最全面需要较多学习时间方案 B：Selenium（如果需要最大兼容性）社区资源最丰富兼容性最好性能相对较慢方案 C：混合方案 DrissionPage 处理复杂交互 requests 处理简单API调用 mitmproxy 处理数据截取 🎪 具体实现示例 DrissionPage 基础用法 from DrissionPage import ChromiumPage # 创建页面对象 page = ChromiumPage() # 访问淘宝 page.get('https://www.taobao.com') # 搜索商品 search_box = page.ele('#q') search_box.input('手机') search_box.after().click() # 获取商品信息 products = page.eles('.item') for product in products: title = product.ele('.title').text price = product.ele('.price').text print(f"{title}: {price}") 与现有架构集成 from DrissionPage import ChromiumPage from crawler.gateway.proxy_server import ProxyServer class TaobaoAutomator: def __init__(self): # 启动代理服务器 self.proxy_server = ProxyServer() # 配置 DrissionPage 使用代理 self.page = ChromiumPage() self.page.set.proxy(f'127.0.0.1:{self.proxy_server.port}') def search_products(self, keyword): # 实现搜索逻辑 pass 🔧 技术要点代理集成：确保自动化框架使用现有的代理服务器数据同步：截取的API数据与页面数据关联反爬虫：实现用户行为模拟和请求间隔控制错误处理：网络异常、页面变化等情况的处理 📈 预期效果开发效率提升 50%：相比从零开始数据质量提升：结合API和页面数据稳定性增强：多重反爬虫策略维护成本降低：统一的架构设计

我用Python开发了一个淘宝图片搜索自动化系统

在电商时代，图片搜索已经成为用户发现商品的重要方式。作为开发者，我经常需要为客户批量搜索相似商品并生成报告。手动操作不仅效率低下，还容易出错。于是，我决定开发一个自动化系统来解决这个问题。项目目标批量处理图片搜索自动提取商品数据生成包含图片的Excel报告自动发送邮件通知完整的错误处理和日志记录技术选型自动化框架：DrissionPage 经过对比Selenium、Playwright等框架，我选择了DrissionPage：专为中国网站优化反爬虫能力强对淘宝等国内电商支持好数据拦截：mitmproxy 能够拦截HTTPS流量支持自定义插件适合API数据提取数据处理 Pandas：数据处理 openpyxl：Excel操作 Pillow：图片处理核心功能实现 1. 图片搜索自动化 def search_by_image(self, image_path: str): """图片搜索功能""" # 1. 打开淘宝首页 self.browser.get('https://www.taobao.com') # 2. 点击搜同款按钮 search_button = self.browser.ele('css:.image-search-icon-wrapper') search_button.click() # 3. 上传图片 file_input = self.browser.ele('css:#image-search-custom-file-input') file_input.input(image_path) # 4. 等待上传完成并搜索 self._wait_for_upload_complete() search_btn = self.browser.ele('css:#image-search-upload-button') search_btn.click() # 5. 提取商品数据 return self._extract_products_from_page() 2. 数据拦截与提取通过mitmproxy拦截淘宝API响应，提取商品信息： def response(flow: http.HTTPFlow) -> None: """拦截API响应""" if 'h5api.m.taobao.com' in flow.request.pretty_url: content = flow.response.text # 解析JSONP响应，提取商品数据 data = parse_jsonp_response(content) save_to_file(data) 3. Excel报告生成生成多Sheet的Excel文件，包含压缩图片： ...

MySQL与PostgreSQL全面对比与压测方案

一、MySQL与PostgreSQL对比分析背景与概述 MySQL长期因轻量和高性能占市场主导，PostgreSQL凭借先进特性和稳定性近年快速崛起，尤其在云原生和复杂业务需求场景中表现出色。核心技术对比特性 MySQL PostgreSQL 数据一致性 MVCC，读已提交隔离，异步复制完备MVCC，默认可重复读，逻辑/流复制 SQL标准兼容与扩展支持有限，扩展围绕存储引擎几乎完整支持SQL标准，支持丰富扩展性能优化读写分离，高并发读优势并行查询，分区表，分布式支持日益完善 PostgreSQL使用度超MySQL原因业务需求提升，复杂事务、分析需求增多社区活跃，插件和扩展丰富云服务快速支持，官方生态发展强劲大型企业和专业领域采用增多未来前景数据库优势场景未来发展方向 MySQL 简单高并发读写，Web应用高可用分布式，云原生集成 PostgreSQL 复杂事务，BI报表，地理空间原生分布式，多模扩展，SQL标准领先二、Python数据库操作用例原生驱动 MySQL (PyMySQL) import pymysql conn = pymysql.connect(host='localhost', user='user', password='password', database='testdb') cursor = conn.cursor() cursor.execute("CREATE TABLE IF NOT EXISTS users (id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR(100), email VARCHAR(100) UNIQUE)") cursor.execute("INSERT INTO users (name, email) VALUES (%s, %s)", ('Alice', '[email protected]')) conn.commit() cursor.execute("SELECT * FROM users") print(cursor.fetchall()) cursor.close() conn.close() PostgreSQL (psycopg2) import psycopg2 conn = psycopg2.connect(host='localhost', user='user', password='password', dbname='testdb') cursor = conn.cursor() cursor.execute("CREATE TABLE IF NOT EXISTS users (id SERIAL PRIMARY KEY, name TEXT, email TEXT UNIQUE)") cursor.execute("INSERT INTO users (name, email) VALUES (%s, %s)", ('Bob', '[email protected]')) conn.commit() cursor.execute("SELECT * FROM users") print(cursor.fetchall()) cursor.close() conn.close() ORM 示例：SQLAlchemy from sqlalchemy import create_engine, Column, Integer, String from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker Base = declarative_base() class User(Base): __tablename__ = 'users' id = Column(Integer, primary_key=True) name = Column(String(100)) email = Column(String(100), unique=True) DATABASE_URL = 'postgresql+psycopg2://user:password@localhost:5432/testdb' engine = create_engine(DATABASE_URL) Session = sessionmaker(bind=engine) session = Session() Base.metadata.create_all(engine) new_user = User(name='Carol', email='[email protected]') session.add(new_user) session.commit() users = session.query(User).all() for u in users: print(u.id, u.name, u.email) session.close() 三、数据库压测方案压测总体流程环境准备：部署数据库和测试客户端场景设计：包含OLTP、高并发读写、复杂查询等基线测试：默认配置性能测量参数调优：调整配置重复测试结果分析：整理吞吐、延迟和资源利用数据自动化脚本：支持快速复用主要压测工具与命令示例 Sysbench（MySQL） sysbench oltp_read_write \ --db-driver=mysql \ --mysql-host=DB_HOST \ --mysql-user=testuser \ --mysql-password=secret \ --mysql-db=testdb \ --tables=10 \ --table-size=1000000 \ prepare sysbench oltp_read_write --threads=100 --time=300 run sysbench oltp_read_write cleanup pgbench（PostgreSQL） pgbench -h DB_HOST -U testuser -d testdb -i -s 1000 pgbench -h DB_HOST -U testuser -d testdb -c 100 -T 300 -j 4 自定义Python异步压测示例 import asyncio import aiomysql DB_CONFIG = dict(host='DB_HOST', user='testuser', password='secret', db='testdb', minsize=10, maxsize=100) async def task(pool): async with pool.acquire() as conn: async with conn.cursor() as cur: await cur.execute("SELECT COUNT(*) FROM orders WHERE status='pending'") await cur.fetchone() await cur.execute("UPDATE users SET last_login=NOW() WHERE id=%s", (1,)) async def run_load(concurrency, duration): pool = await aiomysql.create_pool(**DB_CONFIG) end_time = asyncio.get_event_loop().time() + duration sem = asyncio.Semaphore(concurrency) async def worker(): async with sem: while asyncio.get_event_loop().time() < end_time: await task(pool) await asyncio.gather(*[worker() for _ in range(concurrency)]) pool.close() await pool.wait_closed() asyncio.run(run_load(concurrency=50, duration=300)) 四、一体化压测脚本模板 #!/bin/bash DB_TYPE=${1:-mysql} DB_HOST="127.0.0.1" DB_PORT_MYSQL=3306 DB_PORT_PG=5432 DB_USER="testuser" DB_PASS="secret" DB_NAME="testdb" CONCURRENCY=(10 50 100) DURATION=120 SCALE=100 function bench_mysql() { sysbench oltp_read_write \ --threads=$1 \ --time=$DURATION \ --db-driver=mysql \ --mysql-host=$DB_HOST \ --mysql-port=$DB_PORT_MYSQL \ --mysql-user=$DB_USER \ --mysql-password=$DB_PASS \ --mysql-db=$DB_NAME run | tee mysql_${1}c.log } function bench_pgsql() { pgbench -h $DB_HOST -p $DB_PORT_PG -U $DB_USER -d $DB_NAME -c $1 -T $DURATION -j $(nproc) | tee pg_${1}c.log } if [[ $DB_TYPE == "pgsql" ]]; then pgbench -h $DB_HOST -p $DB_PORT_PG -U $DB_USER -d $DB_NAME -i -s $SCALE fi for c in "${CONCURRENCY[@]}"; do if [[ $DB_TYPE == "mysql" ]]; then bench_mysql $c else bench_pgsql $c fi done echo "压测完成，查看 *_c.log 文件" 五、压测结果分析与扩展建议提取日志中的TPS、延迟等数据，生成CSV 使用图表工具（Excel，Grafana，Matplotlib）绘制性能曲线根据业务需求调整读写比、复杂查询和分布式架构测试可集成监控系统，实现实时资源指标采样以上内容系统梳理了MySQL与PostgreSQL的技术对比，Python数据库操作示例，以及一整套可执行的数据库压测方案与脚本，便于用户快速搭建测试环境，评估性能，指导优化与选型。

Python开发小技巧分享

日常开发中，掌握一些高频技巧能够明显提升代码质量与效率。本文整理了五个常用的小窍门，并配以示例代码，便于在项目中直接应用。 1. 善用列表推导式列表推导式可以将循环与条件判断浓缩到一行，既简洁又易读： # 传统写法 squares = [] for x in range(10): squares.append(x**2) # 列表推导式 squares = [x**2 for x in range(10)] # 搭配条件过滤 even_squares = [x**2 for x in range(10) if x % 2 == 0] 2. 使用 dict.get 提升容错性通过 dict.get 读取字典时，可定义默认值，避免 KeyError 并简化分支逻辑： # 可能抛出 KeyError user_name = user_dict['name'] # 更稳健的写法 user_name = user_dict.get('name', 'Unknown') 3. 搭配 enumerate 获取索引 enumerate 能在遍历序列时同时获得索引和值，避免手动维护计数器： fruits = ['apple', 'banana', 'orange'] for index, fruit in enumerate(fruits, start=1): print(f"{index}. {fruit}") 4. 用 zip 打包多组数据当需要并行遍历多个可迭代对象时，zip 能有效避免索引操作： ...