Playwright | heyaohua's Blog

淘宝自动化框架选择方案 🎯 推荐方案：DrissionPage + 现有架构为什么选择 DrissionPage？专为中国网站设计针对淘宝、京东等电商网站优化内置常见反爬虫机制绕过国产框架，中文文档完善与现有架构完美融合可以直接使用现有的 requests session 支持与 mitmproxy 代理集成兼容现有的数据处理管道性能与易用性并存基于 Chromium 内核，性能优秀 API 设计简洁直观支持页面模式和 requests 模式切换 📊 框架对比分析特性 DrissionPage Playwright Selenium Requests-HTML 性能很快最快中等快反爬虫能力优秀优秀一般较弱淘宝适配优秀好一般较弱学习成本低中中低中文文档优秀一般好一般社区支持活跃活跃最大较小 🛠️ 技术实施路线阶段一：环境准备 # 安装 DrissionPage pip install DrissionPage # 安装备选方案（可选） pip install playwright pip install selenium 阶段二：基础集成创建 TaobaoAutomator 类集成现有的代理服务器实现基础的搜索和数据提取功能阶段三：高级功能反爬虫策略优化数据清洗和存储错误处理和重试机制阶段四：性能优化并发处理资源管理监控和日志 💡 备选方案方案 A：纯 Playwright（如果团队技术能力强）性能最佳功能最全面需要较多学习时间方案 B：Selenium（如果需要最大兼容性）社区资源最丰富兼容性最好性能相对较慢方案 C：混合方案 DrissionPage 处理复杂交互 requests 处理简单API调用 mitmproxy 处理数据截取 🎪 具体实现示例 DrissionPage 基础用法 from DrissionPage import ChromiumPage # 创建页面对象 page = ChromiumPage() # 访问淘宝 page.get('https://www.taobao.com') # 搜索商品 search_box = page.ele('#q') search_box.input('手机') search_box.after().click() # 获取商品信息 products = page.eles('.item') for product in products: title = product.ele('.title').text price = product.ele('.price').text print(f"{title}: {price}") 与现有架构集成 from DrissionPage import ChromiumPage from crawler.gateway.proxy_server import ProxyServer class TaobaoAutomator: def __init__(self): # 启动代理服务器 self.proxy_server = ProxyServer() # 配置 DrissionPage 使用代理 self.page = ChromiumPage() self.page.set.proxy(f'127.0.0.1:{self.proxy_server.port}') def search_products(self, keyword): # 实现搜索逻辑 pass 🔧 技术要点代理集成：确保自动化框架使用现有的代理服务器数据同步：截取的API数据与页面数据关联反爬虫：实现用户行为模拟和请求间隔控制错误处理：网络异常、页面变化等情况的处理 📈 预期效果开发效率提升 50%：相比从零开始数据质量提升：结合API和页面数据稳定性增强：多重反爬虫策略维护成本降低：统一的架构设计

本文介绍基于 Playwright 封装的抖音长截图服务，涵盖能力范围、接口设计、使用范例以及性能调优建议，便于快速集成到现有业务系统中。服务概述核心功能已经封装在 app/services/playwright_service.py 中，经过大量测试验证，推荐使用的默认参数如下：滚动距离：1000 px 底部裁剪：300 px 平均截图数量：4–5 张平均文件大小：2–4 MB GitHub 仓库：https://github.com/heyaohua/douyin_screenshot_service 核心能力移动端模拟：完整模拟 iPhone 设备视口与 UA 智能滚动：自动识别内部滚动容器并控制节奏懒加载处理：触发页面动态内容渲染图像拼接：裁剪重叠区域，生成无缝长图错误处理：封装异常重试、日志与超时机制主要接口 take_long_screenshot(url, output_dir="screenshots") url：待截图抖音页面 URL output_dir：输出目录（默认 screenshots）返回值示例： { "success": True, "output_path": "screenshots/douyin_long_screenshot_20250916_135333.png", "screenshot_count": 4, "total_height": 9228, "file_size": 2764800, "original_url": "https://v.douyin.com/...", "current_url": "https://haohuo.jinritemai.com/...", "title": "页面标题" } HTTP API 设计长截图接口请求：POST /douyin/long-screenshot 请求体： { "url": "https://v.douyin.com/Zdo3P7Zv51o/" } 响应： { "message": "长截图完成", "data": { "success": true, "output_path": "screenshots/douyin_long_screenshot_20250916_135333.png", "screenshot_count": 4, "total_height": 9228, "file_size": 2764800 } } 测试接口请求：POST /douyin/test-long-screenshot 说明：使用预设 URL 触发一次完整流程，便于巡检。使用示例服务内调用 from app.services.playwright_service import playwright_service async def example(): await playwright_service.initialize() result = await playwright_service.take_long_screenshot( url="https://v.douyin.com/Zdo3P7Zv51o/", output_dir="screenshots" ) if result["success"]: print(f"截图完成: {result['output_path']}") print(f"截图数量: {result['screenshot_count']}") print(f"总高度: {result['total_height']}px") await playwright_service.close() HTTP API 调用 curl -X POST "http://localhost:8000/douyin/long-screenshot" \ -H "Content-Type: application/json" \ -d '{"url": "https://v.douyin.com/Zdo3P7Zv51o/"}' curl -X POST "http://localhost:8000/douyin/test-long-screenshot" 本地测试脚本 cd tests python test_service.py 性能指标滚动距离截图数量平均文件大小效率评估 1000 px 4–5 张 2.6–3.7 MB ⭐⭐⭐⭐⭐ 推荐参数 900 px 6 张 4.6 MB ⭐⭐⭐⭐ 800 px 6 张 4.3 MB ⭐⭐⭐ 700 px 7 张 5.0 MB ⭐⭐ 600 px 8 张 5.7 MB ⭐ 目录结构 app/services/ ├── playwright_service.py # 主服务入口 │ ├── take_long_screenshot # 长截图方法 │ └── _stitch_screenshots # 图片拼接方法 app/api/ ├── douyin.py # HTTP API 定义 │ ├── /long-screenshot # 长截图接口 │ └── /test-long-screenshot # 测试接口 tests/ ├── test_service.py # 集成测试脚本 └── simple_douyin_test.py # 快速验证脚本运维与实践建议生命周期管理：调用前需执行 initialize()，结束后务必调用 close() 释放浏览器资源。目录权限：确保输出目录具备写权限，并定期清理历史截图。错误兜底：检查返回的 success 字段并结合日志定位问题。并发控制：视负载设置队列或限流，避免同时创建大量浏览器实例。监控告警：建议将成功率、耗时、文件大小等指标纳入监控系统。日志样例 2025-09-16 13:53:33,832 - INFO - 拼接图片尺寸: 1170 x 9228 2025-09-16 13:53:35,160 - INFO - ✅ 成功: True 2025-09-16 13:53:35,160 - INFO - 📊 截图数量: 4 2025-09-16 13:53:35,160 - INFO - 💾 文件大小: 2.64MB 成功案例 URL：https://v.douyin.com/Zdo3P7Zv51o/ 截图数量：4 张总高度：9228 px 文件大小：2.64 MB 处理时长：约 22 秒成功率：100% 如需深入定制或扩展能力，请参考仓库中的完整代码与测试用例。