自动化测试 | heyaohua's Blog

淘宝自动化框架选择方案 🎯 推荐方案：DrissionPage + 现有架构为什么选择 DrissionPage？专为中国网站设计针对淘宝、京东等电商网站优化内置常见反爬虫机制绕过国产框架，中文文档完善与现有架构完美融合可以直接使用现有的 requests session 支持与 mitmproxy 代理集成兼容现有的数据处理管道性能与易用性并存基于 Chromium 内核，性能优秀 API 设计简洁直观支持页面模式和 requests 模式切换 📊 框架对比分析特性 DrissionPage Playwright Selenium Requests-HTML 性能很快最快中等快反爬虫能力优秀优秀一般较弱淘宝适配优秀好一般较弱学习成本低中中低中文文档优秀一般好一般社区支持活跃活跃最大较小 🛠️ 技术实施路线阶段一：环境准备 # 安装 DrissionPage pip install DrissionPage # 安装备选方案（可选） pip install playwright pip install selenium 阶段二：基础集成创建 TaobaoAutomator 类集成现有的代理服务器实现基础的搜索和数据提取功能阶段三：高级功能反爬虫策略优化数据清洗和存储错误处理和重试机制阶段四：性能优化并发处理资源管理监控和日志 💡 备选方案方案 A：纯 Playwright（如果团队技术能力强）性能最佳功能最全面需要较多学习时间方案 B：Selenium（如果需要最大兼容性）社区资源最丰富兼容性最好性能相对较慢方案 C：混合方案 DrissionPage 处理复杂交互 requests 处理简单API调用 mitmproxy 处理数据截取 🎪 具体实现示例 DrissionPage 基础用法 from DrissionPage import ChromiumPage # 创建页面对象 page = ChromiumPage() # 访问淘宝 page.get('https://www.taobao.com') # 搜索商品 search_box = page.ele('#q') search_box.input('手机') search_box.after().click() # 获取商品信息 products = page.eles('.item') for product in products: title = product.ele('.title').text price = product.ele('.price').text print(f"{title}: {price}") 与现有架构集成 from DrissionPage import ChromiumPage from crawler.gateway.proxy_server import ProxyServer class TaobaoAutomator: def __init__(self): # 启动代理服务器 self.proxy_server = ProxyServer() # 配置 DrissionPage 使用代理 self.page = ChromiumPage() self.page.set.proxy(f'127.0.0.1:{self.proxy_server.port}') def search_products(self, keyword): # 实现搜索逻辑 pass 🔧 技术要点代理集成：确保自动化框架使用现有的代理服务器数据同步：截取的API数据与页面数据关联反爬虫：实现用户行为模拟和请求间隔控制错误处理：网络异常、页面变化等情况的处理 📈 预期效果开发效率提升 50%：相比从零开始数据质量提升：结合API和页面数据稳定性增强：多重反爬虫策略维护成本降低：统一的架构设计

在电商时代，图片搜索已经成为用户发现商品的重要方式。作为开发者，我经常需要为客户批量搜索相似商品并生成报告。手动操作不仅效率低下，还容易出错。于是，我决定开发一个自动化系统来解决这个问题。项目目标批量处理图片搜索自动提取商品数据生成包含图片的Excel报告自动发送邮件通知完整的错误处理和日志记录技术选型自动化框架：DrissionPage 经过对比Selenium、Playwright等框架，我选择了DrissionPage：专为中国网站优化反爬虫能力强对淘宝等国内电商支持好数据拦截：mitmproxy 能够拦截HTTPS流量支持自定义插件适合API数据提取数据处理 Pandas：数据处理 openpyxl：Excel操作 Pillow：图片处理核心功能实现 1. 图片搜索自动化 def search_by_image(self, image_path: str): """图片搜索功能""" # 1. 打开淘宝首页 self.browser.get('https://www.taobao.com') # 2. 点击搜同款按钮 search_button = self.browser.ele('css:.image-search-icon-wrapper') search_button.click() # 3. 上传图片 file_input = self.browser.ele('css:#image-search-custom-file-input') file_input.input(image_path) # 4. 等待上传完成并搜索 self._wait_for_upload_complete() search_btn = self.browser.ele('css:#image-search-upload-button') search_btn.click() # 5. 提取商品数据 return self._extract_products_from_page() 2. 数据拦截与提取通过mitmproxy拦截淘宝API响应，提取商品信息： def response(flow: http.HTTPFlow) -> None: """拦截API响应""" if 'h5api.m.taobao.com' in flow.request.pretty_url: content = flow.response.text # 解析JSONP响应，提取商品数据 data = parse_jsonp_response(content) save_to_file(data) 3. Excel报告生成生成多Sheet的Excel文件，包含压缩图片： ...