开发工具 | heyaohua's Blog

淘宝自动化框架选择方案

淘宝自动化框架选择方案 🎯 推荐方案：DrissionPage + 现有架构为什么选择 DrissionPage？专为中国网站设计针对淘宝、京东等电商网站优化内置常见反爬虫机制绕过国产框架，中文文档完善与现有架构完美融合可以直接使用现有的 requests session 支持与 mitmproxy 代理集成兼容现有的数据处理管道性能与易用性并存基于 Chromium 内核，性能优秀 API 设计简洁直观支持页面模式和 requests 模式切换 📊 框架对比分析特性 DrissionPage Playwright Selenium Requests-HTML 性能很快最快中等快反爬虫能力优秀优秀一般较弱淘宝适配优秀好一般较弱学习成本低中中低中文文档优秀一般好一般社区支持活跃活跃最大较小 🛠️ 技术实施路线阶段一：环境准备 # 安装 DrissionPage pip install DrissionPage # 安装备选方案（可选） pip install playwright pip install selenium 阶段二：基础集成创建 TaobaoAutomator 类集成现有的代理服务器实现基础的搜索和数据提取功能阶段三：高级功能反爬虫策略优化数据清洗和存储错误处理和重试机制阶段四：性能优化并发处理资源管理监控和日志 💡 备选方案方案 A：纯 Playwright（如果团队技术能力强）性能最佳功能最全面需要较多学习时间方案 B：Selenium（如果需要最大兼容性）社区资源最丰富兼容性最好性能相对较慢方案 C：混合方案 DrissionPage 处理复杂交互 requests 处理简单API调用 mitmproxy 处理数据截取 🎪 具体实现示例 DrissionPage 基础用法 from DrissionPage import ChromiumPage # 创建页面对象 page = ChromiumPage() # 访问淘宝 page.get('https://www.taobao.com') # 搜索商品 search_box = page.ele('#q') search_box.input('手机') search_box.after().click() # 获取商品信息 products = page.eles('.item') for product in products: title = product.ele('.title').text price = product.ele('.price').text print(f"{title}: {price}") 与现有架构集成 from DrissionPage import ChromiumPage from crawler.gateway.proxy_server import ProxyServer class TaobaoAutomator: def __init__(self): # 启动代理服务器 self.proxy_server = ProxyServer() # 配置 DrissionPage 使用代理 self.page = ChromiumPage() self.page.set.proxy(f'127.0.0.1:{self.proxy_server.port}') def search_products(self, keyword): # 实现搜索逻辑 pass 🔧 技术要点代理集成：确保自动化框架使用现有的代理服务器数据同步：截取的API数据与页面数据关联反爬虫：实现用户行为模拟和请求间隔控制错误处理：网络异常、页面变化等情况的处理 📈 预期效果开发效率提升 50%：相比从零开始数据质量提升：结合API和页面数据稳定性增强：多重反爬虫策略维护成本降低：统一的架构设计

我用Python开发了一个淘宝图片搜索自动化系统

在电商时代，图片搜索已经成为用户发现商品的重要方式。作为开发者，我经常需要为客户批量搜索相似商品并生成报告。手动操作不仅效率低下，还容易出错。于是，我决定开发一个自动化系统来解决这个问题。项目目标批量处理图片搜索自动提取商品数据生成包含图片的Excel报告自动发送邮件通知完整的错误处理和日志记录技术选型自动化框架：DrissionPage 经过对比Selenium、Playwright等框架，我选择了DrissionPage：专为中国网站优化反爬虫能力强对淘宝等国内电商支持好数据拦截：mitmproxy 能够拦截HTTPS流量支持自定义插件适合API数据提取数据处理 Pandas：数据处理 openpyxl：Excel操作 Pillow：图片处理核心功能实现 1. 图片搜索自动化 def search_by_image(self, image_path: str): """图片搜索功能""" # 1. 打开淘宝首页 self.browser.get('https://www.taobao.com') # 2. 点击搜同款按钮 search_button = self.browser.ele('css:.image-search-icon-wrapper') search_button.click() # 3. 上传图片 file_input = self.browser.ele('css:#image-search-custom-file-input') file_input.input(image_path) # 4. 等待上传完成并搜索 self._wait_for_upload_complete() search_btn = self.browser.ele('css:#image-search-upload-button') search_btn.click() # 5. 提取商品数据 return self._extract_products_from_page() 2. 数据拦截与提取通过mitmproxy拦截淘宝API响应，提取商品信息： def response(flow: http.HTTPFlow) -> None: """拦截API响应""" if 'h5api.m.taobao.com' in flow.request.pretty_url: content = flow.response.text # 解析JSONP响应，提取商品数据 data = parse_jsonp_response(content) save_to_file(data) 3. Excel报告生成生成多Sheet的Excel文件，包含压缩图片： ...

macOS 终端利器 iTerm2 配置指南

iTerm2 是 macOS 上最强大的终端工具之一，本文将介绍如何安装和配置 iTerm2，让它成为你的得力助手。安装步骤 1. 安装 iTerm2 有两种安装方式：直接下载：从 iTerm2 官网下载，解压后拖到 Applications 目录使用 Homebrew： brew install --cask iterm2 2. 配置主题下载 Solarized Dark theme：http://ethanschoonover.com/solarized 打开 iTerm2 偏好设置：Command + , 进入 Profiles -> Colors -> Color Presets -> Import 导入下载的 Solarized Dark.itermcolors 文件选择 Solarized Dark 主题 3. 安装 Oh My Zsh 一键安装： sh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)" 设置 Zsh 为默认 Shell： chsh -s /bin/zsh 配置主题： vim ~/.zshrc # 修改 ZSH_THEME="agnoster" 4. 配置字体下载并安装 Meslo 字体：Meslo LG M Regular for Powerline.ttf iTerm2 配置：打开偏好设置：Command + , Profiles -> Text -> Font -> Change Font 选择 “Meslo LG M Regular for Powerline” 字体 5. 增强功能配置 5.1 语法高亮 # 安装 brew install zsh-syntax-highlighting # 配置 echo "source /usr/local/share/zsh-syntax-highlighting/zsh-syntax-highlighting.zsh" >> ~/.zshrc 5.2 自动补全 # 安装 git clone https://github.com/zsh-users/zsh-autosuggestions ~/.oh-my-zsh/custom/plugins/zsh-autosuggestions # 配置 vim ~/.zshrc # 在 plugins 中添加 zsh-autosuggestions plugins=(git zsh-autosuggestions zsh-syntax-highlighting) 5.3 快捷键配置左右键跳转：打开偏好设置：Command + , Profiles → Keys → Load Preset… → Natural Text Editing ...

抖音长截图服务使用说明

本文介绍基于 Playwright 封装的抖音长截图服务，涵盖能力范围、接口设计、使用范例以及性能调优建议，便于快速集成到现有业务系统中。服务概述核心功能已经封装在 app/services/playwright_service.py 中，经过大量测试验证，推荐使用的默认参数如下：滚动距离：1000 px 底部裁剪：300 px 平均截图数量：4–5 张平均文件大小：2–4 MB GitHub 仓库：https://github.com/heyaohua/douyin_screenshot_service 核心能力移动端模拟：完整模拟 iPhone 设备视口与 UA 智能滚动：自动识别内部滚动容器并控制节奏懒加载处理：触发页面动态内容渲染图像拼接：裁剪重叠区域，生成无缝长图错误处理：封装异常重试、日志与超时机制主要接口 take_long_screenshot(url, output_dir="screenshots") url：待截图抖音页面 URL output_dir：输出目录（默认 screenshots）返回值示例： { "success": True, "output_path": "screenshots/douyin_long_screenshot_20250916_135333.png", "screenshot_count": 4, "total_height": 9228, "file_size": 2764800, "original_url": "https://v.douyin.com/...", "current_url": "https://haohuo.jinritemai.com/...", "title": "页面标题" } HTTP API 设计长截图接口请求：POST /douyin/long-screenshot 请求体： { "url": "https://v.douyin.com/Zdo3P7Zv51o/" } 响应： { "message": "长截图完成", "data": { "success": true, "output_path": "screenshots/douyin_long_screenshot_20250916_135333.png", "screenshot_count": 4, "total_height": 9228, "file_size": 2764800 } } 测试接口请求：POST /douyin/test-long-screenshot 说明：使用预设 URL 触发一次完整流程，便于巡检。使用示例服务内调用 from app.services.playwright_service import playwright_service async def example(): await playwright_service.initialize() result = await playwright_service.take_long_screenshot( url="https://v.douyin.com/Zdo3P7Zv51o/", output_dir="screenshots" ) if result["success"]: print(f"截图完成: {result['output_path']}") print(f"截图数量: {result['screenshot_count']}") print(f"总高度: {result['total_height']}px") await playwright_service.close() HTTP API 调用 curl -X POST "http://localhost:8000/douyin/long-screenshot" \ -H "Content-Type: application/json" \ -d '{"url": "https://v.douyin.com/Zdo3P7Zv51o/"}' curl -X POST "http://localhost:8000/douyin/test-long-screenshot" 本地测试脚本 cd tests python test_service.py 性能指标滚动距离截图数量平均文件大小效率评估 1000 px 4–5 张 2.6–3.7 MB ⭐⭐⭐⭐⭐ 推荐参数 900 px 6 张 4.6 MB ⭐⭐⭐⭐ 800 px 6 张 4.3 MB ⭐⭐⭐ 700 px 7 张 5.0 MB ⭐⭐ 600 px 8 张 5.7 MB ⭐ 目录结构 app/services/ ├── playwright_service.py # 主服务入口 │ ├── take_long_screenshot # 长截图方法 │ └── _stitch_screenshots # 图片拼接方法 app/api/ ├── douyin.py # HTTP API 定义 │ ├── /long-screenshot # 长截图接口 │ └── /test-long-screenshot # 测试接口 tests/ ├── test_service.py # 集成测试脚本 └── simple_douyin_test.py # 快速验证脚本运维与实践建议生命周期管理：调用前需执行 initialize()，结束后务必调用 close() 释放浏览器资源。目录权限：确保输出目录具备写权限，并定期清理历史截图。错误兜底：检查返回的 success 字段并结合日志定位问题。并发控制：视负载设置队列或限流，避免同时创建大量浏览器实例。监控告警：建议将成功率、耗时、文件大小等指标纳入监控系统。日志样例 2025-09-16 13:53:33,832 - INFO - 拼接图片尺寸: 1170 x 9228 2025-09-16 13:53:35,160 - INFO - ✅ 成功: True 2025-09-16 13:53:35,160 - INFO - 📊 截图数量: 4 2025-09-16 13:53:35,160 - INFO - 💾 文件大小: 2.64MB 成功案例 URL：https://v.douyin.com/Zdo3P7Zv51o/ 截图数量：4 张总高度：9228 px 文件大小：2.64 MB 处理时长：约 22 秒成功率：100% 如需深入定制或扩展能力，请参考仓库中的完整代码与测试用例。

Python开发小技巧分享

日常开发中，掌握一些高频技巧能够明显提升代码质量与效率。本文整理了五个常用的小窍门，并配以示例代码，便于在项目中直接应用。 1. 善用列表推导式列表推导式可以将循环与条件判断浓缩到一行，既简洁又易读： # 传统写法 squares = [] for x in range(10): squares.append(x**2) # 列表推导式 squares = [x**2 for x in range(10)] # 搭配条件过滤 even_squares = [x**2 for x in range(10) if x % 2 == 0] 2. 使用 dict.get 提升容错性通过 dict.get 读取字典时，可定义默认值，避免 KeyError 并简化分支逻辑： # 可能抛出 KeyError user_name = user_dict['name'] # 更稳健的写法 user_name = user_dict.get('name', 'Unknown') 3. 搭配 enumerate 获取索引 enumerate 能在遍历序列时同时获得索引和值，避免手动维护计数器： fruits = ['apple', 'banana', 'orange'] for index, fruit in enumerate(fruits, start=1): print(f"{index}. {fruit}") 4. 用 zip 打包多组数据当需要并行遍历多个可迭代对象时，zip 能有效避免索引操作： ...