智能时代的工作革命
今日阴雨,主线任务不算紧迫,趁机完成了一项支线工作。此事酝酿已久,若全凭手动操作,耗时至少一个月。午间借助豆包与 Deepseek ,全程约三小时即达成目标,其中筹备、构思与备选方案占用两个半小时,实际执行仅二十余秒。
记录此番经历,冀望能引发诸位些许思考。
整个流程分两条路径推进,其一为工作电脑自行部署 Python 环境,其二为向豆包与 Deepseek 寻求解决之道。双线并行展开。
初始安装 Python 时,选用了 Python install manager 26.3 ,此乃官方推出的统一化安装及多版本管控工具,属标准规范,亦为未来唯一通路。然配置过程略感繁琐,且核查 pip 版本时报错,遂卸载后重装 Python 3.14.6.exe ,方可正常使用。
待各类库配置完毕,豆包与 DS 早已输出方案。我向二者抛出同一问题:“本人无编程基础,望协助生成一段可执行的 python 代码,用于抓取某固定网站页面数据,https://www.某某域名.com/Shop/Index?page=*,仅 page= 后参数变动,约数百页。需提取名称、地址、电话、简介,并自动存入 excel 表格,可有现成可行方案?因不谙代码,务求简易。”
豆包最初提供 requests bs4 pandas 及 openpyxl 方案。首次运行返回空数据,随后给出 debug,查明网站设反爬机制,存在 TLS 指纹(JA3)检测,继而以 curl_cffi 规避,仍未成功,回传数据依旧为空。
随后携新问题咨询 DS ,其 debug 显示 TLS 指纹伪装已然成功,然店铺名称经由 JS 动态渲染,须借助无头浏览器应对。将网站 HTML 结构同时提交两大 AI 模型,最终达成一致的解决路径:以真实浏览器内核加载页面,仿真手动加载流程。即 playwright 方案。
此方案我并未采纳。一则耗时过久,二则后台运行将占用内存,影响其他工作。遂萌生另辟蹊径之念:本地化处置。
继续追问豆包:“尝试换种方法,现本地已存有该网页静态 html 文件,以 python 读取本地文件,从中提取 HTML 结构内的店铺信息,完全离线运行,是否可行?”
所幸豆包给出的首种方法即实现预期效果,且提供单文件测试与多文件批量处理两套代码,思路逻辑清晰明了。仅需 bs4 与 pandas 两个库。
得益于平日浏览网页时随手保存有价值页面的习惯,py 执行文件仅运行二十余秒,便收获理想结果。
教主(@t0mbkeeper)言:
“ AI 起初是理科生之困,继而演变为文科生之困。甚或可能经历文科生亦难以为继的阶段。然归根结底,终归于理科生之困。”
三年前,美国已有企业招募“Prompt Engineer”(提示工程师),年薪约三十万美金加股权,无需计算机专业出身。其核心职责在于高效向人工智能发问,以获取更优输出。AI 已然破除非专业人士难以理解程序代码之壁垒,所余唯有想象力。
请系好安全带,前路征程,速率或将超乎预期。