
儿子今年中考,我对着Excel里几十所学校、上百项指标——分数线、升学率、师资配比、交通距离——头一次觉得,数据比生产环境的日志还难 parse。
我是老沈,78年出生,码龄二十多年。现在在上海一家大集团搞系统维稳,业余时间接点技术散单,弄了个公众号叫 「几两碎银点亮三千梦想」。你们可以叫我沈工。
前几天,一个老同事找我喝酒,三杯下肚就开始叹气:“老沈,帮帮忙,我快被中考择校的数据搞疯了。”他掏出手机,给我看那些密密麻麻的表格、互相矛盾的论坛帖、还有各种“内部消息”截图。“这比看核心 dump 文件还晕,”他苦笑,“我就想给我闺女找个合适的学校,怎么感觉比当年调通一个分布式系统还难?”
我听了,心头一紧。这感觉我懂,就像当年考试交卷前突然发现漏了一整道大题。数据堆在那里,没有结构,没有关联,没有洞察,就是一堆无法运行的“死代码”。
那一晚,浦东张江的咖啡馆里,听着服务器般低鸣的空调声,我盯着他手机屏幕上那些杂乱的数据,一个念头冒了出来:为什么不能用我们处理系统问题的方式,来处理择校问题?
我们这代人学电脑,那真是“手工时代”。1999年,我用VB写了第一个窗口程序,那个点下按钮弹出“Hello World”的瞬间,兴奋得像打开了新世界。后来一路从C++、Java啃到现在的K8s和Python,技术栈换了一茬又一茬。就像从DOS一下子跳进了Windows XP,界面、逻辑、玩法全变了。
但有些东西没变。那就是面对混乱时,总想给它建立秩序;面对问题,总想找到一个可复用的解法。早年在机房听着服务器轰鸣改bug,现在在家对着静音的NAS跑脚本,那份对逻辑和数据的执念,一直没丢。
所以,当我看到那些择校数据,职业病立刻就犯了。这难道不是一个典型的 “多源异构数据整合与可视化决策支持” 项目吗?(笑)说人话就是:信息太散、太乱、太主观,需要清洗、关联,然后变成人能一眼看懂的东西。
第一步,收集数据。这事儿要是放十年前,得泡在教育局网站、学校主页、各种论坛里手动扒,效率低还容易错。但现在,不一样了。

我翻了翻我的“工具箱”。自学AI那会儿,啃论文、刷GitHub,跟当年学Java时翻烂《Thinking in Java》的感觉很像,只不过现在“书页”变成了滚动更新的代码库。我决定用AI来当我的“数据采集工程师”。
我用Python写了几个爬虫脚本(现在学Python,我儿子老笑我,说我写的代码有股C++的醇厚味儿),让它们去跑官方发布的历年分数线、学校介绍、公开的师资数据。但光有官方数据不够,那些散落在家长论坛、小红书、公众号文章里的“用户体验”——校园氛围、食堂味道、老师是否负责——这些非结构化信息,才是真正的价值所在。
这里就得请出大语言模型了。我写了一套提示词(Prompt),教AI去阅读海量的家长评论,从中提取关键词、判断情感倾向(是夸还是吐槽)、归并同类项。这活儿,就像训练一个刚入职的实习生,你得告诉它:看到“作业多到哭”要标记为“学业压力”,看到“老师放学后还答疑”要标记为“师资负责”。
这个过程挺有意思。AI不像人,会累、会烦、会主观。它一夜之间就能读完几千条评论,并试图理解“彩虹屁”和真心夸奖的区别。当然,它也会犯傻,需要不断调整“提示词”这个指挥棒。这感觉,有点像2003年我捣鼓QQ机器人那会儿,半夜爬起来改代码,屏幕的蓝光照亮出租屋,就为了让它能更“智能”地回一句话。
几天下来,数据仓库渐渐满了。有规整的结构化数据,也有经过提炼的、带标签的非结构化洞察。一堆 raw data,终于被清洗、打标,变成了初步可用的“原材料”。
数据有了,但怎么用?下篇,我会聊聊如何用这些数据“搭积木”,快速构建一个能给家长提供直观参考的“择校信息站”。我会用到一些更“极客”但也更高效的办法,比如低代码平台和AI辅助编程,目标是48小时内,让一个能跑、能看、能用的网站上线。
技术人的中年,有时候觉得自己像个即将过时的API。但转念一想,经验这玩意儿,它不好“容器化”迁移啊,侬晓得伐? 用二十多年积攒的逻辑、对数据的敏感,加上新时代的AI工具,去解决一个具体的、让人头疼的生活问题——这本身,就挺有成就感的。
儿子总说我,“爸,你修电脑的。”(他作文真这么写过,我心里五味杂陈)这次,我想用代码,修一修信息不对称的“bug”。
数据已经备好,架构图正在绘制。下篇,我们开工建站。如果你也为信息爆炸而焦虑,不妨点个关注,咱们一起看看,代码能不能堆出生活的屋檐。
沈工实验室20年码农/10年运维/QQ机器人鼻祖早期探索者用技术逻辑,解生活难题
(下篇预告:无需熬夜,AI辅助 coding,48小时极速部署你的个人择校数据平台。)
--end--
用你发财的小手点几下,给我一点点支持!

部分图片来自网络,侵删
欢迎发私信"沈工",加我好友。