中考数据像乱码?78年老码农用AI“编译”出择校指南(上)

四季读书网 2026-01-29 23:55:35 19 0

儿子今年中考，我对着Excel里几十所学校、上百项指标——分数线、升学率、师资配比、交通距离——头一次觉得，数据比生产环境的日志还难 parse。

我是老沈，78年出生，码龄二十多年。现在在上海一家大集团搞系统维稳，业余时间接点技术散单，弄了个公众号叫 「几两碎银点亮三千梦想」。你们可以叫我沈工。

前几天，一个老同事找我喝酒，三杯下肚就开始叹气：“老沈，帮帮忙，我快被中考择校的数据搞疯了。”他掏出手机，给我看那些密密麻麻的表格、互相矛盾的论坛帖、还有各种“内部消息”截图。“这比看核心 dump 文件还晕，”他苦笑，“我就想给我闺女找个合适的学校，怎么感觉比当年调通一个分布式系统还难？”

我听了，心头一紧。这感觉我懂，就像当年考试交卷前突然发现漏了一整道大题。数据堆在那里，没有结构，没有关联，没有洞察，就是一堆无法运行的“死代码”。

那一晚，浦东张江的咖啡馆里，听着服务器般低鸣的空调声，我盯着他手机屏幕上那些杂乱的数据，一个念头冒了出来：为什么不能用我们处理系统问题的方式，来处理择校问题？

我们这代人学电脑，那真是“手工时代”。1999年，我用VB写了第一个窗口程序，那个点下按钮弹出“Hello World”的瞬间，兴奋得像打开了新世界。后来一路从C++、Java啃到现在的K8s和Python，技术栈换了一茬又一茬。就像从DOS一下子跳进了Windows XP，界面、逻辑、玩法全变了。

但有些东西没变。那就是面对混乱时，总想给它建立秩序；面对问题，总想找到一个可复用的解法。早年在机房听着服务器轰鸣改bug，现在在家对着静音的NAS跑脚本，那份对逻辑和数据的执念，一直没丢。

所以，当我看到那些择校数据，职业病立刻就犯了。这难道不是一个典型的 “多源异构数据整合与可视化决策支持” 项目吗？（笑）说人话就是：信息太散、太乱、太主观，需要清洗、关联，然后变成人能一眼看懂的东西。

第一步，收集数据。这事儿要是放十年前，得泡在教育局网站、学校主页、各种论坛里手动扒，效率低还容易错。但现在，不一样了。

（ai整理的数据还有些问题，还要再校验和清洗）

我翻了翻我的“工具箱”。自学AI那会儿，啃论文、刷GitHub，跟当年学Java时翻烂《Thinking in Java》的感觉很像，只不过现在“书页”变成了滚动更新的代码库。我决定用AI来当我的“数据采集工程师”。

我用Python写了几个爬虫脚本（现在学Python，我儿子老笑我，说我写的代码有股C++的醇厚味儿），让它们去跑官方发布的历年分数线、学校介绍、公开的师资数据。但光有官方数据不够，那些散落在家长论坛、小红书、公众号文章里的“用户体验”——校园氛围、食堂味道、老师是否负责——这些非结构化信息，才是真正的价值所在。

这里就得请出大语言模型了。我写了一套提示词（Prompt），教AI去阅读海量的家长评论，从中提取关键词、判断情感倾向（是夸还是吐槽）、归并同类项。这活儿，就像训练一个刚入职的实习生，你得告诉它：看到“作业多到哭”要标记为“学业压力”，看到“老师放学后还答疑”要标记为“师资负责”。

这个过程挺有意思。AI不像人，会累、会烦、会主观。它一夜之间就能读完几千条评论，并试图理解“彩虹屁”和真心夸奖的区别。当然，它也会犯傻，需要不断调整“提示词”这个指挥棒。这感觉，有点像2003年我捣鼓QQ机器人那会儿，半夜爬起来改代码，屏幕的蓝光照亮出租屋，就为了让它能更“智能”地回一句话。

几天下来，数据仓库渐渐满了。有规整的结构化数据，也有经过提炼的、带标签的非结构化洞察。一堆 raw data，终于被清洗、打标，变成了初步可用的“原材料”。

数据有了，但怎么用？下篇，我会聊聊如何用这些数据“搭积木”，快速构建一个能给家长提供直观参考的“择校信息站”。我会用到一些更“极客”但也更高效的办法，比如低代码平台和AI辅助编程，目标是48小时内，让一个能跑、能看、能用的网站上线。

技术人的中年，有时候觉得自己像个即将过时的API。但转念一想，经验这玩意儿，它不好“容器化”迁移啊，侬晓得伐？ 用二十多年积攒的逻辑、对数据的敏感，加上新时代的AI工具，去解决一个具体的、让人头疼的生活问题——这本身，就挺有成就感的。

儿子总说我，“爸，你修电脑的。”（他作文真这么写过，我心里五味杂陈）这次，我想用代码，修一修信息不对称的“bug”。

数据已经备好，架构图正在绘制。下篇，我们开工建站。如果你也为信息爆炸而焦虑，不妨点个关注，咱们一起看看，代码能不能堆出生活的屋檐。

沈工实验室20年码农/10年运维/QQ机器人鼻祖早期探索者用技术逻辑，解生活难题

（下篇预告：无需熬夜，AI辅助 coding，48小时极速部署你的个人择校数据平台。）