AI算命到底准不准?160道真题实测GPT-4o、DeepSeek等大模型命理水平!

四季读书网 2 0
AI算命到底准不准?160道真题实测GPT-4o、DeepSeek等大模型命理水平!

大模型能算命吗?这个问题终于有了一个严肃的答案。

最近 GitHub 上一个叫 MingLi-Bench 的项目火了,1138 颗星,专门用来评测大模型在中国传统命理领域的真实水平——不是随便聊聊星座那种,而是正儿八经的八字紫微斗数

这个项目最硬核的地方在于数据来源:2022-2025 年全球算命师大赛的真题

这些题目可不是网上随便编的,而是专业命理师们每年同台竞技用的标准化试题。每道题给出一个八字或紫微命盘,然后从多个选项中选出正确答案——事业走向如何、健康状况怎样、婚姻是否顺遂等等。

项目共收录了 160 道标准化多选题,覆盖了 12 个人生维度

  • • 事业、财运、健康、婚姻
  • • 子女、学业、父母、兄弟姐妹
  • • 出行、官非、性格、其他

怎么测?Chain-of-Thought + 星盘注入

评测设计很巧妙,分两个层次:

第一层:纯推理能力。 给模型题目和选项,看它能不能通过逻辑推理选出正确答案。使用 Chain-of-Thought 提示,让模型逐步分析。

第二层:排盘 + 推理。 加上 --astro 参数后,模型需要先根据出生时间排出八字或紫微命盘,再进行推理。这一步考验的是模型对命理学基础知识的掌握程度——排盘错了,后面推理再强也没用。

为了防止模型"蒙对",项目还做了选项随机化处理,避免位置偏差影响结果。

支持哪些模型?

目前支持市面上主流的大模型:

  • • OpenAI GPT-4o
  • • Anthropic Claude 系列
  • • Google Gemini
  • • DeepSeek
  • • 字节跳动 豆包

通过 OpenRouter 统一调用,也支持直接使用各家的原生 API。想加新模型也很方便。

跑一次试试

# 克隆项目git clone https://github.com/DestinyLinker/MingLi-Bench.gitcd MingLi-Bench# 安装依赖pip install -r requirements.txt# 基础评测(纯推理)python run_bench.py --model gpt-4o# 带星盘注入的评测(排盘 + 推理)python run_bench.py --model gpt-4o --astro# 按类别筛选python run_bench.py --model deepseek --category career# 按年份筛选python run_bench.py --model gemini --year 2024

为什么这个项目值得关注?

  1. 1. 评测标准化:命理领域长期缺乏客观评测标准,这个项目填补了空白
  2. 2. 数据来源权威:全球算命师大赛真题,不是随便编的题目
  3. 3. 设计科学:分离推理能力和排盘准确度,选项随机化防偏差
  4. 4. 文化价值:用现代 AI 技术系统评估传统文化领域,本身就有意义

不管你是 AI 研究者、命理爱好者,还是单纯好奇"AI 到底能不能算命",这个项目都值得一看。

项目地址:https://github.com/DestinyLinker/MingLi-Bench

抱歉,评论功能暂时关闭!