text2sql 怎么把表结构喂给模型

张

张建站

2026/6/24 2:11:18

10分钟阅读

先抛结论让模型写对 SQL难点不在模型,在你怎么把库里的表结构喂给它。表结构给得糙再聪明的模型也会瞎编字段名。我自己踩了一圈最后稳定下来的喂法记在这。我做的是一个让运营同学用大白话查数据的小工具。第一版我偷懒直接把整个库的CREATE TABLE语句一股脑拼进 prompt37 张表全塞进去结果两件事同时发生一是 token 直接顶到八千多二是模型经常把别的表的字段张冠李戴写出来的 SQL 跑都跑不起来。表结构到底喂什么我现在只喂三样多一个字都不给表名一句话表注释这张表是干啥的字段名类型字段注释每张表挑 2~3 行真实样例数据样例数据是后加的,效果出乎意料地好。模型光看status int不知道 1 代表啥但看到样例里status1那行用户是已付款它就懂了枚举含义,WHERE 条件不再乱填。喂进去的格式我用的是这种紧凑写法,比贴原始 DDL 省一半 token表: orders (订单主表) 字段: - id bigint 订单ID - user_id bigint 下单用户ID - amount decimal 金额(元) - status int 状态 1已付款 2已发货 3已完成 0已取消 - created_at datetime 下单时间样例: id1001 user_id88 amount29.90 status3 created_at2026-06-01 10:22:00注意我把status的枚举含义直接写进字段注释了。这一步比给样例还关键——枚举值不解释模型十有八九猜错。表太多怎么办37 张表全喂肯定不行。我的做法是先做一轮表召回把用户问题和每张表的表注释做一次向量检索只把最相关的 3~5 张表的结构喂给写 SQL 的那一步。落地我是在一个能拖低代码工作流的平台上搭的第一个节点做表召回(挂了个 RAG 检索),第二个节点才是真正写 SQL。这样平均喂进去的表从 37 张降到 4 张token 从八千多压到一千出头准确率反而上去了——因为干扰项少了。两个具体的坑坑一:外键关系模型看不出来。光给单表结构遇到要 JOIN 的问题模型就抓瞎。我后来在 prompt 里单独加了一段表关系说明,像orders.user_id users.id写明哪些表能 JOIN、JOIN 哪个字段。加完之后跨表查询的成功率从大概六成涨到九成。坑二:别让模型直接连库。我让模型只输出 SQL 文本,再由后端代码去执行而且执行前强制套一层LIMIT 200。有次模型生成了个没带条件的全表 scan,要不是这个 LIMIT 兜底那张两千万行的表能把库拖垮。小结text2sql 这事七分在数据准备(表结构怎么裁、怎么注释、给不给样例),三分才在模型。把这套喂法跑顺之后运营那边自助查数的比例明显上来了找我跑 SQL 的人少了一多半。剩下唯一没根治的是模糊问法——用户问上个月卖得好的,到底好是按数量还是金额模型只能猜这种我现在是让它先反问一句。模型那层我直接用了讯飞星辰提供的现成大模型 API,免得自己搭推理服务省下的精力都花在打磨表结构上了。

Dify、Cursor、Chatbox、Cherry Studio 怎么统一接入：Base URL、模型 ID 和 API Key 验收清单

很多团队第一次接国内 AI API 中转站时，通常不是只接一个工具。产品经理可能在 Chatbox 里做提示词测试，研发在 Cursor 里写代码，运营团队用 Cherry Studio 做批量内容处理，自动化流程又跑在 Dify 里。只要这些工具的 Base URL、模…...

2026/6/24 2:05:54 阅读更多 →

当“隐身”与“发报”合二为一：这篇《Light: Science Applications》论文如何重新定义智能材料？

前言多光谱探测技术的快速发展，让现代战场上的军事目标面临前所未有的威胁。从可见光相机到红外热成像仪，从激光雷达到短波红外探测器，装备的“眼睛”越来越锐利，传统伪装手段日益捉襟见肘。与此同时，这些非可见光波段…...

2026/6/24 2:05:39 阅读更多 →

用 Typeoff 口述代码思路：从原始想法到结构化 Markdown

我用语音口述写完了上周所有的 PR 描述和 Bug 复盘——一份给开发者的 Typeoff 实战工作流利益相关声明: 本人 Typeoff 个人用户,使用约一个月。本文非官方稿件、无任何商业合作。Typeoff 功能描述以官方文档为准。文中提到的 Cursor、Claude Code、Wispr Flow 等均为公开可查的…...

2026/6/24 2:02:44 阅读更多 →

3步解锁Adobe全家桶：Adobe-GenP 3.0智能破解工具完全指南

3步解锁Adobe全家桶：Adobe-GenP 3.0智能破解工具完全指南【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0是一款功能强大的Adobe Creativ…...

2026/6/22 6:42:48 阅读更多 →

暗黑2存档编辑器实战宝典：网页版D2/D2R角色修改工具完全解析

暗黑2存档编辑器实战宝典：网页版D2/D2R角色修改工具完全解析【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2的角色练级而烦恼吗？想测试不同的build组合却不想重复枯燥的升级过程&#…...

2026/6/22 22:20:13 阅读更多 →

基于MC56F8257 DSC的BLDC电机六步换相与速度闭环控制实战

1. 项目概述与核心价值如果你正在寻找一个既能深入理解三相无刷直流电机（BLDC）控制原理，又能快速上手实现一个稳定、低功耗驱动方案的实战项目，那么基于飞思卡尔MC56F8257 DSC的这套方案，绝对是一个教科书级的起点。我…...

2026/6/23 2:21:54 阅读更多 →

如何用AI在10分钟内完成蛋白质结构预测？AlphaFold3-PyTorch深度解析

如何用AI在10分钟内完成蛋白质结构预测？AlphaFold3-PyTorch深度解析【免费下载链接】alphafold3-pytorch Implementation of Alphafold 3 from Google Deepmind in Pytorch 项目地址: https://gitcode.com/gh_mirrors/al/alphafold3-pytorch 蛋白质结构预测…...

2026/6/23 3:43:38 阅读更多 →