在线咨询
专属客服在线解答,提供专业解决方案
声网 AI 助手
您的专属 AI 伙伴,开启全新搜索体验

使用 Gemini 3 Pro 进行 Vibe Coding

终于等到 Gemini 3 上线,它现在已经在全网刷屏了。大家都在展示 Gemini 的前端能力,所以我也忍不住想试试。想象一下:你给它一张截图,AI 就能自动把 UI 还原成完整的代码?这种前端开发水平,靠人类来做通常需要极高的细心和耐心——开发者经常要花上好几个小时,把静态设计稿“翻译”成可用的响应式代码。而我想用 Gemini 3 Pro 的 vibe coding 来把这个流程加速。

为此,我做了一个能把设计稿自动转成代码的 AI Agent。这是一次对 Gemini 3 Pro 多模态能力和 vibe coding 的小型实测。我的目标很简单:只用两个提示词(prompt),做出一个“截图 → 代码”的工具。

 

为什么选择 Gemini 3 Pro?

Google 在 Grok 4.1 发布后一天就推出了 Gemini 3 Pro,两者都号称进行了大升级。但在推理能力和技术类任务上,Gemini 3 Pro 可以说是行业领先,尤其是在 WebDev Arena 的代码准确率榜单上排名第一。因此,我选择它来做 vibe coding——这种方式让创作者能专注于应用的“感觉”,语法细节全交给 AI 处理。

Gemini 3 Pro 在这个项目上有几个特别关键的优势:

  • 1. 多模态能力强:它不仅能看懂像素,还能像开发者一样理解界面的结构层级、组件之间的关系、留白和对齐方式——这是纯文本模型做不到的。
  • 2. Agent 能力成熟:它能管理一个多文件架构,不会因为跳到不同代码文件就丢失上下文,能持续保持对整个项目状态的理解。
  • 3. 上下文窗口巨大:整个代码库放进去都没问题,因此更新某个组件时,不会因为“忘了之前的逻辑”而出现错误。

 

我们要做的是什么?

我想做的是一个够用、够稳的原型工具——把静态截图转换成一个可运行、可编辑的 React 项目。为此,这个 AI Agent 必须具备以下核心能力:

  • 一键解析:用户上传截图后,系统能自动生成结构化的代码。
  • 实时预览:界面需要同时展示代码和渲染结果,所见即所得。
  • 隐私保障:所有处理都必须在浏览器本地完成,不上传、不存储用户图片。
  • 导出能力:用户可以把最终项目打包成 ZIP 文件下载。

在这个过程中,我负责产品设计,而 Gemini 3 Pro 则扮演资深工程师的角色。

将静态屏幕截图转换为可编辑的实时React 项目

 

实战:开始构建这个 Agent

整个应用虽然不小,但我只用两步就把它做出来了,中间大量依赖模型来拍板架构细节。

首先,打开:https://aistudio.google.com/apps

然后把模型切换到 Gemini 3 Pro。

第一步:God Prompt

很多开发者写提示词时只会问一些小问题,比如“帮我写个导航栏组件”。但我用了另一种方式——我直接把一整份 产品需求文档(PRD) 塞给 Gemini 3 Pro。

在这个 PRD 里,我详细描述了“截图转代码”工具的功能,包括主要用户是谁(比如设计师、前端工程师),还把安全要求写得清清楚楚。最后我告诉 AI Agent:“这里是完整规格,请你把整个应用做出来。”

我也不是自己徒手写的 PRD。我把整个应用的设想讲给 ChatGPT,然后让它帮我精简成一份 PRD,再交给 Gemini 3 Pro。

Prompt 1(完整提示词)

Screenshot→Code 是一款快速原型工具,可以把一张应用界面的截图,转成可运行、可编辑的 UI,并导出为 React + Tailwind 项目。用户上传 PNG/JPG 之后,系统会分析页面布局和组件,自动生成结构化的 HTML/React 代码,并在设备框中还原出高保真的界面预览。用户既可以在可视化界面里编辑(文本、图片、颜色、位置等),也可以直接改源码;所有修改都会即时同步到预览。最终产物可以导出为编辑后的截图,以及一个可本地运行的 ZIP 代码包。

核心能力

  • 一键解析截图 → 结构化 UI 模型(组件 + 样式)
  • 自动生成两套代码:可即时预览的 HTML(基于 Tailwind CDN)和可下载的完整 React + Tailwind 项目
  • 两种编辑方式:可视化编辑(所见即所得)和代码编辑(实时同步),两种模式之间的修改会双向同步
  • 导出能力:编辑后的高保真 PNG和可运行项目的 ZIP 包
  • 隐私优先:默认所有操作都在浏览器本地完成;如需云端存储,必须用户明确同意

主要用户

  • 想把设计稿快速转成代码的设计师
  • 希望加速组件开发的前端工程师
  • 需要快速做交互原型的产品团队

安全与隐私

  • 上传的图片默认只保留在用户本地会话中;如果要存到服务器,必须用户主动授权,图片可能包含个人信息,会给出提示,并提供手动清除的选项

产品需求文档提示词

最终结果

Gemini 3 Pro 直接把整个项目的文件结构都生成好了。它不仅写出了核心的应用逻辑,也自动创建了预览窗口组件。更有意思的是,它自己选定了一套现代化技术栈:React、Tailwind CSS,Lucide React。此外,AI Agent 还正确实现了“代码模式”和“可视化模式”之间的切换逻辑,基本把我设想的交互完整复现了。

Gemini 3 Pro 生成了完整的文件结构

第二阶段:白屏事件

我用下面这张截图来测试应用,把它上传到“Upload a Screenshot”。

上传屏幕截图的功能示意

第一次生成的结果已经相当惊艳,但还不算完整。我把应用跑起来后,上传同样的截图,本来应该出现预览,但“可视化”那一栏却一直是空白的。这是动态应用里 iframe 渲染常见的老问题:代码逻辑没错,但浏览器就是执行不了。

动态应用程序中 iframe 渲染问题导致可视化区域空白

我的第二个提示词(Prompt)

“为什么在 Visual 标签页里什么都看不到?即使已经生成了 GeneratedComponent.tsx,屏幕还是一片空白。请修复这个问题”

修复方案

Gemini 3 Pro 立即识别出了缺失的依赖项。iframe 需要特定的数据预设才能解析 TypeScript。。

Gemini 3 Pro 随后自动修改了 PreviewWindow.tsx,主要做了这几件事:

  • 为 iframe 增加了 env、react 和 typescript 的运行预设
  • 优化了代码清洗逻辑,自动移除多余的 export default
  • 加上了全局错误捕获,避免脚本报错直接导致白屏
  • 实现了一个兜底机制,保证组件无法解析时仍能给出可调试的信息

这个修复方法立即生效。截图转代码工具渲染用户界面时没有出现任何错误。

iframe 需要特定的数据预设才能解析 TypeScript

最后的润色:“Powered By Harsh Mishra”

应用已经能正常运行了,但我还想加一点个人风格。默认生成的界面里有一行通用的提示:“Powered by Gemini 2.5 Flash”。我想拥有作品的所有权。

于是我就在“Describe a change”输入框里告诉 AI Agent 修改这部分文案。它很快就把徽标改成了:“Powered by Harsh Mishra”,并配上一个黄色的闪电图标,看起来更加个性化。

示意图

最终的界面品质相当高。整体是深色主题,对比度明显;上传区域用了虚线边框和清晰的排版;渐变色也完全符合我一开始设定的现代视觉风格。这种细节上的一致性,证明了在 Gemini 3 Pro 上做 vibe coding 的可行性和成熟度。

用户界面示意

 

应用开发的未来已经在改变

这次做“截图转代码”的工具,让我对应用开发有了完全不同的认识。按以往的流程,这样一个复杂度的项目至少要花上好几天;而我只用了几分钟。Gemini 3 Pro 在 vibe coding 模式下,更像一位合作伙伴,而不是一个聊天机器人。

vibe coding 本质上改变了开发者的角色:我们不再主要写语法,而是 管理 Agent、提供愿景。多模态 AI 负责执行逻辑、搭建结构、补全细节。这样,我们能把更多时间放在用户体验和产品价值上。

Gemini 3 Pro 也证明了 AI 已经可以处理接近生产级别的复杂度:它能保持上下文、能修一些很隐晦的 bug,还能产出成熟度很高的 UI。

如果你想亲自体验,这里可以试试 Screenshot-to-Code 应用:https://ai.studio/apps/drive/1PfOYRLP-QAAepG128DvJIt18Vofbbrx2

 

结语

我只用了两个 prompt,就在 Gemini 3 Pro 的帮助下完成了一个 React 应用。架构、样式、调试,全由 AI Agent 负责。这次实验很好地展示了多模态 AI 在真实工作流中的效率。像“截图转代码”这样的工具只是开始,软件开发的门槛正在迅速降低。
在 vibe coding 的模式下,只要你有清晰的想法,就能把软件做出来;而像 Gemini 3 Pro 这样的模型,则会在背后提供随取随用的技术能力。

未来的编码,不再是敲长长的代码,而是指导智能 Agent 去完成工作。现在就去 AI Studio 试试看,零成本打造你的第一个应用吧。

 

原文作者:Harsh Mishra

原文链接:https://www.analyticsvidhya.com/blog/2025/11/gemini-3-pro-screenshot-to-code-agent/

在声网,连接无限可能

想进一步了解「对话式 AI 与 实时互动」?欢迎注册,开启探索之旅。