在线咨询

专属客服在线解答，提供专业解决方案

声网 AI 助手

您的专属 AI 伙伴，开启全新搜索体验

首页博客正文

使用 Gemini 3 Pro 进行 Vibe Coding

2025-12-01

TOCCA（编译）

工程实践

终于等到 Gemini 3 上线，它现在已经在全网刷屏了。大家都在展示 Gemini 的前端能力，所以我也忍不住想试试。想象一下：你给它一张截图，AI 就能自动把 UI 还原成完整的代码？这种前端开发水平，靠人类来做通常需要极高的细心和耐心——开发者经常要花上好几个小时，把静态设计稿“翻译”成可用的响应式代码。而我想用 Gemini 3 Pro 的 vibe coding 来把这个流程加速。

为此，我做了一个能把设计稿自动转成代码的 AI Agent。这是一次对 Gemini 3 Pro 多模态能力和 vibe coding 的小型实测。我的目标很简单：只用两个提示词（prompt），做出一个“截图 → 代码”的工具。

为什么选择 Gemini 3 Pro？

Google 在 Grok 4.1 发布后一天就推出了 Gemini 3 Pro，两者都号称进行了大升级。但在推理能力和技术类任务上，Gemini 3 Pro 可以说是行业领先，尤其是在 WebDev Arena 的代码准确率榜单上排名第一。因此，我选择它来做 vibe coding——这种方式让创作者能专注于应用的“感觉”，语法细节全交给 AI 处理。

Gemini 3 Pro 在这个项目上有几个特别关键的优势：

多模态能力强：它不仅能看懂像素，还能像开发者一样理解界面的结构层级、组件之间的关系、留白和对齐方式——这是纯文本模型做不到的。
Agent 能力成熟：它能管理一个多文件架构，不会因为跳到不同代码文件就丢失上下文，能持续保持对整个项目状态的理解。
上下文窗口巨大：整个代码库放进去都没问题，因此更新某个组件时，不会因为“忘了之前的逻辑”而出现错误。

我们要做的是什么？

我想做的是一个够用、够稳的原型工具——把静态截图转换成一个可运行、可编辑的 React 项目。为此，这个 AI Agent 必须具备以下核心能力：

一键解析：用户上传截图后，系统能自动生成结构化的代码。
实时预览：界面需要同时展示代码和渲染结果，所见即所得。
隐私保障：所有处理都必须在浏览器本地完成，不上传、不存储用户图片。
导出能力：用户可以把最终项目打包成 ZIP 文件下载。

在这个过程中，我负责产品设计，而 Gemini 3 Pro 则扮演资深工程师的角色。

将静态屏幕截图转换为可编辑的实时React 项目

实战：开始构建这个 Agent

整个应用虽然不小，但我只用两步就把它做出来了，中间大量依赖模型来拍板架构细节。

首先，打开：https://aistudio.google.com/apps

然后把模型切换到 Gemini 3 Pro。

第一步：God Prompt

很多开发者写提示词时只会问一些小问题，比如“帮我写个导航栏组件”。但我用了另一种方式——我直接把一整份产品需求文档（PRD）塞给 Gemini 3 Pro。

在这个 PRD 里，我详细描述了“截图转代码”工具的功能，包括主要用户是谁（比如设计师、前端工程师），还把安全要求写得清清楚楚。最后我告诉 AI Agent：“这里是完整规格，请你把整个应用做出来。”

我也不是自己徒手写的 PRD。我把整个应用的设想讲给 ChatGPT，然后让它帮我精简成一份 PRD，再交给 Gemini 3 Pro。

Prompt 1（完整提示词）

Screenshot→Code 是一款快速原型工具，可以把一张应用界面的截图，转成可运行、可编辑的 UI，并导出为 React + Tailwind 项目。用户上传 PNG/JPG 之后，系统会分析页面布局和组件，自动生成结构化的 HTML/React 代码，并在设备框中还原出高保真的界面预览。用户既可以在可视化界面里编辑（文本、图片、颜色、位置等），也可以直接改源码；所有修改都会即时同步到预览。最终产物可以导出为编辑后的截图，以及一个可本地运行的 ZIP 代码包。

核心能力

一键解析截图 → 结构化 UI 模型（组件 + 样式）
自动生成两套代码：可即时预览的 HTML（基于 Tailwind CDN）和可下载的完整 React + Tailwind 项目
两种编辑方式：可视化编辑（所见即所得）和代码编辑（实时同步），两种模式之间的修改会双向同步
导出能力：编辑后的高保真 PNG和可运行项目的 ZIP 包
隐私优先：默认所有操作都在浏览器本地完成；如需云端存储，必须用户明确同意

主要用户

想把设计稿快速转成代码的设计师
希望加速组件开发的前端工程师
需要快速做交互原型的产品团队

安全与隐私

上传的图片默认只保留在用户本地会话中；如果要存到服务器，必须用户主动授权，图片可能包含个人信息，会给出提示，并提供手动清除的选项

产品需求文档提示词

最终结果

Gemini 3 Pro 直接把整个项目的文件结构都生成好了。它不仅写出了核心的应用逻辑，也自动创建了预览窗口组件。更有意思的是，它自己选定了一套现代化技术栈：React、Tailwind CSS，Lucide React。此外，AI Agent 还正确实现了“代码模式”和“可视化模式”之间的切换逻辑，基本把我设想的交互完整复现了。

Gemini 3 Pro 生成了完整的文件结构

第二阶段：白屏事件

我用下面这张截图来测试应用，把它上传到“Upload a Screenshot”。

上传屏幕截图的功能示意

第一次生成的结果已经相当惊艳，但还不算完整。我把应用跑起来后，上传同样的截图，本来应该出现预览，但“可视化”那一栏却一直是空白的。这是动态应用里 iframe 渲染常见的老问题：代码逻辑没错，但浏览器就是执行不了。

动态应用程序中 iframe 渲染问题导致可视化区域空白

我的第二个提示词（Prompt）

“为什么在 Visual 标签页里什么都看不到？即使已经生成了 GeneratedComponent.tsx，屏幕还是一片空白。请修复这个问题”

修复方案

Gemini 3 Pro 立即识别出了缺失的依赖项。iframe 需要特定的数据预设才能解析 TypeScript。。

Gemini 3 Pro 随后自动修改了 PreviewWindow.tsx，主要做了这几件事：

为 iframe 增加了 env、react 和 typescript 的运行预设
优化了代码清洗逻辑，自动移除多余的 export default
加上了全局错误捕获，避免脚本报错直接导致白屏
实现了一个兜底机制，保证组件无法解析时仍能给出可调试的信息

这个修复方法立即生效。截图转代码工具渲染用户界面时没有出现任何错误。

iframe 需要特定的数据预设才能解析 TypeScript

最后的润色：“Powered By Harsh Mishra”

应用已经能正常运行了，但我还想加一点个人风格。默认生成的界面里有一行通用的提示：“Powered by Gemini 2.5 Flash”。我想拥有作品的所有权。

于是我就在“Describe a change”输入框里告诉 AI Agent 修改这部分文案。它很快就把徽标改成了：“Powered by Harsh Mishra”，并配上一个黄色的闪电图标，看起来更加个性化。

示意图

最终的界面品质相当高。整体是深色主题，对比度明显；上传区域用了虚线边框和清晰的排版；渐变色也完全符合我一开始设定的现代视觉风格。这种细节上的一致性，证明了在 Gemini 3 Pro 上做 vibe coding 的可行性和成熟度。

用户界面示意

应用开发的未来已经在改变

这次做“截图转代码”的工具，让我对应用开发有了完全不同的认识。按以往的流程，这样一个复杂度的项目至少要花上好几天；而我只用了几分钟。Gemini 3 Pro 在 vibe coding 模式下，更像一位合作伙伴，而不是一个聊天机器人。

vibe coding 本质上改变了开发者的角色：我们不再主要写语法，而是管理 Agent、提供愿景。多模态 AI 负责执行逻辑、搭建结构、补全细节。这样，我们能把更多时间放在用户体验和产品价值上。

Gemini 3 Pro 也证明了 AI 已经可以处理接近生产级别的复杂度：它能保持上下文、能修一些很隐晦的 bug，还能产出成熟度很高的 UI。

如果你想亲自体验，这里可以试试 Screenshot-to-Code 应用：https://ai.studio/apps/drive/1PfOYRLP-QAAepG128DvJIt18Vofbbrx2

结语

我只用了两个 prompt，就在 Gemini 3 Pro 的帮助下完成了一个 React 应用。架构、样式、调试，全由 AI Agent 负责。这次实验很好地展示了多模态 AI 在真实工作流中的效率。像“截图转代码”这样的工具只是开始，软件开发的门槛正在迅速降低。
在 vibe coding 的模式下，只要你有清晰的想法，就能把软件做出来；而像 Gemini 3 Pro 这样的模型，则会在背后提供随取随用的技术能力。

未来的编码，不再是敲长长的代码，而是指导智能 Agent 去完成工作。现在就去 AI Studio 试试看，零成本打造你的第一个应用吧。

原文作者：Harsh Mishra

原文链接：https://www.analyticsvidhya.com/blog/2025/11/gemini-3-pro-screenshot-to-code-agent/

在声网，连接无限可能

想进一步了解「对话式 AI 与实时互动」？欢迎注册，开启探索之旅。

注册体验

本博客为技术交流与平台行业信息分享平台，内容仅供交流参考，文章内容不代表本公司立场和观点，亦不构成任何出版或销售行为。