La mayoría de generadores de imagen producen resultados mediocres porque los prompts están mal construidos — demasiado vagos, en formato lista, sin contexto visual. Claude Banana es un proyecto open source que usa Claude para transformar descripciones simples en prompts de alta densidad semántica compatibles con Gemini, Midjourney, DALL-E y Stable Diffusion. Útil para founders, creators y equipos de marketing que generan assets visuales de forma recurrente.
Describir una imagen bien es un oficio. "Un gato en un jardín" y "A tabby cat lounging on sun-warmed flagstones in a walled cottage garden, soft golden-hour sidelight filtering through climbing roses, shallow depth of field with a creamy bokeh background of lavender bushes, shot from a low eye-level angle, fine fur texture catching individual light strands, watercolor-illustration style with muted earth tones and pops of floral pink" producen resultados radicalmente distintos en cualquier generador. La brecha entre ambos es lo que Claude Banana cierra automáticamente.
El proyecto funciona como un reescritor de prompts: el usuario describe lo que quiere en lenguaje natural, y Claude reformula esa descripción aplicando una fórmula estructurada de siete ingredientes que los modelos de generación de imagen interpretan bien.
Todo prompt generado por Claude Banana incluye estos componentes, en ese orden:
La secuencia importa porque replica la manera en que los modelos de difusión pesan los tokens: el sujeto domina, el estilo modula, los detalles refinan. Un prompt que mezcla estos elementos en orden aleatorio produce resultados menos predecibles.
El error más común al construir prompts de imagen es copiar el estilo de los foros de Midjourney de 2022: cat, garden, golden hour, 4K, hyperrealistic, bokeh, award-winning. Ese formato funcionaba con modelos primitivos que necesitaban tokens de peso alto. Los modelos actuales — especialmente Gemini Imagen — prefieren oraciones descriptivas en prosa porque procesan contexto relacional, no solo frecuencia de tokens.
Reglas que aplica Claude Banana automáticamente:
Claude Banana incluye modos preconfigurados para casos de uso recurrentes, cada uno con énfasis distinto en los 7 ingredientes:
| Modo | Énfasis principal | Caso de uso |
|---|---|---|
| Cinema | Iluminación dramática, ángulo cinematográfico | Thumbnails, trailers, contenido storytelling |
| Product | Fondo neutro, iluminación de estudio, textura del material | Ecommerce, catálogos, presentaciones de producto |
| Portrait | Luz de estudio, bokeh, detalle facial | Fotos de perfil, headshots, contenido de marca personal |
| Fashion | Styling editorial, pose dinámica, contexto de revista | Lookbooks, campañas de ropa, contenido de moda |
| UI Design | Assets digitales, colores flat, composición limpia | Mockups, ilustraciones para apps, íconos |
| Logos | Formas simples, paleta limitada, fondo limpio | Branding, variaciones de logo, favicon |
| Landscapes | Panorámica, luz natural, escala ambiental | Backgrounds, ilustraciones ambientales, covers |
| Abstract | Arte generativo, patrones, composición experimental | Texturas, fondos decorativos, arte digital |
| Infographics | Legibilidad, jerarquía visual, datos representados | Visualización de datos, diagramas ilustrados |
Los generadores recomendados para pegar el output son Flow y Whisk, ambas herramientas gratuitas de Google. Flow genera imágenes directamente desde el prompt; Whisk permite combinar imágenes existentes con el prompt generado para hacer remixes.
El mismo prompt funciona en Midjourney, DALL-E y Stable Diffusion con resultados competitivos, aunque fue optimizado pensando en los modelos de Google.
Conviene cuando el cuello de botella es la calidad del prompt, no el modelo. Si estás generando assets de manera recurrente — thumbnails, ilustraciones para posts, fotos de producto — y los resultados siempre se sienten genéricos, el problema rara vez es el modelo: es la instrucción.
No conviene esperar que resuelva problemas de concepto. Claude Banana no decide qué imagen hacer ni qué mensaje transmitir — amplifica la descripción que le das. Una descripción vaga sigue produciendo un prompt vago, solo más largo. El trabajo creativo de definir qué imagen quieres sigue siendo del usuario.