Claude Banana: Generador de Prompts para Imágenes con IA

Describir una imagen bien es un oficio. "Un gato en un jardín" y "A tabby cat lounging on sun-warmed flagstones in a walled cottage garden, soft golden-hour sidelight filtering through climbing roses, shallow depth of field with a creamy bokeh background of lavender bushes, shot from a low eye-level angle, fine fur texture catching individual light strands, watercolor-illustration style with muted earth tones and pops of floral pink" producen resultados radicalmente distintos en cualquier generador. La brecha entre ambos es lo que Claude Banana cierra automáticamente.

El proyecto funciona como un reescritor de prompts: el usuario describe lo que quiere en lenguaje natural, y Claude reformula esa descripción aplicando una fórmula estructurada de siete ingredientes que los modelos de generación de imagen interpretan bien.

La fórmula de los 7 ingredientes

Todo prompt generado por Claude Banana incluye estos componentes, en ese orden:

Sujeto — qué aparece en la imagen (persona, objeto, animal, escena)
Estilo visual — fotografía, ilustración, 3D, cinematográfico, acuarela, editorial
Entorno — estudio, naturaleza, ciudad, espacio abstracto, interior
Iluminación — hora dorada, dramática, neón, natural, contraluz, estudio
Acción o pose — movimiento, interacción, postura, estado del sujeto
Ángulo de cámara — primer plano, cenital, a nivel de ojo, gran angular, plano picado
Texturas — piel, tela, metal, madera, agua, materiales específicos

La secuencia importa porque replica la manera en que los modelos de difusión pesan los tokens: el sujeto domina, el estilo modula, los detalles refinan. Un prompt que mezcla estos elementos en orden aleatorio produce resultados menos predecibles.

Por qué oraciones y no listas de palabras clave

El error más común al construir prompts de imagen es copiar el estilo de los foros de Midjourney de 2022: cat, garden, golden hour, 4K, hyperrealistic, bokeh, award-winning. Ese formato funcionaba con modelos primitivos que necesitaban tokens de peso alto. Los modelos actuales — especialmente Gemini Imagen — prefieren oraciones descriptivas en prosa porque procesan contexto relacional, no solo frecuencia de tokens.

Reglas que aplica Claude Banana automáticamente:

Construye la descripción como una frase continua, no como lista separada por comas
Evita términos genéricos de calidad como "4K", "hyperrealistic", "ultra-detailed" — no añaden información semántica real
Conecta los elementos con preposiciones y cláusulas que describen relaciones espaciales y temporales

Los 9 modos especializados

Claude Banana incluye modos preconfigurados para casos de uso recurrentes, cada uno con énfasis distinto en los 7 ingredientes:

Modo	Énfasis principal	Caso de uso
Cinema	Iluminación dramática, ángulo cinematográfico	Thumbnails, trailers, contenido storytelling
Product	Fondo neutro, iluminación de estudio, textura del material	Ecommerce, catálogos, presentaciones de producto
Portrait	Luz de estudio, bokeh, detalle facial	Fotos de perfil, headshots, contenido de marca personal
Fashion	Styling editorial, pose dinámica, contexto de revista	Lookbooks, campañas de ropa, contenido de moda
UI Design	Assets digitales, colores flat, composición limpia	Mockups, ilustraciones para apps, íconos
Logos	Formas simples, paleta limitada, fondo limpio	Branding, variaciones de logo, favicon
Landscapes	Panorámica, luz natural, escala ambiental	Backgrounds, ilustraciones ambientales, covers
Abstract	Arte generativo, patrones, composición experimental	Texturas, fondos decorativos, arte digital
Infographics	Legibilidad, jerarquía visual, datos representados	Visualización de datos, diagramas ilustrados

Cómo usar el proyecto

Descargar el ZIP desde el repositorio en GitHub
Abrir el proyecto en Claude Desktop o en el terminal de Claude Code
Escribir la descripción de la imagen en lenguaje natural
Copiar el prompt optimizado al generador de imagen

Los generadores recomendados para pegar el output son Flow y Whisk, ambas herramientas gratuitas de Google. Flow genera imágenes directamente desde el prompt; Whisk permite combinar imágenes existentes con el prompt generado para hacer remixes.

El mismo prompt funciona en Midjourney, DALL-E y Stable Diffusion con resultados competitivos, aunque fue optimizado pensando en los modelos de Google.

Cuándo conviene usarlo y cuándo no

Conviene cuando el cuello de botella es la calidad del prompt, no el modelo. Si estás generando assets de manera recurrente — thumbnails, ilustraciones para posts, fotos de producto — y los resultados siempre se sienten genéricos, el problema rara vez es el modelo: es la instrucción.

No conviene esperar que resuelva problemas de concepto. Claude Banana no decide qué imagen hacer ni qué mensaje transmitir — amplifica la descripción que le das. Una descripción vaga sigue produciendo un prompt vago, solo más largo. El trabajo creativo de definir qué imagen quieres sigue siendo del usuario.

Compatibilidad

Gemini Imagen (Google AI Studio / Vertex AI)
Midjourney v6+
DALL-E 3
Stable Diffusion XL y superiores
Cualquier modelo que acepte prompts en inglés en formato prosa (el output de Claude Banana es en inglés por diseño)