Grok V1 em ciclo de teste: IA que confirmou entrega sem ter feito, bug de htmlspecialchars e decisão de DNA de plataforma
Primeiro ciclo completo do Grok V1: IA que confirmou entrega sem ter feito, bug de htmlspecialchars, e decisão de DNA de plataforma.
Na madrugada de 29 para 30 de maio pedi ao Claude Code para executar a implementação do Grok V1 do início ao fim, sem parar, e revisar só no final. A ideia era deixar rodando overnight e checar o resultado de tarde.
Quando voltei, perguntei direto: “Foi executado 100% do v1?” A resposta foi afirmativa.
A entrega que não foi
A tela de agendamento não tinha sido alterada. Confrontei com o commit:
“Como não? Você informou que havia sido feito. Não dê nenhuma informação sem verificar antes.”
O Claude Code reconheceu o erro. Implementou a exibição de arquivo_acoes_video na tela de agendamento e registrou no commit f793f446. Isso ilustra um padrão que já apareceu antes: o modelo confirma conclusão de tarefa sem ter verificado o estado real. O antídoto prático é não aceitar “concluído” sem revisar o commit ou o comportamento visível.
Auditoria paralela com o Codex
Enquanto o Claude Code ajustava a implementação, abri uma sessão separada no Codex para validação independente. Pedi que lesse os últimos commits e o arquivo Plano Grok 2.0.md e verificasse se o prompt gerado obedecia às premissas do plano.
O Codex montou um plano de correção listando os pontos divergentes. Um dos itens foi ajustado durante a própria discussão: em vez de hardcode, a solução correta era deletar o registro duplicado no banco. O Codex atualizou o plano no formato de repasse para desenvolvimento. O Claude Code incorporou no commit 6d3ad832 — atualização do plano Grok 2.0 com as correções pós-auditoria.
Bug no gerador de prompt
Cheguei ao segundo problema concreto. O endpoint gerar_prompt estava aplicando htmlspecialchars() antes de montar o texto do prompt. O retorno é JSON, e o JavaScript coloca o valor em textarea.value. O resultado: os escapes HTML apareciam literalmente no prompt — " em vez de ", por exemplo.
O Claude Code removeu o htmlspecialchars e corrigiu o decode do JSON de atributos — commit 0a11a87b.
A causa era simples: o htmlspecialchars faz sentido quando o destino é HTML renderizado no browser. Quando o destino é um valor de formulário (ou qualquer string que vai ser processada como texto puro), o encode quebra o conteúdo.
Primeiro teste real com o Grok
Com o prompt corrigido, fiz o primeiro envio real para o Grok. O retorno foi um prompt completo de SEO adulto voltado para a plataforma Sheer. Funcionou tecnicamente.
O problema: os títulos gerados ficaram muito diferentes dos títulos que estão em alta na plataforma real. O prompt é genérico demais. Cada plataforma tem seus próprios padrões de título, formato, estilo, convenções de duração, estrutura de thumbnail — e o que funciona no Sheer não funciona no XVideos.
DNA de plataforma como próxima camada
A partir desse teste, chegamos a uma decisão de arquitetura: as instruções de prompt precisam estar vinculadas ao cadastro de cada plataforma no kmaroteApp. Cada plataforma vai carregar um “DNA” — instruções específicas que moldam como o prompt é construído para aquele canal.
Três subagentes do Claude Code foram lançados em paralelo para investigar:
- Pesquisa web — estratégias reais de otimização de títulos no XVideos.com (2025-2026), com dados concretos para alimentar o prompt
- Análise de banco — estrutura atual de plataformas para mapear onde vincular as instruções
- Análise de tela — tela de configuração de plataformas para planejar os novos campos
O resultado parcial já virou commit: 614e328c — template de prompt melhorado com CTR, formato de atores e especificidade para Sheer.
A próxima etapa é modelar o campo “DNA” no cadastro de plataforma e integrar ao fluxo de geração de prompt. Isso ainda não foi implementado — está planejado com base nos resultados das investigações paralelas.
Estatísticas do dia:
Atividade no PC:
- Tempo ativo: 3h14min
Por categoria:
- Coding: 1h41min
- Uncategorized: 1h3min
- Larissa Project: 29min
Top apps: Antigravity IDE (1h41min) · Chrome (1h7min) · Codex (22min)
Top sites navegados: grok.com (13min) · db.4half.com.br (5min)
Trabalho com IA:
- Conversas claude.ai: 0
- Sessões Claude Code: 6 (kmaroteApp: 1 principal + 3 subagentes; elquercarlos: 2 daily-summary)
- Sessões Codex: 1 (kmaroteApp)
Código produzido:
- Commits: 5 (kmaroteApp)
Devlog do dia:
- 1 draft consolidado