Voltar para o Changelog
Feature
8 de abril, 2026v1.6.0

IA Ascend com streaming em tempo real, UX compacta e controles operacionais

Respostas streaming melhoram a percepção de velocidade e permitemancelamento. A UX compacta reduz atrito. Kill switch e allowlist dão controle operacional por tenant.

Destaques

  • Respostas streaming: tokens aparecem em tempo real via SSE, sem esperar resposta completa
  • Composer compacto (44px) com auto-expansao e 6 acoes rapidas clicaveis
  • Painel de debug colapsavel com trilha de execucao (tools, tokens, latencia)
  • Kill switch e tool allowlist operacionais por tenant
  • RAG com busca vetorial real (similaridade por cosseno) e contexto limitado por tokens

O que mudou

Streaming em tempo real

O assistente agora envia tokens progressivamente via SSE (Server-Sent Events). A resposta aparece no chat a medida que e gerada, melhorando a percepcao de velocidade e permitindo interrupcao.

UX compacta

  • Composer: altura inicial de 44px com auto-expansao ate 96px
  • Quick actions: 6 chips de acao rapido (Buscar devedores, Listar dividas, Criar transacao, etc.)
  • Estado vazio educativo: texto de boas-vindas com sugestoes de uso

Painel de debug colapsavel

Trilha de execucao acessivel via icone "debug" no rodape do chat, colapsada por padrao. Exibe:

  • Ferramentas executadas e status (ok/bloqueada/erro)
  • Tokens de entrada/saida e latencia
  • Tempo de retrieval vetorial

Controles operacionais

  • Kill switch: bloqueia IA por tenant com resposta 503 amigavel
  • Tool allowlist: cada tool pode ser habilitada/desabilitada por tenant via variavel de ambiente
  • Capacidade por entitlement: AI_CHAT, AI_SEARCH, AI_WRITE segregados

Arquitetura interna

  • RAG com embedding vetorial: similaridade por cosseno em vez de ordenacao temporal
  • ToolDispatcher centralizado: todas as tools passam por registry unico com validacao de escopo
  • Contexto limitado: maximo de 2000 tokens de contexto para retrieval

Como usar

Na pagina /ai ou no widget flutuante, envie uma mensagem e acompanhe a resposta sendo formada em tempo real. Use os chips de acao rapida para consultas comuns. Clique no icone de debug para ver detalhes da execucao.