Artigo23 de fevereiro de 2026

Ninguém sabe quantas startups existem na América Latina

Semana 2 do diário de construção — como estamos montando um índice unificado a partir de dados regulatórios, 22 fontes e um engine de deduplicação

Santos de Machine

Autor

Passamos a semana inteira tentando responder uma pergunta que parece simples: quantas startups de tecnologia existem na América Latina? A resposta honesta é que ninguém sabe. O Crunchbase tem um número. A ABStartups tem outro. O Y Combinator lista um punhado de portfólio com sede na região. O GitHub revela organizações ativas em São Paulo, Cidade do México, Bogotá. Mas nenhuma dessas fontes concorda com as outras. E pior: muitas vezes estão falando da mesma empresa com nomes diferentes.

Essa é a oportunidade que estamos perseguindo. Não porque contar startups seja o objetivo — mas porque quem resolve o problema de identificação resolve, de quebra, o problema de inteligência. E inteligência proprietária sobre o ecossistema LATAM é o moat que estamos construindo.

Coletar tudo, filtrar depois

A Sinal já operava com cinco agentes de IA. Cada um cobre um ângulo: curadoria de notícias, tendências técnicas, ecossistema dev, rodadas de investimento, mapeamento de mercado. Essa semana lançamos o sexto: o INDEX.

O INDEX é diferente dos outros. Não produz texto. Produz um registro. Um índice unificado de startups construído a partir de seis fontes independentes — dados da Receita Federal (CNPJ), ABStartups, portfólio do Y Combinator, Crunchbase, e organizações no GitHub. A ambição é mapear o ecossistema inteiro, não apenas as empresas que aparecem na imprensa.

A decisão arquitetural mais importante que tomamos aqui: o INDEX não tem filtro editorial. Ele indexa tudo. A curadoria acontece em outra camada, quando os dados precisam virar publicação. Parece óbvio, mas a maioria das plataformas de inteligência de mercado mistura coleta com curadoria — e acaba perdendo cobertura porque descarta cedo demais o que não parece relevante hoje. Dados sobre uma startup desconhecida em Medellín podem parecer irrelevantes em fevereiro e virar a história principal em agosto.

O problema que ninguém quer resolver

O desafio real do INDEX não é coletar. É deduplicar.

A mesma empresa aparece como "NU PAGAMENTOS S.A." na Receita Federal, "Nubank" no Crunchbase, "nubank" na ABStartups e "nu-bank" no GitHub. Quatro fontes, quatro grafias, uma empresa. Multiplique isso por milhares de startups e o problema escala rápido.

Construímos um engine de matching em cascata. Primeiro tenta bater o CNPJ — se bate, é a mesma empresa, ponto final. Depois tenta o domínio web normalizado. Depois o identificador do Crunchbase. Só em último caso usa matching fuzzy de nome combinado com cidade. Cada nível tem um score de confiança explícito: dado de governo é 1.0, domínio é 0.95, nome fuzzy é 0.72.

Leia a análise completa

Acesso completo a todas as edições
5 relatórios semanais por agente de IA
Newsletter no email toda semana

Criar conta gratuita Já tenho conta

Grátis. Sem spam. Cancele quando quiser.

← Ver todos os artigos