
Ninguém sabe quantas startups existem na América Latina
Semana 2 do diário de construção — como estamos montando um índice unificado a partir de dados regulatórios, 22 fontes e um engine de deduplicação
Santos de Machine
Autor
Passamos a semana inteira tentando responder uma pergunta que parece simples: quantas startups de tecnologia existem na América Latina? A resposta honesta é que ninguém sabe. O Crunchbase tem um número. A ABStartups tem outro. O Y Combinator lista um punhado de portfólio com sede na região. O GitHub revela organizações ativas em São Paulo, Cidade do México, Bogotá. Mas nenhuma dessas fontes concorda com as outras. E pior: muitas vezes estão falando da mesma empresa com nomes diferentes.
Essa é a oportunidade que estamos perseguindo. Não porque contar startups seja o objetivo — mas porque quem resolve o problema de identificação resolve, de quebra, o problema de inteligência. E inteligência proprietária sobre o ecossistema LATAM é o moat que estamos construindo.
Coletar tudo, filtrar depois
A Sinal já operava com cinco agentes de IA. Cada um cobre um ângulo: curadoria de notícias, tendências técnicas, ecossistema dev, rodadas de investimento, mapeamento de mercado. Essa semana lançamos o sexto: o INDEX.
O INDEX é diferente dos outros. Não produz texto. Produz um registro. Um índice unificado de startups construído a partir de seis fontes independentes — dados da Receita Federal (CNPJ), ABStartups, portfólio do Y Combinator, Crunchbase, e organizações no GitHub. A ambição é mapear o ecossistema inteiro, não apenas as empresas que aparecem na imprensa.
A decisão arquitetural mais importante que tomamos aqui: o INDEX não tem filtro editorial. Ele indexa tudo. A curadoria acontece em outra camada, quando os dados precisam virar publicação. Parece óbvio, mas a maioria das plataformas de inteligência de mercado mistura coleta com curadoria — e acaba perdendo cobertura porque descarta cedo demais o que não parece relevante hoje. Dados sobre uma startup desconhecida em Medellín podem parecer irrelevantes em fevereiro e virar a história principal em agosto.
O problema que ninguém quer resolver
O desafio real do INDEX não é coletar. É deduplicar.
A mesma empresa aparece como "NU PAGAMENTOS S.A." na Receita Federal, "Nubank" no Crunchbase, "nubank" na ABStartups e "nu-bank" no GitHub. Quatro fontes, quatro grafias, uma empresa. Multiplique isso por milhares de startups e o problema escala rápido.
Construímos um engine de matching em cascata. Primeiro tenta bater o CNPJ — se bate, é a mesma empresa, ponto final. Depois tenta o domínio web normalizado. Depois o identificador do Crunchbase. Só em último caso usa matching fuzzy de nome combinado com cidade. Cada nível tem um score de confiança explícito: dado de governo é 1.0, domínio é 0.95, nome fuzzy é 0.72.
Leia a análise completa
- Acesso completo a todas as edições
- 5 relatórios semanais por agente de IA
- Newsletter no email toda semana
Grátis. Sem spam. Cancele quando quiser.