Extrator de palavras-chave

Palavras-chave e frases

Palavras ordenadas por frequência e n-gramas opcionais a partir de texto colado.

Ferramentas relacionadas

Por que usar um extrator de palavras-chave?

Percorra termos repetidos, ideias de etiquetas ou compare duas colagens sem enviar o texto a um servidor.

Benefícios

  • Lista ordenada: veja o que mais se repete em unigramas.
  • Controlos: top N, comprimento mínimo, stops.
  • Frases: n-gramas opcionais 2–5 palavras.
  • Exportar: .txt rápido de tokens.
  • Privado: só no cliente.

Como funciona

Saco de palavras ingénuo e janelas deslizantes — exploração, não substituto de suites SEO ou linguística.

O que o código faz

  • Normalizar: minúsculas; não-\w a espaços; split em espaços.
  • Unigramas: conta tokens acima do mínimo; lista opcional de stops em inglês.
  • Ordenar e limitar: contagem descendente; top N (≤ únicos disponíveis).
  • N-gramas: mesmo fluxo, janelas contíguas de n palavras; rank por contagem.
  • Exportar: só keywords, linha a linha.

Quando usar

Esboços de blog, resumos de alunos, QA de conteúdo leve e verificações «o que usei em excesso?».

Casos ideais

  • Edição: apanhador de palavras em excesso.
  • Redação: eco de frases via n-gramas.
  • Ensino: demonstrar limites da tokenização.
  • Privacidade: colagens offline.
  • Preparação: antes de NLP especializado.

Factos

A interpretação depende das regras de token e da língua.

Pontos-chave

  • A lista de stops é em inglês e fixa no código.
  • Ranking de n-gramas ignora comprimento mínimo e stops dos unigramas.
  • Alta frequência não é importância temática nem intenção de pesquisa.
  • Colagens muito grandes podem esgotar memória do navegador.
  • \w inclui letras, dígitos e sublinhado em ECMAScript.

Boas práticas

Cruze com o seu fluxo editorial ou SEO.

Dicas de qualidade

  • Limpe marcação para texto simples primeiro.
  • Experimente vários comprimentos mínimos para reduzir ruído.
  • Combine com legibilidade ou corpus para análise séria.
  • Não trate exportações como estratégia de keywords fechada.
  • Em excertos de código, identificadores podem dominar.

Quando não confiar

  • Stoplists multilingues ou necessidade de lematização.
  • Relatórios legais, médicos ou de compliance sobre keywords.
  • Paridade exacta com especificação de keywords de uma editora.

Limitações e compatibilidade

Stops orientadas ao inglês; tokenização heurística; requer JavaScript.

Alimentado por processamento no lado do cliente.

Perguntas frequentes

É grátis e privado?

Sim. Tudo corre no seu navegador; nada é enviado para extração.

O que são stopwords aqui?

Uma lista fixa pequena em inglês de palavras muito comuns que pode filtrar para unigramas tenderem a palavras de conteúdo. Não é personalizável na UI.

Os n-gramas usam remoção de stopwords?

Não. N-gramas são construídos com todos os tokens normalizados não vazios; só a lista de unigramas usa stops e comprimento mínimo.

O que inclui a exportação?

Só os tokens de palavra-chave visíveis (um por linha). Contagens e n-gramas não vão no ficheiro.

Isto corresponde ao volume de pesquisa Google?

Não. É uma vista ingénua de frequência do texto colado, não ferramenta de volume ou ranking.

Funciona para texto não inglês?

Tokenização segue \w JavaScript; filtro de stops é centrado no inglês. Resultados podem ser menos úteis noutras línguas.

Extrator de palavras-chave: termos e frases online grátis