Ferramentas relacionadas
Por que usar um extrator de palavras-chave?
Percorra termos repetidos, ideias de etiquetas ou compare duas colagens sem enviar o texto a um servidor.
Benefícios
- Lista ordenada: veja o que mais se repete em unigramas.
- Controlos: top N, comprimento mínimo, stops.
- Frases: n-gramas opcionais 2–5 palavras.
- Exportar: .txt rápido de tokens.
- Privado: só no cliente.
Como funciona
Saco de palavras ingénuo e janelas deslizantes — exploração, não substituto de suites SEO ou linguística.
O que o código faz
- Normalizar: minúsculas; não-\w a espaços; split em espaços.
- Unigramas: conta tokens acima do mínimo; lista opcional de stops em inglês.
- Ordenar e limitar: contagem descendente; top N (≤ únicos disponíveis).
- N-gramas: mesmo fluxo, janelas contíguas de n palavras; rank por contagem.
- Exportar: só keywords, linha a linha.
Quando usar
Esboços de blog, resumos de alunos, QA de conteúdo leve e verificações «o que usei em excesso?».
Casos ideais
- Edição: apanhador de palavras em excesso.
- Redação: eco de frases via n-gramas.
- Ensino: demonstrar limites da tokenização.
- Privacidade: colagens offline.
- Preparação: antes de NLP especializado.
Factos
A interpretação depende das regras de token e da língua.
Pontos-chave
- A lista de stops é em inglês e fixa no código.
- Ranking de n-gramas ignora comprimento mínimo e stops dos unigramas.
- Alta frequência não é importância temática nem intenção de pesquisa.
- Colagens muito grandes podem esgotar memória do navegador.
- \w inclui letras, dígitos e sublinhado em ECMAScript.
Boas práticas
Cruze com o seu fluxo editorial ou SEO.
Dicas de qualidade
- Limpe marcação para texto simples primeiro.
- Experimente vários comprimentos mínimos para reduzir ruído.
- Combine com legibilidade ou corpus para análise séria.
- Não trate exportações como estratégia de keywords fechada.
- Em excertos de código, identificadores podem dominar.
Quando não confiar
- Stoplists multilingues ou necessidade de lematização.
- Relatórios legais, médicos ou de compliance sobre keywords.
- Paridade exacta com especificação de keywords de uma editora.
Limitações e compatibilidade
Stops orientadas ao inglês; tokenização heurística; requer JavaScript.
Alimentado por processamento no lado do cliente.
Perguntas frequentes
É grátis e privado?
Sim. Tudo corre no seu navegador; nada é enviado para extração.
O que são stopwords aqui?
Uma lista fixa pequena em inglês de palavras muito comuns que pode filtrar para unigramas tenderem a palavras de conteúdo. Não é personalizável na UI.
Os n-gramas usam remoção de stopwords?
Não. N-gramas são construídos com todos os tokens normalizados não vazios; só a lista de unigramas usa stops e comprimento mínimo.
O que inclui a exportação?
Só os tokens de palavra-chave visíveis (um por linha). Contagens e n-gramas não vão no ficheiro.
Isto corresponde ao volume de pesquisa Google?
Não. É uma vista ingénua de frequência do texto colado, não ferramenta de volume ou ranking.
Funciona para texto não inglês?
Tokenização segue \w JavaScript; filtro de stops é centrado no inglês. Resultados podem ser menos úteis noutras línguas.