Extractor de palabras clave

Palabras clave y frases

Palabras ordenadas por frecuencia y n-gramas opcionales a partir de texto pegado.

Herramientas relacionadas

¿Para qué usar un extractor de palabras clave?

Repasa términos repetidos, ideas para etiquetas o compara dos pegados sin enviar tu texto a un servidor.

Ventajas

  • Lista ordenada: ve qué se repite más como unigramas.
  • Controles: top N, longitud mínima y vacías.
  • Frases: n-gramas opcionales de 2–5 palabras.
  • Exportar: .txt rápido de tokens.
  • Privado: solo en el cliente.

Cómo funciona

Bolsa de palabras naïve y ventanas deslizantes: útil para explorar, no sustituye suites SEO ni herramientas lingüísticas.

Qué hace el código

  • Normalizar: minúsculas; no-\w a espacios; división por espacios.
  • Unigramas: cuenta tokens que superan la longitud mínima; lista opcional de vacías en inglés.
  • Orden y tope: cuenta descendente; conserva top N (≤ únicos disponibles).
  • N-gramas: mismo flujo, ventanas contiguas de n palabras; orden por cuenta.
  • Exportar: solo palabras clave, separadas por salto de línea.

Cuándo usarla

Esquemas de blog, resúmenes de estudiantes, QA ligero de contenido y comprobaciones rápidas de «¿qué abusé?».

Casos ideales

  • Edición: detectar palabras demasiado usadas.
  • Redacción: eco de frases vía n-gramas.
  • Docencia: mostrar límites de tokenización.
  • Privacidad: pegados sin conexión.
  • Preparación: antes de NLP especializado.

Datos

La interpretación depende de las reglas de token y del idioma.

Puntos clave

  • La lista de vacías es en inglés y fija en el código.
  • El ranking de n-gramas ignora longitud mínima y vacías usadas en unigramas.
  • Alta frecuencia no es lo mismo que importancia temática o intención de búsqueda.
  • Los pegados muy grandes pueden alcanzar límites de memoria del navegador.
  • \w incluye letras, dígitos y guion bajo en ECMAScript.

Buenas prácticas

Contrasta con tu flujo editorial o SEO.

Consejos de calidad

  • Limpia marcado a texto plano primero para cuentas justas.
  • Prueba varios valores de longitud mínima para reducir ruido.
  • Combina con legibilidad o corpus para análisis serio.
  • No tomes las listas exportadas como estrategia de palabras clave cerrada.
  • En fragmentos de código, los identificadores pueden dominar los tokens.

Cuándo no fiarse

  • Listas de vacías multilingües o necesidad de lematización.
  • Informes legales, médicos o de cumplimiento sobre palabras clave.
  • Paridad exacta con la especificación de palabras clave de una editorial concreta.

Limitaciones y compatibilidad

Vacías orientadas al inglés; tokenización heurística; requiere JavaScript.

Impulsado por procesamiento en el lado del cliente.

Preguntas frecuentes

¿Es gratis y privado?

Sí. Todo corre en tu navegador; no se sube nada para la extracción.

¿Qué son las vacías aquí?

Una lista fija pequeña en inglés de palabras muy comunes que puedes filtrar para que los unigramas se inclinen hacia palabras de contenido. No es personalizable en la interfaz.

¿Los n-gramas usan eliminación de vacías?

No. Los n-gramas se construyen con todos los tokens normalizados no vacíos; solo la lista de unigramas usa las opciones de vacías y longitud mínima.

¿Qué incluye la exportación?

Solo los tokens de palabra clave visibles (uno por línea). No incluye recuentos ni n-gramas en el archivo.

¿Coincidirá con el volumen de búsqueda de Google?

No. Es una vista ingenua de frecuencia de tu texto pegado, no una herramienta de volumen ni de posicionamiento.

¿Funciona con texto no inglés?

La tokenización sigue las reglas \w de JavaScript; el filtro de vacías está orientado al inglés. Los resultados pueden ser menos útiles en otros idiomas.

Extractor de palabras clave: términos y frases online gratis