Statistik teks

Analisis teks lanjutan

Rata-rata, kata dan kalimat terpanjang/terpendek, serta kekayaan kosakata.

Alat terkait

Mengapa memakai statistik teks?

Periksa apakah kalimat kepanjangan, kata tidak wajar panjangnya, atau kosakata terlihat bervariasi — sebelum NLP berat atau mengirim ke editor.

Manfaat

  • Rata-rata: ukuran kata dan kalimat sekilas.
  • Ekstrem: menemukan outlier panjang.
  • Kekayaan: persentase unik vs total sederhana.
  • Langsung: metrik berubah saat mengetik.
  • Privat: hanya klien, tanpa kirim server.

Cara kerja

Pisahan dan aritmatika JavaScript — cocok untuk teks biasa mirip bahasa Inggris, bukan pengganti alat linguistik.

Yang ditampilkan

  • Kata: `trim` lalu pisah spasi.
  • Kalimat: pisah . ! ?; sisa kosong dibuang.
  • Kata terpanjang/terpendek: menurut panjang string token mentah.
  • Kalimat terpanjang/terpendek: menurut jumlah kata tiap segmen.
  • Kekayaan: ukuran `Set` bentuk dinormalisasi dibagi jumlah token.

Kapan memakai

Tinjauan draf, tugas mahasiswa, buletin, dan perbandingan cepat dua versi yang ditempel.

Kasus ideal

  • Sunting: menemukan satu kalimat super panjang.
  • Gaya: melihat apakah rata-rata bergeser antar bagian.
  • Mengajar: menunjukkan metrik naif.
  • QA: sebelum skor keterbacaan khusus.
  • Privasi: draf untuk offline lebih dulu.

Fakta

Keterbatasan penting.

Poin utama

  • Panjang kalimat rata-rata memakai hitung kalimat naif; split kosong difilter.
  • Kalimat terpanjang di UI dapat dipotong setelah 100 karakter untuk tata letak.
  • Kata dengan tanda hubung dan kontraksi dihitung satu token.
  • Aksara non-Latin dapat memengaruhi normalisasi himpunan kekayaan.
  • Tempel sangat besar bisa mencapai batas memori peramban.

Praktik terbaik

Gunakan dengan pertimbangan.

Kualitas

  • Padukan dengan alat keterbacaan untuk skor bertingkat.
  • Untuk hitung hukum atau akademik, ikuti definisi «kata» yang disyaratkan.
  • Bersihkan markup ke teks biasa dulu agar metrik adil.
  • Bandingkan draf dengan higienis tempel yang sama.
  • Jangan anggap kekayaan sebagai satu-satunya sinyal kualitas SEO.

Kapan tidak mengandalkan

  • Saat batas kalimat harus cocok dengan stylesheet penerbit.
  • Saat Anda butuh statistik suku kata, lema, atau n-gram.
  • Sebagai pengganti suite plagiarisme atau SEO.

Keterbatasan dan kompatibilitas

Metrik heuristik; input textarea teks biasa; memerlukan JavaScript.

Didukung pemrosesan sisi klien.

Pertanyaan umum

Apakah alat statistik teks ini gratis?

Ya. Analisis berjalan di peramban Anda. Tidak perlu mendaftar atau mengunggah teks ke server.

Apa yang dimaksud kekayaan kosakata di sini?

Bentuk kata unik (huruf kecil; karakter non alfanumerik dibuang untuk kunci) dibagi total kata, dikali 100. Ini rasio tipe–token sederhana, bukan TTR linguistik lengkap.

Bagaimana kalimat dideteksi?

Teks dipisah pada ., !, dan ?. Singkatan dan desimal bisa membuat segmen kalimat tambahan.

Mengapa panjang kata menyertakan tanda baca?

Token diambil apa adanya dari pemisahan spasi, jadi koma atau kutip di akhir menambah hitungan karakter.

Apakah teks saya aman?

Ya. Pemrosesan tetap di perangkat Anda.

Bedanya dengan penghitung kata?

Penghitung kata menjumlahkan kata. Di sini Anda juga mendapat rata-rata, ekstrem, dan persentase keunikan.

Statistik teks: analisis lanjutan online gratis