dundee_scalaer (dundee_scalaer) wrote,
dundee_scalaer
dundee_scalaer

Statistical summary of data.

"As most information (common estimates say over 80%)[5] is currently stored as text, text mining is believed to have a high commercial potential value. Increasing interest is being paid to multilingual data mining: the ability to gain information across languages and cluster similar items from different linguistic sources according to their meaning." (C) Wikipedia


Достаточно легко сформулировать summary численных данных - среднее, дисперсия, корреляции м/у разными переменными, фитирование конкретными распредлениями, численная фильтрация, поиск outliers.
Что будет аналогом такого summary для текстовых данных?

Среднее по тексту(ам)?
Дисперсия текстов или идеи в текстах?
Корреляция м/у различными текстами? Вообще что и как можно коррелировать (кроме очевидных word frequencies)?

Интересно, насколько эти вопросы связаны с общей струкрутированностью данных в тексте?
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 0 comments