?

Log in

No account? Create an account
Aging
dundee_scalaer
https://www.theguardian.com/society/2019/jan/03/age-against-the-machine-secret-enjoying

Стихи, как ощущение современности
dundee_scalaer
91-й год. Или 92-й. Стихи всегда казались классикой, Пушкин, Лермонтов и прочий Серебряный Век. А ДДТ и Шевчук показали, что поэзия может быть современной.


Америка
dundee_scalaer
Долина Огня. Марс из фильма "Вспомнить все"...





Америка
dundee_scalaer
Забриски Пойт весной.
Смотреть под the Doors...
https://www.youtube.com/watch?v=JSUIQgEVDM4














Music
dundee_scalaer

Недостатки предсказаний сделанных человеком
dundee_scalaer
По каким причинам предсказания сделанные человеком (judgement forecasts) могут быть менее точными, чем сделанные алгоритмически:

  1. Inconsistency: человек может поменять свое мнение без причины, обоснованной данными.

  2. Recent event dominance: в силу ограниченности памяти и восприятия более поздние по времени события будут доминировать в предсказании. Если случайность играет значительную роль, особенно в более поздних данных, такое доминирование ухудшит точность предсказаний.

  3. Mistaking correlation for causality: человек может принять наличие корреляции за причинно-следственную связь. Если корреляция зависит от времени и пропадет в какой-то момент, это может быть проблемой для точности предсказаний.

  4. Optimistic thinking: человек более оптимистичен, чем алгоритмы и может внести посторонние факторы в технику предсказания. Например, зависимость предсказания от будущего бонуса человека.

  5. Underestimating variability


17 типов ML алгоритмов для классификации
dundee_scalaer

  1. discriminant analysis

  2. Bayesian techniques

  3. neural networks

  4. support vector machines

  5. decision trees

  6. rule-based classifiers

  7. boosting

  8. bagging

  9. stacking

  10. random forests and other ensembles

  11. generalized linear models

  12. nearest neighbors

  13. partial least squares

  14. principal component regression

  15. logistic and multinomial regression

  16. multiple adaptive regression splines

  17. other methods


http://jmlr.csail.mit.edu/papers/volume15/delgado14a/delgado14a.pdf

Statistical summary of data.
dundee_scalaer
"As most information (common estimates say over 80%)[5] is currently stored as text, text mining is believed to have a high commercial potential value. Increasing interest is being paid to multilingual data mining: the ability to gain information across languages and cluster similar items from different linguistic sources according to their meaning." (C) Wikipedia


Достаточно легко сформулировать summary численных данных - среднее, дисперсия, корреляции м/у разными переменными, фитирование конкретными распредлениями, численная фильтрация, поиск outliers.
Что будет аналогом такого summary для текстовых данных?

Среднее по тексту(ам)?
Дисперсия текстов или идеи в текстах?
Корреляция м/у различными текстами? Вообще что и как можно коррелировать (кроме очевидных word frequencies)?

Интересно, насколько эти вопросы связаны с общей струкрутированностью данных в тексте?

Подумалось.
dundee_scalaer
Эволюция в биологии чем-то сродни гравитации в физике. Убедительные эксперименты почти невозможны, прогресс в обеих областях медленнее, чем в других областях соответствующих наук. Да, и заниматься гравитацией и эволюцией всерьез осмеливаются немногие.

Подумалось.
dundee_scalaer
У каждого человека есть ментальный предел сложности понятий. По простому, любой может найти понятие, думать о котором у него ума не хватает. Даже если он может запомнить его определение. Простой метод отыскания таких понятий - современенная математика.