В конце 40-х годов нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде fr = c, где f – частота встречаемости слова в тексте; r – ранг (порядковый номер) слова в списке; с – эмпирическая постоянная величина. Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки, в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму – форму гиперболической лестницы, т.е. при замене одного текста другим общий характер распределения не изменялся. Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную стоимость. Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости fry = c , где y – величина (близкая к единице), которая может изменяться в зависимости от свойств текста. Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.), городов США по численности населения (Дж. Ципф, 1949 г.), населения по размерам дохода в капиталистических странах (В. Парето, 1897 г.), биологических родов по численности видов (Дж. Уиллис, 1922 г.) и др. http://www.n-t.org/ri/ch/pi05.htm
Одним из подходов [1] к составлению тезауруса может стать использование законов Ципфа. Рассмотрим их более подробно. Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте равно отношению частоты вхождения слова к числу слов в тексте. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке: С = ( f х r )/n где f — частота вхождения слов, r — ранг частоты, n — число слов Это значит, что график зависимости ранга от частоты представляет из себя равностороннюю гиперболу. Ципф также установил, что зависимость количества слов с данной частотой от частоты постоянна для всех текстов в пределах одного языка и также является гиперболой. Исследование вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке — артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Таким образом, данная особенность может помочь правильно выбрать ключевые слова для проведения поиска информации. Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, web-страница, любой другой документ. Анализ текста производится в следующем порядке: 1. стоп-слова удаляются из текста; 2. вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты; 3. выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста; 4. составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ) Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов. Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты вхождения в документ слов запроса, применяемому в большинстве поисковых машин, на первых страницах найденных ресурсов практически все документы должны оказаться релевантными. http://www.aup.ru/books/m80/4.htm
1.3. Условная энтропия. Свойства иерархической аддитивности
Обобщим формулы (1.2.1), (1.2.3) на случай условных вероятностей.
Пусть имеются случайные величины x1, …, xn, описываемые совместным распределением P(x1, …, xn).
Условной вероятности
P(x1, …, xnЅ x1, …, xk-1)= P(x1, …, xn)/ P(x1, …, xk-1) (k Ј< n).
сопоставим случайную условную энтропию
Н(x1, …, xnЅ x1, …, xk-1)= -ln P(x1, …, xnЅ x1, …, xk-1) (1.3.1)
Введем особое обозначение для результата усреднения ее по xk), …, xn):
Нxk, …, xn Ѕ x1, …, xk-1)= - еx(k), …, x(n) P(x1, …, xnЅ x1, …, xk-1)X ln P(x1, …, xnЅ x1, …, xk-1), (1.3.2) |
Комментариев нет:
Отправить комментарий