Перейти к содержимому

23 февраля, 2016

Наивный байесовский классификатор документов в Excel

Самое распространенное применение наивного Байеса — классификация документов. Является ли это электронное письмо спамом или наоборот, долгожданной новостью? Эта запись в Twitter — благодушная или сердитая? Нужно ли передавать этот перехваченный звонок по сотовому для дальнейшего исследования федеральным агентам? Вы предоставляете «данные для обучения», например, классифицированные примеры документов, обучающему алгоритму, который в дальнейшем сможет «разбить» новые документы на те же категории, используя имеющиеся знания. [1]

Самый распространенный подход к классификации документов — это использование модели набор слов в сочетании с наивным байесовским классификатором. Модель набор слов воспринимает документ как беспорядочное множество слов. «Джонни съел сыр» для него то же самое, что «сыр съел Джонни» — и то и другое состоит из одного и того же множества слов: {«Джонни», «съел», «сыр»}.

Подробнее »Наивный байесовский классификатор документов в Excel