В данной работе мы предлагаем новую стратегию проверки фактов (поиска истины), основанную на кластеризации данных машинного обучения методом k-means в сочетании с индексом силуэта для определения оптимального значения k, с целью выявления оптимального разбиения набора атрибутов. Такое оптимальное разбиение максимизирует точность процесса поиска истины без необходимости исследовать все возможные разбиения. Результаты интенсивных экспериментов на синтетических и реальных данных показывают, что наш подход превосходит аналогичный в (Lamine Ba et al., 2015), при более разумных затратах вычислительного времени. Наконец, мы описываем способ распараллеливания данного процесса поиска истины с помощью парадигмы MapReduce, чтобы избежать увеличения времени выполнения при увеличении размера входных данных.
ThriftBooks sells millions of used books at the lowest everyday prices. We personally assess every book's quality and offer rare, out-of-print treasures. We deliver the joy of reading in recyclable packaging with free standard shipping on US orders over $15. ThriftBooks.com. Read more. Spend less.