DBSCAN обнаруживает выбросы, исходя из чего? и каковы критерии выбросов

Question 1

Это разные учетные записи.

Как вы ожидаете безопасности со своей учетной записи, если у каждого есть разрешение удалить домашний каталог?

У вас нет разрешения w для удаления домашнего чужого каталога по умолчанию, за исключением случаев, когда они chmod +w.

Вот разные разрешения и пример (-rwxr-x--- / rwxrx): +-+-+-+-+ |+|u|g|o| +-+-+-+-+ |r|1|1|1| +-+-+-+-+ |w|2|2|2| +-+-+-+-+ |x|4|4|4| +-+-+-+-+ |*|7|5|0| +-+-+-+-+ : 1 + 2 + 4 = 7, 1 + 4 = 5, 0 = 0, поэтому 750, т.е. идеальная система разрешений. Владелец (u в этом случае) может читать, записывать и исполнять файл, группа владельца (g в этом случае) может читать и исполнять, а любой другой (o в этом случае) ничего не может сделать. Это легендарный: u: current user (User) g: current user's groups (Groups) o: not current user's groups (Others) r: read permission (Read) w: write permission (Write) x: execute permission (X-ecute).

Question 2

Шум - это не то же самое, что и выбросы.

Шум - точки с низкой плотностью. Формально точки, в которых ни одна соседняя точка недостаточно плотная (в противном случае они были бы пограничными точками).

Разница в выбросах такова: точки низкой плотности . В зависимости от параметров все точки могут быть помехами.

Question 3

Question 4

Алгоритм DBSCAN представляет собой алгоритм, основанный на плотности. Он рассматривает плотность точек данных в низине, чтобы решить, принадлежат ли они одному кластеру или нет. Если точка слишком далеко от всех остальных точек, то она считается outlier и ей присваивается метка -1.

В основном у вас есть радиус и несколько соседей. Алгоритмы находят все точки ближе к радиусу к данной точке, и если они больше, чем число соседей, они считают их частью того же кластера, что и плотность . Вы также можете иметь члены кластера с непрозрачными точками, если они ближе радиуса к основной точке, но их окрестность содержит меньше заданного числа соседей.

Алгоритм случайным образом начинает проверять эти условия на данных точек, создания кластеров и, возможно, слияния близких кластеров.

Вы можете взглянуть на страницу википедии на DBSCAN или в этом сообщении в блоге.

Другой вариант алгоритма - HDBSCAN, который это иерархическая версия. В пакете hdbscan есть оптимизированная реализация python, которую вы можете попробовать.

Это говорит о том, что ваш вопрос, вероятно, лучше подходит для страницы wikipedia на DBSCAN или один из связанных с Data-Science StackExchanges.

Anony-Mousse · Answer 1 · 15 August 2018 в 16:59