Datenanalyse Muster

In der Psychologie ist die Mustererkennung (sinnvollund und identifizierende Objekte) eng mit der Wahrnehmung verbunden, was erklärt, wie die sensorischen Inputs, die Menschen erhalten, sinnvoll gemacht werden. Die Mustererkennung kann auf zwei verschiedene Arten betrachtet werden: die erste ist vorlagenabgleich und die zweite ist die Feature-Erkennung. Eine Vorlage ist ein Muster, das zum Erstellen von Elementen mit den gleichen Proportionen verwendet wird. Die Hypothese des Vorlagenabgleichs legt nahe, dass eingehende Reize mit Vorlagen im Langzeitgedächtnis verglichen werden. Wenn es eine Übereinstimmung gibt, wird der Stimulus identifiziert. Feature-Erkennungsmodelle, wie das Pandemonium-System zur Klassifizierung von Buchstaben (Selfridge, 1959), deuten darauf hin, dass die Reize zur Identifizierung in ihre Komponenten unterteilt werden. Ein Großbuchstabe E hat z. B. drei horizontale Linien und eine vertikale Linie. [23] Andere Beispiele? Denken Sie an jede Situation, in der Sie einen großen Datensatz von Instanzen haben können, die nicht explizit kategorisch getrennt sind, aber “natürlich” ähnliche Merkmale aufweisen können: eine Sammlung von Daten, die Tiertypen beschreiben (Beinen, Augenposition, Abdeckung); umfangreiche Daten über zahlreiche Arten von Proteinen; genetische Informationen, die Personen mit einer Vielzahl von ethnischen Hintergründen beschreiben. All diese Situationen (und viele mehr) könnten davon profitieren, dass unbeaufsichtigte Clustering-Algorithmen feststellen können, welche Instanzen einander ähnlich sind und welche Instanzen unterschiedlich sind. Algorithmen für die Mustererkennung hängen von der Art der Etikettenausgabe ab, davon, ob das Lernen überwacht oder unbeaufsichtigt ist, und davon, ob der Algorithmus statistischer oder nicht statistischer Natur ist.

Statistische Algorithmen können weiter als generativ oder diskriminierend kategorisiert werden. Zusammenfassend wird in diesem Kapitel unser erstes Datenanalysemuster vorgeschlagen; d. h. eine abstrakte Beschreibung einer bestimmten Data Mining-Aufgabe. Beim Schreiben dieser Muster werden wir darauf achten, die Zusammenhänge zwischen Mustern aus verschiedenen Kapiteln zu kommentieren. Warum bergen wir Daten? Dieser Beitrag ist eine Übersicht über die Arten von Mustern, die aus Data Mining gewonnen werden können, und einige reale Beispiele für diese Muster. Die bayesische Statistik hat ihren Ursprung in der griechischen Philosophie, wo bereits zwischen dem “a priori” und dem “a posteriori”-Wissen unterschieden wurde. Später definierte Kant seine Unterscheidung zwischen dem, was a priori vor der Beobachtung bekannt ist, und dem empirischen Wissen aus Beobachtungen. In einem Bayesschen Musterklassifiker werden die Klassenwahrscheinlichkeiten p ( l a b e l | ) . . . .

. . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . .

. Der Benutzer kann das ,,boldsymbol”-Präas”-Symbol “Theta” wählen, das dann von vornherein erfolgt. Darüber hinaus können als a priori quantifizierte Erfahrungen mit empirischen Beobachtungen gewichtet werden – z.B. mit den Beta- (Konjugat vor) und Dirichlet-Verteilungen. Der bayesische Ansatz ermöglicht eine nahtlose Vermischung von Expertenwissen in Form subjektiver Wahrscheinlichkeiten und objektiven Beobachtungen. Werkzeuggesteuerte Forschung birgt einige bekannte Risiken. Jeder kann ganz einfach statistische Tools aus dem Internet herunterladen und ausgeklügelte statistische Analysen durchführen.