AG DANK/BCS Herbsttagung 2013 in London – Gesellschaft für Klassifikation (GfKl)

Department of Statistical Science , University College London, 8./9. November 2013, Galton Lecture Theatre. Die Tagung beginnt voraussichtlich ungefähr 13:30 Uhr am Freitag und endet 13:30 Uhr am Samstag.

Schwerpunktthema: Variablenselektion und Dimensionsreduktion in Clustering und Klassifikation

Organisiert von Christian Hennig. (c.hennig (at) ucl.ac.uk).

Information über die Gesellschaften:
British Classification Society,
AG DANK (AG Datenanalyse und Numerische Klassifikation) der deutschen Gesellschaft für Klassifikation.

Die Tagung ist unterstützt vom UCL Centre for Computational Statistics and Machine Learning
und von Chapman and Hall/CRC.

Eingeladene Vortragende:

Teilnahme

Teilnahme ist noch möglich, so lange die Kapazität des Hörsaals (ca. 50) noch nicht überfordert ist. Wenn Sie teilnehmen wollen, kontaktieren Sie bitte den Organisator c.hennig (at) ucl.ac.uk.
Weitere Vorträge können leider nicht mehr angenommen werden.
Teilnahme ist kostenlos.

Ort

Die Tagung wird stattfinden im Galton Lecture Theatre, Room 115, 1-19 Torrington Place. Ein Übersichtsplan findet sich hier. Mehr Information ist hier. Die nächste Station der Underground ist Goodge Street auf der Northern Line; die Stationen Warren Street, Euston und Euston Square sind zu Fuß 10-15 Minuten entfernt, und King’s Cross/St. Pancras (Eurostar Terminal und Verbindung nach Luton Airport) gut 20 Minuten.

Datensätze zur Analyse durch Teilnehmende

Zeit beim Meeting ist reserviert für die Präsentation von Analysen der folgenden Datensätze durch die Teilnehmenden. Falls Sie eine solche Analyse präsentieren möchten, beschränken Sie sich bitte auf höchstens 5 Minuten.

Spike sorting

Dieser Datensatz wurde zur Verfügung gestellt von Kenneth Harris, UCL Neuroscience (Präsentation ist hier). Er enthält 20000 Beobachtungen auf 96 Variablen und eine unbekannte Anzahl Cluster; nur einige Variablen sind informativ für jeden Cluster, aber das sind nicht notwendigerweise für jeden Cluster dieselben.
Datensatz (ASCII Text, gzipped; ich empfehle, den Link abzuspeichern)
Informationen zum Datensatz (ASCII Text)
Illustration zu den Informationen zum Datensatz (pdf; siehe Informations-File für Erklärung)

Wettbewerb

Der Datensatz enthält einen artifiziellen als wahr bekannten Cluster (neben möglichen anderen Clusters). Sie können am Wettbewerb teilnehmen, indem Sie bis Dienstag 5. November 18:00 eine email an c.hennig (at) ucl.ac.uk senden mit einer ASCII Textdatei mit 20000 Clustermitgliedschaften. Details entnehmen Sie bitte dem Informations-File. Siehe unten für die Buchpreise, die es zu gewinnen gibt.

Fledermausarten

Dieser Datensatz wurde von Veronica Zamora-Gutierrez, Cambridge University, zur Verfügung gestellt (Präsentation ist hier). Er enthält 2678 Beobachtungen auf 73 Variablen. Es gibt acht bekannte Klassen (Arten von Fledermäusen), so dass es sich um ein supervised classification-Problem handelt. Das Hauptinteresse besteht darin, Variablen zu finden, mit denen sich die Fledermausarten optimal diskriminieren lassen. Es ist aber auch von Interesse, die acht Arten in eine kleinere Anzahl Cluster zu unterteilen, welche als erster Schritt eines möglicherweise besser lösbaren Klassifikationsproblems diskriminiert werden könnten.
Datensatz (ASCII Text, gzipped; ich empfehle, den Link abzuspeichern)
Informationen über den Datensatz (docx File)

Buchpreise

Die folgenden Buchpreise wurden zur gespendet von Chapman and Hall/CRC:

Clustering – A Data Recovery Approach von Boris Mirkin.
Data Clustering – Algorithms and Applications von Charu C. Aggarwal; Chandan K. Reddy.
Data Clustering in C++ – An Object Oriented Approach von Guojun Gan.
Ensemble Methods – Foundations and Algorithms von Zhi-Hua Zhou.

Die zwei Gewinner des Spike Sorting-Wettbewerbs können zuerst ihre Buchpreise aussuchen. Die anderen zwei Gewinner werden zufällig aus denen ausgewählt, die Analysen des Fledermaus-Datensatzes auf dem Meeting präsentieren.

Programm

Freitag 8. November

13:30 Begrüßung
13:45 Gilles Celeux – Variable selection in clustering and classification: issues, difficulties and solutions (Präsentation ist hier)
14:30 Silvia Liverani and Michail Papathomas – Using Profile Regression Mixture Models and Dirichlet Processes to explore the combined effect of risk factors; the R package PReMiuM (Präsentation ist hier)
15:00 Francesca Greselin – Data driven constraints for Gaussian mixtures of factor analyzers: an application to market segmentation (Präsentation ist hier)
15:30 Pause
15:45 Silvia Pandolfi – Item selection by latent class-based methods: an application to nursing homes evaluation (Präsentation ist hier)
16:15 Hans-Joachim Mucha – Variable Selection in Cluster Analysis Using Resampling Techniques (Präsentation ist hier)
16:45 James Barrett – Dimensionality detection and integration of multiple sources via the Gaussian Process Latent Variable Model (Präsentation ist hier)
17:15 Pause
17:40 Veronica Zamora-Gutierrez, Kenneth Harris and others – Discussion of datasets (Präsentationen siehe oben).
19:00 AGM of the BCS (BCS members only)
20:00 Abendessen. Tische sind reserviert im indischen Restaurant Lal Qila, 117 Tottenham Court Road (5-10 Minuten entfernt vom Department; bezahlen muss jeder selbst).

Samstag 9. November

9:00 Andre T. Martins and Mario Figueiredo – Sparsity and Structured Sparsity for Feature Selection in Machine Learning (Präsentation ist hier)
9:45 Ulrich Müller-Funk – Non-linear factor selection and copulas of copulas (Präsentation ist hier)
10:15 Gunter Ritter – A probabilistic method for gene expression data (Präsentation ist hier)
10:45 Pause
11:15 Yoshikazu Terada – Achieving near-perfect clustering for high dimension, low sample size data (Präsentation ist hier)
11:35 Thomas Weber – Multidimensional questions: Can multivariate statistics help us to classify Older Stone Age artefact inventories? (Präsentation ist hier)
11:55 Nema Dean – Variable selection in educational testing clustering (Präsentation ist hier)
12:15 Andreas Artemiou – Sufficient dimension reduction using machine learning (Präsentation ist hier)
12:35 Roberto Rocci – Models for simultaneous clustering and reduction of three-way data (Präsentation ist hier)
13:20 Ende der Tagung

Unterbringung

Es gibt recht viele Hotels in der Nähe des Departments (man kann nach Hotels in Bloomsbury, Russell Square oder Euston suchen).
Eines der preiswerteren Hotels/Bed and Breakfasts ist das Crescent Hotel.
Weitere Möglichkeiten bietet Grange Hotels, z.B. Lancaster Hotel oder Langham Court.

Weitere Informationen folgen später.