DBAI

Web Information Extraction – WS 2004/05

 

Dies ist die Webpage der Lehrveranstaltung eines vergangenen Semesters. Die aktuelleste Information zu dieser Lehrveranstaltung befindet sich auf www.dbai.tuwien.ac.at/education/wie/

 

Titel der Lehrveranstaltung: Proseminar Web Information Extraction (181.081), WS 2.0h

Ort: Seminarraum 184/2 (Favoritenstraße 9-11/3.Stock) 

Vortragende: Georg Gottlob, Marcus Herzog

Administrative Betreuung: Wolfgang Gatterbauer, Bernhard Krüpl

Anmeldung: In Vorbesprechung – Do, 4. Nov 2004 (14:00).

Kontakt: gatterX@Xdbai.tuwien.ac.at

 

 

Inhalt

Web Information Extraction verfolgt das Ziel, relevante Informationen aus Webseiten zu extrahieren und unstrukturierte Inhalte in strukturierte Formate überzuführen, d.h. z.B. einzelne Produkte und deren Attribute in Produktkatalogseiten aufzuspüren und in einem strukturierten Format (z.B. in XML) zur Verfügung zu stellen.

 

Zur Lösung dieser komplexen Aufgabenstellung arbeitet man derzeit daran, bestehende Techniken aus Bereichen wie Artificial Intelligence, Information Retrieval und Information Extraction zu kombinieren und zu erweitern.

 

Die Einführung in die aktuelle Forschung erfolgt durch selbständiges Lesen und Analysieren von ausgewählten Publikationen, dem Präsentieren der Erkenntnisse und der anschließenden gemeinsamen Auseinandersetzung mit dem jeweiligen Thema.

 

 

Voraussetzung

  Interesse an einem boomenden Forschungsfeld

  Bereitschaft zum selbständigen Arbeiten und aktiver Teilnahme an Gruppendiskussion

  Englisch

 

  

Durchführung

Jeder Student wählt sich eines von 9 Themen aus der Literaturliste (siehe unten). Zu jedem Thema gehören 2 Papers (Publikationen), über die der Student zwei unabhängige interpretierende und kritische Berichte verfasst (je 2-5 Seiten). Wert wird nicht so sehr auf Stil und Länge gelegt, sondern auf die Qualität der gemachten Interpretationen, Schlussfolgerungen und hinterfragenden Bemerkungen.

 

Die Studenten präsentieren diese Erkenntnisse gemeinsam mit einer Erläuterung zum Hintergrund der jeweiligen Papers (Referenzen / Autoren / Konferenz, auf der das Paper vorgestellt wurde / etc) und geben anschließend noch eine kurze vergleichende Stellungnahme zu den Zusammenhängen der beiden Papers ab (Insgesamt max. 25 min).

 

Die Studenten können die beiden Papers zuerst unabhängig voneinander bearbeiten, werden jedoch dazu angehalten, möglichst bald nach Zusammenhängen und Unterschieden für die Stellungnahme und für die auf die Präsentationen folgende Diskussionsrunde zu suchen. Ebenfalls wird empfohlen, sich mit der in den Papers referenzierten Literatur zu beschäftigen, um den Kontext des Papers im jeweiligen Forschungsgebiet zu verstehen.

 

Ein wichtiger Bestandteil des Proseminars ist die aktive Mitarbeit der Studenten. Das Stellen von kritischen Fragen an die Vortragenden und Erkennen von Parallelen zwischen den Techniken wird erwartet.

 

Die Berichte und Präsentationen werden in Englisch geschrieben bzw. gehalten. Benotet werden jedoch nicht die Englisch-Kenntnisse.

 

 

Beurteilung

  Bericht: 30 Punkte

  Präsentation und anschließende Diskussion: 50 Punkte

  Aktive Teilnahme am Proseminar: 20 Punkte

 

 

Termine

Do, 04. Nov. 2004 (14:00 – 14:30): Vorbesprechung

    

Fr, 12. Nov. 2004 (13:30 – 15:00): Gastvortrag

     Tamir Hassan, Paper (pdf, 2M), Präsentation (pdf, 200K):

     Data Extraction from poorly structured formats - PDF to HTML Conversion

 

Mo, 06. Dez. 2004 (10:00 – ~14:00): Präsentationen / Gemeinsames Mittagessen
     Allan Lackner, Report (doc), Präsentation (ppt): IE vs. Annotating System

     Bernhard Krüpl, Präsentation (ppt): Schema Trees

     Amirreza Tahamtan, Report (doc), Präsentation (ppt): Concept Detection

     Carl Rauch, Report (doc), Präsentation (ppt): Similarity Matching

     Wolfgang Gatterbauer, Report (doc): Automatic Taxonomy Generation

 

Verwandte Vorlesungen

  Web Datenextraktion und –integration (181.130 VU), Robert Baumgartner, WS 2.0h

 

 

Literaturliste

Die ausgewählten Papers stellen einen Auszug aus der aktuellen Forschungsliteratur dar und sind durchgängig in Englisch verfasst. Je zwei Papers sind jeweils einem Thema zugeordnet und werden gemeinsam von einem Studenten bearbeitet.

1. Wrapper Induction Systems

A. Arasu, H. Garcia-Molina. Extracting Structured Data from Web Pages. Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, San Diego, California, USA, 2003.

Y. Yang, W. Luk. A Framework for Web Table Mining. Proceedings of the Fourth International Workshop on Web Information and Data Management (WIDM), McLean, Virginia, USA, 2002.

2. Tree-structure-based Information Extraction vs. Classification of Websites

D. Reis, P. B. Golgher, A. S. da Silva, A. H. F. Laender. Automatic Web News Extraction Using Tree Edit Distance. Proceedings of the Thirteenth International World Wide Web Conference, New York, NY, USA, 2004.

K. Dave, S. Lawrence, D. M. Pennock. Mining the peanut gallery: Opinon Extraction and Semantic Classification of Product Reviews. Proceedings of the Twelfth International World Wide Web Conference, Budapest, Hungary, 2003.

3. Overall Information Extraction System vs. Annotating System

O. Etzioni, M. Cafarella, D. Downey, S. Kok, A.-M. Popescu, T. Shaked, S. Soderland, D. S. Weld, A. Yates. Web-Scale Information Extraction in KnowItAll (Preliminary Results). Proceedings of the Thirteenth International World Wide Web Conference, New York, NY, USA, 2004.

S. Handschuh, S. Staab, F. Ciravegna. S-CREAM – Semi-automatic CREAtion of Metadata. Proceedings of the Thirteenth International Conference on Knowledge Engineering and Knowledge Management (EKAW), Siguenza, Spain, 2002.

4. Web page Classification vs. Text Similarity Functions

A. Sun, E.-P. Lim, W.-K. Lim. Web Classification Using Support Vector Machine. Proceedings of the Fourth International Workshop on Web Information and Data Management (WIDM), McLean, Virginia, USA, 2002.

L. Gravano, P. G. Ipeirotis, N. Koudas, D. Srivastava. Text Joins in an RDBMS for Web Data Integration. Proceedings of the Twelfth International World Wide Web Conference, Budapest, Hungary, 2003.

5. Wrapper Induction

G. Sigletos, G. Paliouras, C. D. Spyropoulos, M. Hatzopoulos. Mining Web Sites Using Wrapper Induction, Named Entities and Post-Processing. Proceedings of the First European Web Mining Forum, Cavtat-Dubrovnik, Croatia, 2003.

W. W. Cohen, M. Hurst, L. S. Jensen. A Flexible Learning System for Wrapping Tables and Lists in HTML Documents. Proceedings of the Eleventh International World Wide Web Conference, Honolulu, Hawaii, USA, 2002.

6. Schema Trees

K. Maruyama, K. Uehara. Mining Association Rules from Semi-structured Data. Proceedings of the International Workshop on Web Knowledge Discovery and Data Mining (WKDDM), Tokyo, Japan, 2000.

P. Cimiano, A. Pivk, L. Schmidt-Thieme, S. Staab. Learning Taxonomic Relations from Heterogeneous Evidence. Proceedings of the Sixteenth European Conference on Artificial Intelligence (ECAI), Valencia, Spain, 2004.

7. Concept Detection

Y. Fu, T. Bauer, J. Mostafa, M. Palakal, S. Mukhopadhyay. Concept Extraction and Association from Cancer Literature. Proceedings of the Fourth International Workshop on Web Information and Data Management (WIDM), McLean, Virginia, USA, 2002.

B. Liu, C. W. Chin, H. T. Ng. Mining Topic-Specific Concepts and Definitions on the Web. Proceedings of the Twelfth International World Wide Web Conference, Budapest, Hungary, 2003.

8. Ontology Building

P. Cimiano, S. Handschuh, S. Staab. Towards the Self-Annotating Web. Proceedings of the Thirteenth International World Wide Web Conference, New York, NY, USA, 2004.

M. L. Reinberger, P. Spyns. Discovering Knowledge in Texts from the learning of DOGMA-inspired ontologies. Proceedings of the Sixteenth European Conference on Artificial Intelligence (ECAI), Valencia, Spain, 2004.

9. Similarity Matching

T. Oates, V. Bhat, V. Shanbhag. Using Latent Semantic Analysis to Find Different Names for the Same Entity in Free Text. Proceedings of the Fourth International Workshop on Web Information and Data Management (WIDM), McLean, Virginia, USA, 2002.

M. Bilenko, R. J. Mooney. Adaptive Duplicate Detection Using Learnable String Similarity Measures. Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery an Data Mining. Washington, DC, USA, 2003.

Link zu Original-Papers (Passwort-geschützt / Grund: Allfällige Schutzrechte)

 

 

Ressourcen

  10 beliebte Fehler bei Vorträgen (pdf, 6K), Ludwig-Maximilians-Universität München

  ACM-Portal (Associaton of Computing Machinery): Wissenschaftliche Publikationen

  CiteSeer: Verweise zwischen Publikationen

  DBLP Library (Uni Trier): Beziehungen zwischen Autoren

  Google Scholar: Google speziell für wissenschaftliche Publikationen