Web Information Extraction – WS 2004/05
|
|
|
Dies ist die Webpage der Lehrveranstaltung eines vergangenen Semesters. Die aktuelleste Information zu dieser Lehrveranstaltung befindet sich auf www.dbai.tuwien.ac.at/education/wie/
Titel der Lehrveranstaltung: Proseminar Web Information Extraction (181.081), WS 2.0h Ort: Seminarraum
184/2 (Favoritenstraße 9-11/3.Stock) Vortragende: Georg
Gottlob, Marcus
Herzog Anmeldung: In
Vorbesprechung – Do, 4. Nov 2004 (14:00). Kontakt: gatterX@Xdbai.tuwien.ac.at |
|
|
Inhalt Web Information Extraction
verfolgt das Ziel, relevante Informationen aus Webseiten zu extrahieren und
unstrukturierte Inhalte in strukturierte Formate überzuführen, d.h. z.B.
einzelne Produkte und deren Attribute in Produktkatalogseiten aufzuspüren und
in einem strukturierten Format (z.B. in XML) zur Verfügung zu stellen. Zur Lösung dieser
komplexen Aufgabenstellung arbeitet man derzeit daran, bestehende Techniken
aus Bereichen wie Artificial Intelligence, Information Retrieval und
Information Extraction zu kombinieren und zu erweitern. Die Einführung in
die aktuelle Forschung erfolgt durch selbständiges Lesen und Analysieren von
ausgewählten Publikationen, dem Präsentieren der Erkenntnisse und der
anschließenden gemeinsamen Auseinandersetzung mit dem jeweiligen Thema. Voraussetzung • Interesse an einem boomenden
Forschungsfeld • Bereitschaft zum
selbständigen Arbeiten und aktiver Teilnahme an Gruppendiskussion • Englisch Durchführung Jeder Student wählt sich
eines von 9 Themen aus der Literaturliste (siehe unten). Zu jedem Thema
gehören 2 Papers (Publikationen), über die der Student zwei unabhängige
interpretierende und kritische Berichte verfasst (je 2-5 Seiten). Wert wird
nicht so sehr auf Stil und Länge gelegt, sondern auf die Qualität der
gemachten Interpretationen, Schlussfolgerungen und hinterfragenden
Bemerkungen. Die Studenten
präsentieren diese Erkenntnisse gemeinsam mit einer Erläuterung zum
Hintergrund der jeweiligen Papers (Referenzen / Autoren / Konferenz, auf der
das Paper vorgestellt wurde / etc) und geben anschließend noch eine kurze
vergleichende Stellungnahme zu den Zusammenhängen der beiden Papers ab
(Insgesamt max. 25 min). Die Studenten können
die beiden Papers zuerst unabhängig voneinander bearbeiten, werden jedoch
dazu angehalten, möglichst bald nach Zusammenhängen und Unterschieden für die
Stellungnahme und für die auf die Präsentationen folgende Diskussionsrunde zu
suchen. Ebenfalls wird empfohlen, sich mit der in den Papers referenzierten
Literatur zu beschäftigen, um den Kontext des Papers im jeweiligen
Forschungsgebiet zu verstehen. Ein wichtiger
Bestandteil des Proseminars ist die aktive Mitarbeit der Studenten. Das
Stellen von kritischen Fragen an die Vortragenden und Erkennen von Parallelen
zwischen den Techniken wird erwartet. Die Berichte und
Präsentationen werden in Englisch geschrieben bzw. gehalten. Benotet werden
jedoch nicht die Englisch-Kenntnisse. Beurteilung • Bericht: 30 Punkte • Präsentation und
anschließende Diskussion: 50 Punkte • Aktive Teilnahme am
Proseminar: 20 Punkte Termine Do, 04. Nov. 2004
(14:00 – 14:30) Fr, 12. Nov. 2004
(13:30 – 15:00) Tamir Hassan, Paper (pdf, 2M),
Präsentation (pdf, 200K) Mo, 06. Dez. 2004 (10:00 – ~14:00): Präsentationen /
Gemeinsames Mittagessen Bernhard Krüpl, Präsentation (ppt): Schema Trees Amirreza Tahamtan, Report (doc), Präsentation (ppt): Concept Detection Carl Rauch, Report (doc), Präsentation (ppt): Similarity Matching Wolfgang Gatterbauer, Report (doc): Automatic Taxonomy Generation Verwandte Vorlesungen • Web
Datenextraktion und –integration (181.130 VU), Robert Baumgartner,
WS 2.0h Literaturliste Die ausgewählten
Papers stellen einen Auszug aus der aktuellen Forschungsliteratur dar und
sind durchgängig in Englisch verfasst. Je zwei Papers sind jeweils einem
Thema zugeordnet und werden gemeinsam von einem Studenten bearbeitet. 1. Wrapper Induction
Systems A. Arasu, H. Garcia-Molina. Extracting
Structured Data from Web Pages. Proceedings of the 2003 ACM SIGMOD
International Conference on Management of Data, Y. Yang, W. Luk. A Framework
for Web Table Mining. Proceedings of the Fourth International Workshop
on Web Information and Data Management (WIDM), 2. Tree-structure-based Information Extraction vs. Classification of Websites D. Reis, P. B. Golgher, A.
S. da Silva, A. H. F. Laender. Automatic Web News Extraction Using Tree Edit
Distance. Proceedings of the Thirteenth
International World Wide Web Conference, K. Dave, 3. Overall Information Extraction System vs. Annotating System O. Etzioni, M. Cafarella, D. S. Handschuh, S. Staab, F.
Ciravegna. S-CREAM – Semi-automatic
CREAtion of Metadata. Proceedings of the
Thirteenth International Conference on Knowledge Engineering and Knowledge
Management (EKAW), 4. Web page Classification
vs. Text Similarity Functions A. Sun, E.-P. Lim, W.-K. Lim. Web Classification Using Support Vector Machine.
Proceedings of the Fourth International Workshop on Web Information and Data
Management (WIDM), L. Gravano, P. G. Ipeirotis, N. Koudas, D.
Srivastava. Text Joins in an RDBMS for Web Data Integration.
Proceedings of the Twelfth International World Wide Web Conference, 5. Wrapper Induction G. Sigletos, G. Paliouras, C. D. Spyropoulos,
M. Hatzopoulos. Mining Web Sites Using Wrapper Induction,
Named Entities and Post-Processing. Proceedings of the First European
Web Mining Forum, W. W. Cohen, M. Hurst, L. S.
Jensen. A Flexible Learning System
for Wrapping Tables and Lists in HTML Documents. Proceedings of the Eleventh International World Wide Web
Conference, 6. Schema Trees K. Maruyama, K. Uehara. Mining Association Rules from Semi-structured
Data. Proceedings of the International
Workshop on Web Knowledge Discovery and Data Mining (WKDDM), P. Cimiano, A. Pivk, L. Schmidt-Thieme, S.
Staab. Learning Taxonomic Relations from Heterogeneous
Evidence. Proceedings of the Sixteenth European Conference on
Artificial Intelligence (ECAI), 7. Concept Detection Y. Fu, T. Bauer, J. Mostafa, M. Palakal, S.
Mukhopadhyay. Concept Extraction and Association from Cancer
Literature. Proceedings of the Fourth International Workshop on Web
Information and Data Management (WIDM), B. Liu, C. W. Chin, H. T. Ng. Mining Topic-Specific Concepts and Definitions on the Web.
Proceedings of the Twelfth International World Wide Web Conference, 8. P. Cimiano, S. Handschuh, S. Staab. Towards the Self-Annotating Web. Proceedings of the
Thirteenth International World Wide Web Conference, M. L. Reinberger, P. Spyns.
Discovering Knowledge in Texts from
the learning of DOGMA-inspired ontologies.
Proceedings of the Sixteenth European Conference on Artificial Intelligence
(ECAI), 9. Similarity Matching T. Oates, V. Bhat, V. Shanbhag. Using Latent Semantic Analysis to Find Different Names for the
Same Entity in Free Text. Proceedings of the Fourth International
Workshop on Web Information and Data Management (WIDM), M. Bilenko, R. J. Mooney. Adaptive
Duplicate Detection Using Learnable String Similarity Measures.
Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge
Discovery an Data Mining. Washington,
DC, USA, 2003. Link zu
Original-Papers (Passwort-geschützt / Grund: Allfällige Schutzrechte)
Ressourcen • 10 beliebte Fehler bei Vorträgen (pdf,
6K), Ludwig-Maximilians-Universität München • ACM-Portal (Associaton of Computing Machinery): Wissenschaftliche Publikationen • CiteSeer: Verweise zwischen Publikationen • DBLP Library (Uni Trier): Beziehungen zwischen Autoren • Google
Scholar: Google speziell für wissenschaftliche Publikationen |
|