Datenextraktion und -analyse haben in letzter Zeit aufgrund der Entwicklung der sozialen Medien und der gro en Menge an Daten, die in unstrukturierter Form verf gbar sind, erhebliche Aufmerksamkeit erhalten. Hadoop und Map-Reduce haben kontinuierlich gro e Datenmengen implementiert und analysiert. In diesem Buch wird Apache Pig, eine der High-Level-Plattformen zur Analyse gro er Datenmengen, die auf Hadoop l uft, zur Analyse unstrukturierter Protokolldateien und zur Extraktion von Informationen verwendet. In diesem Buch werden Weblog-Serverdateien verwendet, um aussagekr ftige Informationen in unstrukturierter Form zu analysieren und in strukturierter Form in das Apache Pig-Framework zu extrahieren. Wir werden die Effizienz und Leistung messen, wenn eine gro e Datenmenge im Map-Reduce-Modus und im lokalen Modus verarbeitet wird.