PV030 Textual Information Systems

Similar documents
Introduction to Information Retrieval

CSE 7/5337: Information Retrieval and Web Search Introduction and Boolean Retrieval (IIR 1)

boolean queries Inverted index query processing Query optimization boolean model September 9, / 39

Introduction to Information Retrieval

PV211: Introduction to Information Retrieval

INFO 4300 / CS4300 Information Retrieval. slides adapted from Hinrich Schütze s, linked from

Information Retrieval. Chap 8. Inverted Files

Introduction to Information Retrieval

Information Retrieval and Text Mining

CS105 Introduction to Information Retrieval

Information Retrieval

Introduction to Information Retrieval IIR 1: Boolean Retrieval

Information Retrieval

Information Retrieval Tutorial 1: Boolean Retrieval

Unstructured Data Management. Advanced Topics in Database Management (INFSCI 2711)

Preliminary draft (c)2006 Cambridge UP

Indexing. Lecture Objectives. Text Technologies for Data Science INFR Learn about and implement Boolean search Inverted index Positional index

Information Retrieval

PV211: Introduction to Information Retrieval

index construct Overview Overview Recap How to construct index? Introduction Index construction Introduction to Recap

Introduction to Information Retrieval and Boolean model. Reference: Introduction to Information Retrieval by C. Manning, P. Raghavan, H.

Text Retrieval and Web Search IIR 1: Boolean Retrieval

Advanced Retrieval Information Analysis Boolean Retrieval

Information Retrieval. Danushka Bollegala

Boolean retrieval & basics of indexing CE-324: Modern Information Retrieval Sharif University of Technology

Boolean retrieval & basics of indexing CE-324: Modern Information Retrieval Sharif University of Technology

Administrative. Distributed indexing. Index Compression! What I did last summer lunch talks today. Master. Tasks

Information Retrieval

Index construction CE-324: Modern Information Retrieval Sharif University of Technology

CSCI 5417 Information Retrieval Systems Jim Martin!

Part 2: Boolean Retrieval Francesco Ricci

Index Construction 1

3-2. Index construction. Most slides were adapted from Stanford CS 276 course and University of Munich IR course.

Boolean retrieval & basics of indexing CE-324: Modern Information Retrieval Sharif University of Technology

Querying Introduction to Information Retrieval INF 141 Donald J. Patterson. Content adapted from Hinrich Schütze

Information Retrieval

Index construction CE-324: Modern Information Retrieval Sharif University of Technology

Information Retrieval

Index construction CE-324: Modern Information Retrieval Sharif University of Technology

CS347. Lecture 2 April 9, Prabhakar Raghavan

Today s topics CS347. Inverted index storage. Inverted index storage. Processing Boolean queries. Lecture 2 April 9, 2001 Prabhakar Raghavan

Information Retrieval and Web Search

Classic IR Models 5/6/2012 1

Information Retrieval. Information Retrieval and Web Search

Information Retrieval

CS 572: Information Retrieval. Lecture 2: Hello World! (of Text Search)

Information Retrieval

Introducing Information Retrieval and Web Search. borrowing from: Pandu Nayak

CSCI 5417 Information Retrieval Systems! What is Information Retrieval?

Information Retrieval

Information Retrieval

Information Retrieval

Information Retrieval

EECS 395/495 Lecture 3 Scalable Indexing, Searching, and Crawling

Introduction to Information Retrieval

1Boolean retrieval. information retrieval. term search is quite ambiguous, but in context we use the two synonymously.

Introduction to. CS276: Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan. Lecture 4: Index Construction

Introduc)on to. CS60092: Informa0on Retrieval

Introduction to Information Retrieval

Information Retrieval

Index Construction. Slides by Manning, Raghavan, Schutze

Corso di Biblioteche Digitali

Search: the beginning. Nisheeth

Information Retrieval

CS60092: Informa0on Retrieval. Sourangshu Bha<acharya

INDEX CONSTRUCTION 1

IR System Components. Lecture 2: Data structures and Algorithms for Indexing. IR System Components. IR System Components

An Introduction to Information Retrieval. Draft of April 15, Preliminary draft (c)2007 Cambridge UP

Lecture 1: Introduction and the Boolean Model

Recap: lecture 2 CS276A Information Retrieval

CSE 7/5337: Information Retrieval and Web Search Index construction (IIR 4)

Behrang Mohit : txt proc! Review. Bag of word view. Document Named

An Introduction to Information Retrieval. Draft of March 1, Preliminary draft (c)2007 Cambridge UP

Introduction to Information Retrieval

An Introduction to Information Retrieval. Draft of March 5, Preliminary draft (c)2007 Cambridge UP

Informa(on Retrieval

Information Retrieval CS Lecture 01. Razvan C. Bunescu School of Electrical Engineering and Computer Science

Introduction to Information Retrieval

Introduction to Information Retrieval

An Introduction to Information Retrieval. Draft of August 14, Preliminary draft (c)2007 Cambridge UP

Sets. Set operations

Lecture 3 Index Construction and Compression. Many thanks to Prabhakar Raghavan for sharing most content from the following slides

Data-analysis and Retrieval Boolean retrieval, posting lists and dictionaries

2018 EE448, Big Data Mining, Lecture 8. Search Engines. Weinan Zhang Shanghai Jiao Tong University

Informa(on Retrieval

Outline of the course

DB-retrieval: I m sorry, I can only look up your order, if you give me your OrderId.

Course structure & admin. CS276A Text Information Retrieval, Mining, and Exploitation. Dictionary and postings files: a fast, compact inverted index

Information Retrieval and Text Mining

Ges$one Avanzata dell Informazione Part A Full- Text Informa$on Management. Full- Text Indexing

Organização e Recuperação da Informação

Information Technology for Documentary Data Representation

Models for Document & Query Representation. Ziawasch Abedjan

A Closeup View. Class Overview CSE 454. Relevance. Retrieval Model Overview. 10/19 IR & Indexing 10/21 Google & Alta.

INFO 4300 / CS4300 Information Retrieval. slides adapted from Hinrich Schütze s, linked from

Report on DML-CZ project

Web Information Retrieval Exercises Boolean query answering. Prof. Luca Becchetti

Information Retrieval and Organisation

UNICAL, 21/10/2004. Tutorial goals

INFO 4300 / CS4300 Information Retrieval. slides adapted from Hinrich Schütze s, linked from

Transcription:

PV030 Textual Information Systems Petr Sojka Faculty of Informatics Masaryk University, Brno Spring 2010 Đ Ý Petr Sojka PV030 Textual Information Systems

Osnova(Týden šestý) ü Vyhledávání s předzpracováním textu; indexové metody. ý Metody indexování. þ Automatické indexování, konstrukce tezauru. Způsoby implementace indexu. Písemka. Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Part I Indexové metody Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Vyhledávání s předzpracováním textu Velké množství textů? Předzpracování textu! index, indexové metody, indexový soubor, indexsekvenční soubor hierarchické členění textu, znaˇckování textu, hypertext otázky uložení seznamu slov (lexikon) a seznamu výskytů (hitů), jejich aktualizace Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Vyhledávání s předzpracováním textu granularita položek indexu: dokument odstavec věta slovo slovo1 slovo2 slovo3 slovo4 dok1 1 1 0 1 dok2 0 1 1 1 dok3 1 0 1 1 invertovaný soubor, transpozice dok1 dok2 dok3 slovo1 1 0 1 slovo2 1 1 0 slovo3 0 1 1 slovo4 1 1 1 Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Vyhledávání v indexu Uspořádání slov (primární klíč) v indexu binární vyhledávání Časová složitost vyhledávání jednoho slova v indexu: n délka indexu, V délka vzorku O(V log 2 (n)) Vyhledávání kslov, vzorekp=v 1,...,v k k n opakované binární vyhledávání s průměrná délka vzorku, složitost? O(s k log 2 n) Pokud k a i srovnatelné: metoda dvojitého slovníku. Hašování. Rychlost O(n) ani O(log n) však obvykle nedostačuje, je třeba O(1). Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Implementace indexových systémů I Pro implementaci indexu je klíčová volba vhodných datových struktur a algoritmů. Použití invertovaného souboru: slovo1 1 0 1 slovo2 1 1 0 slovo3 0 1 1 slovo4 1 1 1 Použití seznamu dokumentů: slovo1 1, 3 slovo2 1, 2 slovo3 2, 3 slovo4 1, 2, 3 Souřadnicový systém s ukazateli má 2 části: slovník s ukazateli do seznamu dokumentů a zřetězený seznam ukazatelů na dokumenty. Petr Sojka PV030 Textual Information Systems Đ Ý

Why information retrieval? Inverted index Query processing Outlook Metody indexování ruční vs. automatické, pros/cons stop-list (slova s gramatickým významem spojky, předložky,...) 1 neřízené 2 řízené(speciální slovník slov: stanovení indexovacího jazyka) pass-list, tezaurus. synonyma a slova příbuzná. flektivní jazyky: vytváření rejstříku s jazykovou podporou lemmatizace. Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Analýzatextu výběrslov doindexu Frekvence výskytu slov je při identifikaci dokumentu významná. Frekvenční slovník angličtiny: 1 the 69971 0.070 6 in 21341 0.128 2 of 36411 0.073 7 that 10595 0.074 3 and 28852 0.086 8 is 10099 0.088 4 to 26149 0.104 9 was 9816 0.088 5 a 23237 0.116 10 he 9543 0.095 Zipfův zákon(princip nejmenšího odporu) pořadí frekvence = konstanta Npořadí=1 frekvence pořadí Kumulativní podíl pouˇzívaných slov KPS = počet slov textu Pravidlo 20 80: 20% nejfrekventovanějších slov tvoří 80% textu [MEL, obr. 4.19]. Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Metoda automatického indexování Metoda automatického indexování je založená na odvození významnosti slov z jejich frekvencí(cf. Collins-Cobuild dictionary); slova s nízkou a vysokou frekvencí jsou vyloučena: VSTUP: n dokumentů VÝSTUP: seznam slov vhodných pro vytvoření indexu 1 Spočteme frekvencifreq ik prokaždý dokument i 1,n a každé slovo k 1,K [K je početrůznýchslov vevšech dokumentech]. 2 Spočteme TOTFREQ k = n i=1 FREQ ik. 3 Vytvoříme frekvenční slovník pro slova k 1, K. 4 Stanovíme práh pro vyloučení velmi frekventovaných slov. 5 Stanovíme práh pro vyloučení slov s nízkou frekvencí. 6 Zbývající slova zařadíme do indexu. Problematika určení prahů [MEL, obr. 4.20]. Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook IR using the Boolean model Queries are Boolean expressions, e.g., Caesar AND Brutus The seach engine returns all documents that satisfy the Boolean expression Does Google use the Boolean model? Đ Ý Petr Sojka PV030 Textual Information Systems

term docid freq ambitious 2 1 be 2 1 brutus 1 1 brutus 2 1 capitol 1 1 caesar 1 1 caesar 2 2 did 1 1 enact 1 1 hath 2 1 I 1 2 i 1 1 it 2 1 julius 1 1 killed 1 2 let 2 1 me 1 1 noble 2 1 so 2 1 the 1 1 the 2 1 told 2 1 you 2 1 was 1 1 was 2 1 with 2 1 = term coll. freq. postings lists ambitious 1 2 be 1 2 brutus 2 1 2 capitol 1 1 caesar 3 1 2 did 1 1 enact 1 1 hath 1 2 I 2 1 i 1 1 it 1 2 julius 1 1 killed 2 1 let 1 2 me 1 1 noble 1 2 so 1 2 the 2 1 2 told 1 2 you 1 2 was 2 1 2 with 1 2

Why information retrieval? Inverted index Query processing Outlook Intersecting( merging ) two postings lists MERGE(p, q) 1 answer 2 while p NIL andq NIL 3 do ifdocid[p] = docid[q] 4 then ADD(answer, docid[p]) 5 else if docid[p] < docid[q] 6 then p next[p] 7 else q next[q] 8 return answer Đ Ý Petr Sojka PV030 Textual Information Systems

Why information retrieval? Inverted index Query processing Outlook Optimized intersection of a set of postings lists MERGE( t i ) 1 terms SORTBYFREQ( t i ) 2 result postings[first[terms]] 3 terms rest[terms] 4 while terms NIL andresult NIL 5 do list postings[first[terms]] 6 terms rest[terms] 7 MERGEINPLACE(result, list) 8 return result Đ Ý Petr Sojka PV030 Textual Information Systems