Bi-monthly report. Tianyi Luo

Similar documents
Chapter 7: Deadlocks. Operating System Concepts 9 th Edition

Previous on Computer Networks Class 18. ICMP: Internet Control Message Protocol IP Protocol Actually a IP packet

A Benchmark For Stroke Extraction of Chinese Characters

ICP Enablon User Manual Factory ICP Enablon 用户手册 工厂 Version th Jul 2012 版本 年 7 月 16 日. Content 内容

The Design of Everyday Things

如何查看 Cache Engine 缓存中有哪些网站 /URL

Understanding IO patterns of SSDs

计算机组成原理第二讲 第二章 : 运算方法和运算器 数据与文字的表示方法 (1) 整数的表示方法. 授课老师 : 王浩宇

PCU50 的整盘备份. 本文只针对操作系统为 Windows XP 版本的 PCU50 PCU50 启动硬件自检完后, 出现下面文字时, 按向下光标键 光标条停在 SINUMERIK 下方的空白处, 如下图, 按回车键 PCU50 会进入到服务画面, 如下图

Oriented Scene Text Detection Revisited. Xiang Bai Huazhong University of Science and Technology

Safe Memory-Leak Fixing for C Programs

Supplementary Materials on Semaphores

NyearBluetoothPrint SDK. Development Document--Android

测试 SFTP 的 问题在归档配置页的 MediaSense

学习沉淀成长分享 EIGRP. 红茶三杯 ( 朱 SIR) 微博 : Latest update:

Software Engineering. Zheng Li( 李征 ) Jing Wan( 万静 )

Triangle - Delaunay Triangulator

2. Introduction to Digital Media Format

Command Dictionary CUSTOM

PTZ PRO 2. Setup Guide 设置指南

OpenCascade 的曲面.

Microsemi - Leading Innovation for China s Hyperscale Data Centers

武汉大学 学年度第 1 学期 多核架构及编程技术 试卷(A)

New Media Data Analytics and Application

实验三十三 DEIGRP 的配置 一 实验目的 二 应用环境 三 实验设备 四 实验拓扑 五 实验要求 六 实验步骤 1. 掌握 DEIGRP 的配置方法 2. 理解 DEIGRP 协议的工作过程

mod_callcenter callcenter.conf.xml 范例 odbc-dsn

最短路径算法 Dijkstra 一 图的邻接表存储结构及实现 ( 回顾 ) 1. 头文件 graph.h. // Graph.h: interface for the Graph class. #if!defined(afx_graph_h C891E2F0_794B_4ADD_8772_55BA3

1. DWR 1.1 DWR 基础 概念 使用使用 DWR 的步骤. 1 什么是 DWR? Direct Web Remote, 直接 Web 远程 是一个 Ajax 的框架

Theory of Parallel Computing Yinliang Zhao ( 赵银亮 ) Xi an Jiaotong University 第十四章基于消息传递的并行编程.

Skill-building Courses Business Analysis Lesson 3 Problem Solving

软件测试 05 变异测试 玄跻峰 武汉大学计算机学院. URL:

Oracle 一体化创新云技术 助力智慧政府信息化战略. Copyright* *2014*Oracle*and/or*its*affiliates.*All*rights*reserved.** *

Virtual Memory Management for Main-Memory KV Database Using Solid State Disk *

Declaration of Conformity STANDARD 100 by OEKO TEX

三 依赖注入 (dependency injection) 的学习

H3C CAS 虚拟机支持的操作系统列表. Copyright 2016 杭州华三通信技术有限公司版权所有, 保留一切权利 非经本公司书面许可, 任何单位和个人不得擅自摘抄 复制本文档内容的部分或全部, 并不得以任何形式传播 本文档中的信息可能变动, 恕不另行通知

Logitech G302 Daedalus Prime Setup Guide 设置指南

第二小题 : 逻辑隔离 (10 分 ) OpenFlow Switch1 (PC-A/Netfpga) OpenFlow Switch2 (PC-B/Netfpga) ServerB PC-2. Switching Hub

IEEE 成立于 1884 年, 是全球最大的技术行业协会, 凭借其多样化的出版物 会议 教育论坛和开发标准, 在激励未来几代人进行技术创新方面做出了巨大的贡献, 其数据库产品 IEL(IEEE/IET Electronic Library)

<properties> <jdk.version>1.8</jdk.version> <project.build.sourceencoding>utf-8</project.build.sourceencoding> </properties>

SHANDONG UNIVERSITY 1

OTAD Application Note

: Operating System 计算机原理与设计

Congestion Control Mechanisms for Ad-hoc Social Networks 自组织社会网络中的拥塞控制机制

XML allows your content to be created in one workflow, at one cost, to reach all your readers XML 的优势 : 只需一次加工和投入, 到达所有读者的手中

Microsoft RemoteFX: USB 和设备重定向 姓名 : 张天民 职务 : 高级讲师 公司 : 东方瑞通 ( 北京 ) 咨询服务有限公司

Logitech ConferenceCam CC3000e Camera 罗技 ConferenceCam CC3000e Camera Setup Guide 设置指南

Packaging 10Apr2012 Rev V Specification MBXL HSG 1. PURPOSE 目的 2. APPLICABLE PRODUCT 适用范围

朱晔和你聊 Spring 系列 S1E2: SpringBoot 并不神秘

Technology: Anti-social Networking 科技 : 反社交网络

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!--- global properties --> <property>

操作系统原理与设计. 第 13 章 IO Systems(IO 管理 ) 陈香兰 2009 年 09 月 01 日 中国科学技术大学计算机学院

Air Speaker. Getting started with Logitech UE Air Speaker. 快速入门罗技 UE Air Speaker. Wireless speaker with AirPlay. 无线音箱 (AirPlay 技术 )

IPC 的 Proxy-Stub 设计模式 ( c)

Chapter 2: Java OO II. Yang Wang wyang AT njnet.edu.cn

漂亮的测试. By Alberto Savoia 代码之美 第七章 史际帆

Chapter 11 SHANDONG UNIVERSITY 1

Chapter 1 (Part 2) Introduction to Operating System

信息检索与搜索引擎 Introduction to Information Retrieval GESC1007

MP3 文件是由帧 (frame) 构成的, 帧是 MP3 文件最小的组成单位 MP3 的全称应为 MPEG1 Layer-3 音频文件,MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组, 特指活动影音压缩标准,MPEG

组播路由 - MSDP 和 PIM 通过走

VAS 5054A FAQ ( 所有 5054A 整合, 中英对照 )

CA Application Performance Management

Apache Kafka 源码编译 Spark 大数据博客 -

Spark Standalone 模式应用程序开发 Spark 大数据博客 -

密级 : 博士学位论文. 论文题目基于 ScratchPad Memory 的嵌入式系统优化研究

2.8 Megapixel industrial camera for extreme environments

5.1 Megapixel machine vision camera with GigE interface

Chap1 Introduction. Outline. An Example System. 1.1 Overview. Computer organization and architecture. Computer organization and architecture

Decode Zend. Darkness/Airsupply

New Media Data Analytics and Application. Lecture 7: Information Acquisition An Integration Ting Wang

nbns-list netbios-type network next-server option reset dhcp server conflict 1-34

The relational Algebra & calculus cont. Reference : UC Berkeley

Color LaserJet Pro MFP M477 入门指南

新一代 ODA X5-2 低调 奢华 有内涵

Lecture 3 for pipelining

Multiprotocol Label Switching The future of IP Backbone Technology

Command Dictionary -- DAMSTAB

AvalonMiner Raspberry Pi Configuration Guide. AvalonMiner 树莓派配置教程 AvalonMiner Raspberry Pi Configuration Guide

IP unnumbered 实验讲义 一. 实验目的 : 二. 实验设备 : 三. 实验拓扑 : 四. 实验内容 :

Designing succinct structural alphabet

上汽通用汽车供应商门户网站项目 (SGMSP) User Guide 用户手册 上汽通用汽车有限公司 2014 上汽通用汽车有限公司未经授权, 不得以任何形式使用本文档所包括的任何部分

Chapter2 Instruction Sets

武汉大学 学年度第 2 学期 多核架构及编程技术 试卷(A)

基于单视图的三维重建 章国锋 浙江大学 CAD&CG 国家重点实验室

TBarCode OCX Microsoft ActiveX compliant Barcode Control

public static InetAddress getbyname(string host) public static InetAddress getlocalhost() public static InetAddress[] getallbyname(string host)

PMI,PMI (China) Membership, Certifications. Bob Chen PMI (China) August 31, 2010

FLIGHT INSTRUMENT PANEL

Frequently Asked Questions about Network Problem within America Area

CHINA VISA APPLICATION CONCIERGE SERVICE*

DEV Office 客户端开发增强

libde265 HEVC 性能测试报告

Support for Title 21 CFR Part 11 and Annex 11 compliance: Agilent OpenLAB CDS version 2.1

DATA VISUALIZATION. Lecture 4--Information Visualization

Survey of image and video stitching

Build a Key Value Flash Disk Based Storage System. Flash Memory Summit 2017 Santa Clara, CA 1

Smart Services Lucy Huo (Senior Consultant, UNITY Business Consulting) April 27, 2016

Keygen Codes For Photoshop Cs6 ->>> DOWNLOAD

Figure 1 Microsoft Visio

Transcription:

Bi-monthly report Tianyi Luo 1

Work done in this week Write a crawler plus based on keywords (Support Chinese and English) Modify a Sina weibo crawler (340M/day) Offline learning to rank module is completed and integrated into QA system (P@1:69%->77%) Online learning to rank module is completed and will be integrated into the next version of QA system. (We can utilize click data to enhance system)

Write a crawler based on keywords What problem we need to solve? Given a list of key words which contains Chinese or English e.g. 新浪阿里巴巴 Tencent. We want to crawl the webpages returned by search engine e.g. Bing using these keywords as query.

Write a crawler based on keywords The github of this crawler (300 lines java code) https://github.com/pkuluotianyi/getcorpusbaseonkeyword Welcome to use and give me some advice. Thx~

Modify a Sina weibo crawler The link of this crawler (implement by python ) Link: http://pan.baidu.com/s/1mgou5yg password: digt It will download 340M sina weibo data every day

Offline learning to rank module is completed and integrated into QA system (P@1:69%->77%) What problem we need to solve? Given candidate sets(may be 50/query) of 1596 queries and their all similarities score e.g. Utilize learning to rank technology to learn the optimization combination ways of these two scores and conduct re-ranking Candidate file format: 2 申请机动车驾驶证的收费标准 422 [ 申请 ] { 机动车驾驶证, 驾驶证, 驾照 } [ 的 ] 收费 [ 标准 ] [ 是 ] [ 什么 ] 申请机动车驾驶证的收费标准? 二 三轮摩托车驾驶证收费标准 :280 元 / 人, 工本费 10 元 2.595365 3.3772912 422 16.69876 13.262825 14.4957075 11.881077 17.792013 14.471099 0.7856765 0.497769 13.612657 10.55533 So this problem is an Information Retrieval problem

Offline learning to rank module is completed and integrated into QA system (P@1:69%->77%) Implement the offline l2r module and integrate into QA system (batch learning) Implement with Java (900 lines) Utilize learning to rank technology to learn the optimization ranking results The data format of learning to rank

Offline learning to rank module is completed and integrated into QA system (P@1:69%->77%) What features we define? Experiment result: http://cslt.riit.tsinghua.edu.cn/mediawiki/index.php/huilan-learning-to-rank significant coefficients: +0.0398 1. 排序文档集为问题模板, 利用 tf*idf ranking model 得到的分数 +0.0369 2. 排序文档集为标准问题, 利用 tf*idf ranking model 得到的分数 +0.0542 3. 问题模板的长度 -0.0313 4. 标准问题的长度 +0.0733 5. 对 query 进行分词, 分词出现在问题模板中的次数与问题模板长度的比值 +0.1661 6. 对 query 进行分词, 分词出现在标准问题中的次数与标准问题长度的比值 例子 : query 为 保障性住房 ; 分词结果 : 保障性 住房 ; 标注问题 : 什么是保障性住房? query 的分词结果出现在标准问题中的次数为 2 次, 标准问题长度为 18, 该 feature 值为 1/9 +0.1751 7. 对 query 进行分词, 分词出现在问题模板中的次数与 query 分词总数的比值 +0.0766 8. 对 query 进行分词, 分词出现在标准问题中的次数与 query 分词总数的比值 例子 :query 为 保障性住房 ; 分词结果 : 保障性 住房 ; 标注问题 : 什么是保障性住房? query 的分词结果出现在标准问题中的次数为 2 次, query 分词总数为 3, 该 feature 值为 2/3

Offline learning to rank module is completed and integrated into QA system (P@1:69%->77%) What features we define? +0.0342 9. 排序文档集为问题模板, 利用 BM25 ranking model 得到的分数 +0.0240 10. 排序文档集为标准问题, 利用 BM25 ranking model 得到的分数 +0.0400 11. 排序文档集为问题模板, 利用 DFR ranking model 得到的分数 -0.0952 12. 排序文档集为标准问题, 利用 DFR ranking model 得到的分数 0.0000 13. 排序文档集为问题模板, 利用 IB ranking model 得到的分数 0.0000 14. 排序文档集为标准问题, 利用 IB ranking model 得到的分数 -0.0057 15. 排序文档集为问题模板, 利用 LMDirichlet ranking model 得到的分数 +0.0152 16. 排序文档集为标准问题, 利用 LMDirichlet ranking model 得到的分数 0.0000 17. 排序文档集为问题模板, 利用 LMJelinekMercer ranking model 得到的分数 +0.0222 18. 排序文档集为标准问题, 利用 LMJelinekMercer ranking model 得到的分数 +0.1052 19. (1)query 中有 NER, 问题模板如果也有 NER, 则 feature 值为 1; (2)query 中没有 NER, 问题模板如果也没有 NER, 则 feature 值为 1; (3)query 中有 NER, 问题模板如果没有 NER, 则 feature 值为 0; (4)query 中没有 NER, 问题模板如果有 NER, 则 feature 值为 0; +0.1605 20. (1)query 中有 NER, 标准问题如果也有 NER, 则 feature 值为 1; (2)query 中没有 NER, 标准问题如果也没有 NER, 则 feature 值为 1; (3)query 中有 NER, 标准问题如果没有 NER, 则 feature 值为 0; (4)query 中没有 NER, 标准问题如果有 NER, 则 feature 值为 0; -0.0181 21. 通过 Sentence Embedding 计算 query 和标准答案的 cos 相似度, 为 (0,1) 的实数 (Sentence Embedding 的具体做法是, 将所有词的每一维进行比较, 取绝对值最大的数值作为 Sentence 的 vector )

Offline learning to rank module is completed and integrated into QA system (P@1:69%->77%) About word embedding feature Word embedding feature is not important in our experiment. Interact with Haifeng Wang, it's an important feature. We don t adopt the best way to utilize word embedding feature to generate sentence vector. There is a good generating sentence vector method is proposed in << Deep Learning for Answer Sentence Selection>>.

Offline learning to rank module is completed and integrated into QA system (P@1:69%->77%) Another experiment about the number of candidates Before conduct learning to rank, P@1 is 54.0%. Different number P@1 P@5 Train time(including generating candidates) Nbest = 30 63.2% 81.1% 226s Nbest = 40 62.9% 83.3% 283s Nbest = 50 62.8% 83.0% 339s Nbest = 60 61.8% 82.3% 386s Nbest = 100 57.3% 73.2% 603s The number of candidates could be no more or no less.

Online learning to rank module is completed and will be integrated into next version of QA system What problem we need to solve? Dynamic index.(user enter one question and answer to teach the QA system) User click the result which match his need most and QA system will collect user click data to enhance the system Learning to rank deployment strategies Prepare two systems One system conduct offline batch learning while another service online users. After offline learning, we switched systems. Implement online learning module Implement with Java (400 lines).

<<An Online Learning to Rank Framework>> Lerot --- it is already solr s component in 2014. I run the code(python) and it works well. This online learning method is called dueling bandit gradient descent (DBGD). Y. Yue and T. Joachims. Interactively optimizing information retrieval systems as a dueling bandits problem. In ICML 09,2009. The logical of this kind of online learning to rank 1.Random weights perturbation. 2.Through clicking data we will determine whether this perturbation is good or not. The logical of online learning to rank we want 1.we have click data 2.through click data we will update weights

Want to do next Conduct experiments about a new online learning to rank method and ready to write ACL 2015 paper. Conduct experiments about online deep learning to rank method inspired by <<Text Understanding from Scratch>>.

Thank You! 15