Wednesday, 17 July 2019

Rajhans samdani forex


Maximização da Expectativa Unificada Rajhans Samdani Trabalho conjunto com Ming-Wei Chang (Microsoft Research) e Dan Roth University of Illinois em Urbana-Champaign. Apresentação sobre o tema: maximização da expectativa unificada Rajhans Samdani Trabalho conjunto com Ming-Wei Chang (Microsoft Research) e Dan Roth University of Illinois em Urbana-Champaign. Transcrição de apresentação: 1 Maximização da Expectativa Unificada Rajhans Samdani Trabalho conjunto com a Ming-Wei Chang (Microsoft Research) e Dan Roth University of Illinois em Urbana-Champaign Page 1 NAACL 2017, Montreal 2 Aprendizagem debilmente supervisionada em NLP Os dados rotulados são escassos e difíceis de obter Muito trabalho em aprender com uma pequena quantidade de dados rotulados O algoritmo de maximização de expectativa (EM) é o padrão de facto. Mais recentemente: trabalho significativo na injeção de supervisão fraca ou conhecimento de domínio através de restrições na aprendizagem baseada em restrição de EM (CoDL Chang et al, 07) Regularização posterior (PR Ganchev et al, 10) Page 2 3 Aprendizagem debilmente supervisionada: EM e várias variantes de EM existem na literatura. Hard EM Variantes de EM com restrições: CoDL e PR Qual versão usar: EM (PR) vs Hard EM (CoDL). Ou existe algo melhor aí NOSSA CONTRIBUIÇÃO: uma estrutura unificada para algoritmos EM, Unified EM (UEM) Inclui algoritmos EM existentes Escolha o algoritmo EM mais adequado de uma maneira simples, adaptativa e baseada em princípios. Adaptando-se a dados, inicialização e restrições Page 3 4 Antecedentes do plano de fundo: maximização da expectativa (EM) EM com restrições Algoritmo de otimização de expectativa unificada de maximização (UEM) para as experiências de etapa eletrônica Page 4 5 Previsão de estruturas em PNL Prever a saída ou variável dependente y do espaço de saídas permitidas Entrada dada em Y Variável x usando parâmetros ou vetor de peso w Eg Preveja etiquetas de POS atribuídas uma frase, preveja alinhamentos de palavras orais dadas em duas línguas diferentes, preveja a estrutura de relação de entidade a partir de um documento Previsão expressa como y argmax y 2 YP (yxw) Page 5 6 Aprendendo Usando EM: um Guia Rápido Dados dados não-rotulados : X, estimativa w oculta: y para t 1 T do E: passo: estimar uma distribuição posterior, q, sobre y. M: passo: estimar os parâmetros w w. r.t. Q. W t1 argmax w E q log P (x, yw) Page 6 qt (y) P (y xw ​​t) qt (y) argmin q KL (q (y), P (yxw t)) (Neal e Hinton, 99 ) Distribuição condicional de y dado w Distribuição posterior 7 Outra versão de EM: Hard EM Standard EM E-step: argmin q KL (qt (y), P (yxw t)) M-step: argmax w E q log P (x , Yw) Hard EM E-step: M-step: argmax w E q log P (x, yw) Page 7 q (y) yyy argmax y P (yx, w) Não é claro qual versão usar. 8 Restrições de conhecimento com restrições de domínio EM restritas podem ajudar muito orientando o aprendizado sem supervisão Aprendizado com restrição (Chang et al, 07), Regularização Posterior (Ganchev et al, 10), Critério de Expectativa Generalizada (Mann McCallum, 08), Aprendendo com Medidas (Liang et al, 09) As restrições são impostas sobre y (um objeto estruturado) para especificar restringir o conjunto de estruturas permitidas. Page 8 9 Predição de Entidade-Relação: Tipo de Restrições Prever tipos de entidade: Per, Loc, Org, etc. Preditar Tipos de relação: lives-in, org-based-in, works-for, etc. Entidade-relação tipo restrições A esposa de Dole, Elizabeth, é residente de NC E 1 E 2 E3 R 12 R 23 Page 9 lives-in LocPer 10 Alinhamento de palavras bilíngües: Restrições de Contrato Alinhar palavras de sentenças em EN com sentenças em FR Restrições de acordo: o alinhamento de EN-FR deve concordar com o alinhamento de FR-EN (Ganchev et al, 10) Imagem: cortesia Lacoste-Julien et al 10 11 Representação Estruturada de Restrições de Previsão Assuma como E de restrições lineares: Y Uma representação universal (Roth e Yih, 07) Pode ser relaxada em restrições de expectativa em probabilidades posteriores. E q Uy b Concentre-se na introdução de restrições durante o E-passo Page 11 12 Regularização Posterior (Ganchev et al., 10) E-passo: argmin q KL (qt (y), P (yxw t)) E q Uy b M - Passo: argmax w E q log P (x, yw) Aprendizado por restrição (Chang et al, 07) E-step: M-step: argmax w E q log P (x, yw) y argmax y P (yx, W) Uy b Não limpa qual versão usar. Duas Versões de EM Restringido Page 12 13 Então, como aprendemos o EM (PR) contra o EM duro (CODL) Não é claro qual versão do EM usar (Spitkovsky et al, 10) Este é o ponto inicial de nossa pesquisa. Apresentamos uma família de Algoritmos EM que incluem esses algoritmos EM (e infinitamente muitos novos algoritmos EM): UEM (Unified Expectation Maximization) UEM nos permite escolher o melhor algoritmo EM de maneira fundamentada Page 13 14 Formação de motivação de maximização de expectativa unificada e de maximização de expectativa (EM) E intuição matemática Algoritmo de Otimização para as Experiências E-step Page 14 15 Motivação: maximização de expectativa unificada (UEM) EM (PR) e EM duro (CODL) diferem principalmente na entropia da distribuição posterior A UEM melhora a entropia da distribuição posterior q E é parametrizado por um único parâmetro KL (D), q (y) x (y) log q (y) q (y) Log p (y) O UEM altera o E-step De EM padrão e minimiza uma divergência KL modificada KL (q, P (y xw)) onde KL (q, p) y q (y) log q (y) q (y) log p (y) Valores diferentes. Algoritmos EM diferentes Muda a entropia do EM Unificado posterior (UEM) Page 16 17 Efeito da alteração da distribuição original pq com 1 q com 0 q com 1 q com -1 Page 17 KL (q, p) yq (y) log q ( Y) q (y) log p (y) 18 Unificação de Algoritmos EM existentes Page 18 Sem restrições com restrições KL (q, p) yq (y) log q (y) q (y) log p (y) Hard EM CODL EM Rectificação Determinante PR (Smith e Eisner, 04 Hofmann, 99) A mudança de valores resulta em diferentes algoritmos EM existentes 19 Page 19 Sem restrições com restrições KL (q, p) yq (y) log q (y) q (y) log P (y) 01 Hard EMEM PRLP aproximadamente para CODL (Novo) Concentramo-nos no ajuste 0,1 Infinitamente muitos novos algoritmos EM 20 Ajustar na prática essencialmente sintoniza a entropia do posterior para melhor se adaptar aos dados, inicialização, restrições, Etc. Nós sintonizamos usando uma pequena quantidade de dados de desenvolvimento no intervalo UEM para arbitrário em nossa gama é muito fácil de implementar: os códigos EMCODL EMPRhard existentes podem ser facilmente removidos Nded para implementar o UEM Page 21 Outline Configurando o problema Maximização da Expectativa Unificada Resolvendo o algoritmo baseado em dupla base de Lagrange com E-step Limitado Unificação de algoritmos existentes Experiências Page 21 22 O E-step Restringido Para 0) convexo Page 22 Líder linear baseado em conhecimento de domínio Restrições - Diferença de KL parametrizada restrições de probabilidade de probabilidade padrão 23 1 Introduza variáveis ​​duplas para cada restrição 2 Subida de gradiente em vars dual com OE q Uy b 3 Compute q para dado For 0, calcula Com 0, inferência de MAP sem restrições: Page 23 Resolvendo o E-passo limitado para q (y) Iterate até convergência 0, computa Com 0, inferência de MAP sem restrições: Page 23 Resolvendo o E-step Limitado para q (y) Iterate até o título de convergência1 Introduza variáveis ​​duais para cada restrição 2 Sub-gradient ascent Em dual vars com OE q Uy b 3 Compute q para dado For 0, computar Com 0, inferência de MAP sem restrições: Page 23 Resolvendo o E-step Constrained fo Rq (y) Iterate até a convergência 24 Algumas propriedades de nossa otimização de etapa eletrônica Usamos algoritmo de algoritmo de ascensão sub-gradiente projetado duplo (Bertsekas, 99) Inclui restrições de desigualdade Para instâncias especiais em que dois (ou mais) problemas fáceis estão conectados através de restrições , Reduz a decomposição dupla Para 0: decomposição dupla convexa em modelos individuais (eg HMMs) conectados através de variáveis ​​duais 1: decomposição dupla na regularização posterior (Ganchev et al, 08) Para 0: Decomposição de relaxamento de Lagrange para dedução de ILP rígida (Koo et al, 10 Rush et al, 11) Page 24 0: decomposição dupla convexa sobre Modelos individuais (por exemplo, título HMMs) conectados através de variáveis ​​duais 1: decomposição dupla na regularização posterior (Ganchev et al, 08) Para 0: Decomposição de relaxamento de Lagrange para inferência de ILP rígida (Koo et al, 10 Rush et al, 11) Página 24. 25 Esboço Configurando o problema Introdução à Maximização de Expectativa Unificada Otimização de dupla base de Lagrange Algoritmo para o E-step Experimentos Marcação de POS Entidade-Relação Extração Alinhamento de palavras Page 25 26 Experiências: explorar o papel de Teste se a afinação ajuda a melhorar o desempenho ao longo das linhas de base. Relação entre a qualidade da inicialização e (ou a dureza da inferência) Compare contra: Regularização Posterior (PR) corresponde a 1.0 Aprendizado com Restrição G (CODL) corresponde a - 1 Page 26 27 Modelo de marcação POS não supervisionado como HMM de primeira ordem Experimente qualidades variáveis ​​de inicialização: Inicialização uniforme: inicialize com igual probabilidade para todos os estados Inicialização supervisionada: inicialize com parâmetros treinados em quantidades variáveis ​​de dados rotulados Teste o Sabedoria convencional que o EM duro é bom com uma boa inicialização e o EM faz melhor com uma inicialização fraca. Page 27 28 Etiquetado POS não supervisionado: diferentes instantidades EM Inicialização Uniforme Inicialização com 5 exemplos Inicialização com 10 exemplos Inicialização com 20 exemplos Inicialização com exemplos Desempenho relativo ao EM Hard EMEM Page 28 29 Experimentos: Entidade-Relação Extração Extrair tipos de entidade (por exemplo, Loc, Org, Per) e tipos de relação (por exemplo, Lives-in, Org-based-in, Killed) entre pares de entidades Adicionar restrições: Digitar restrições entre entidade e relações Limitações de contagem esperadas para regularizar as contagens de Nenhuma relação Aprendizagem semi-supervisionada Com uma pequena quantidade de dados rotulados. Page 29 A esposa de Dole, Elizabeth, é residente de NC E 1 E 2 E3 R 12 R 23 31 Experimentos: Alinhamento de palavras Alinhamento de palavra de um idioma S para idioma T Tentamos En-Fr e En Pares de E Usamos um modelo baseado em HMM com restrições de concordância para o alinhamento de palavras PR com restrições de concordância conhecidas por dar melhorias HUGE sobre HMM (Ganchev et al08 Graca et al08) Use nosso algoritmo eficiente para decompor o E-step em HMMs individuais. 37 Experimentos Resumo Em diferentes configurações, diferentes linhas de base funcionam melhor Extração de Entidade-Relação: CODL faz melhor do que o Alinhamento de Word: O PR melhor do que CODL Marcação de POS não supervisionada: depende da inicialização O UEM nos permite escolher o melhor al Gorithm em todos estes casos. Melhor versão do EM: uma nova versão com 0 38 Unified EM: Resumo O UEM generaliza as variações existentes do EM EM contraído. O UEM fornece novos algoritmos EM parametrizados por um único parâmetro. Eficiente técnica de subida gradual subgradiente projetada para incorporar restrições no UEM. O melhor não corresponde a EM (PR) nem ao EM (CODL) difícil e encontrado através da estrutura do UEM. O ajuste das alterações adaptativas da entropia do UEM posterior é fácil de implementar: adicione algumas linhas de código aos códigos EM existentes Page 38 QuestionsKai-Wei Chang Rajhans Samdani, Alla Rozovskaya, Nick Rizzolo, Mark Sammons, Dan Roth CoNLL Tarefa Compartilhada 2017 Este artigo apresenta Illinois-Coref, um sistema de resolução coreference que participou da tarefa compartilhada CoNLL-2017. Nós investigamos dois métodos de inferência, Best-Link e All-Link, juntamente com seus protocolos de aprendizagem correspondentes, emparelhados e estruturados. Nestes, oferecemos uma arquitetura flexível para incorporar restrições de motivação linguística, várias das quais desenvolvemos e integramos. Comparamos e avaliamos as abordagens de inferência e o contributo das restrições, analisamos os erros do sistema e discutimos os desafios da resolução de coreference para o conjunto de dados OntoNotes-4.0.

No comments:

Post a Comment