O Petrolês é um repositório de artefatos de Processamento de Linguagem Natural especializados no domínio de petróleo em Português, e tem como objetivo servir como uma referência para os grupos de pesquisas em inteligência artificial e empresas atuantes nesse domínio. O repositório contempla diversos tipos de artefatos, como os corpora de domínio, compostos por textos públicos relevantes para a indústria de óleo e gás, e modelos de inteligência artificial pré-treinados.
O Petrolês é uma iniciativa de colaboração interinstitucional liderada pelo Centro de Pesquisas e Desenvolvimento da Petrobras (CENPES), em parceria com PUC-Rio, UFRGS e PUC-RS, e visa incentivar pesquisas nas áreas de Processamento de Linguagem Natural e Linguística Computacional aplicadas ao domínio de O&G.
Selecione a categoria desejada a partir das abas de navegação abaixo. Em cada aba, selecione os itens desejados ativando as pílulas correspondentes.
Os corpora consolidados correspondem à unificação de conjuntos textuais destinados ao treinamento de algoritmos de Processamento de Linguagem Natural (PLN).
Os arquivos aqui disponíveis foram extraídos e consolidados, realizando o mínimo pré-processamento do conteúdo (apenas eliminação de ruídos, números e caracteres especiais), de forma a atenderem a uma diversidade de aplicações de PLN mais abrangente.
Quando citar os Corpora do Petrolês em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].
Corpora | Descrição | Sentenças | Tokens |
---|---|---|---|
IBICT-BDTD | Teses e dissertações relacionadas ao domínio de O&G, obtidas a partir da Biblioteca Digital Brasileira de Teses e Dissertações | 2.672.927 | 63.424.309 |
Petrolês - domínio específico | Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP). | 7.152.493 | 146.996.520 |
Petrolês - corpus híbrido | Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP), além do corpus de contexto geral em Português do NILC. | 49.310.552 | 829.350.869 |
Petro1 e Petro2 | Corpora padrão ouro, inteiramente revistos, anotados com informação de lema, pos e dependências sintática conforme framework do projeto Universal Dependencies. Os corpora estão disponibilizados separadamente porque foram criados de maneiras diferentes, mas podem ser agrupados. O conteúdo é um subconjunto do corpus Petrolês - domínio específico.. | 818 | 27.536 |
PetroTok | Pequeno corpus padrão ouro, revisto apenas quanto ao pré-processamento, especificamente etapa de sentenciação. O conteúdo é um subconjunto do corpus Petrolês - domínio específico. O corpus não contém frases na sequência em que aparecem nos textos originais, mas uma seleção de frases que podem ser especialmente difíceis para o processamento automático.. | 1.139 | 38.472 |
PetroGold v1 | Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintática conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. Uma apresentação do material está em: de Souza, E., Silveira, A., Cavalcanti, T., Castro, M. C., & Freitas, C. (2021, Novembro). PetroGold – Corpus padrão ouro para o domínio do petróleo. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (pp. 29-38). Disponível em https://sol.sbc.org.br/index.php/stil/article/view/17781.. | 9.127 | 253.640 |
PetroGold-v2 | Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintática conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. O material está descrito em: de Souza, E., Freitas, C. (2022). Polishing the gold – how much revision do we need in treebanks?. I Universal Dependencies Brazilian Festival (UDFest-BR). Disponível em https://aclanthology.org/2022.udfestbr-1.2/. | 8.949 | 250.595 |
PetroGold-v3 | Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintáticas conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. | 8.946 | 250.605 |
PetroNer | Corpus padrão ouro anotado com entidades mencionadas do domínio do petróleo. Composto por Boletins Técnicos da Petrobras que fazem parte do corpus Petrolês [Cordeiro, 2020]. O material está descrito em: Freitas, C., De Souza, E., Castro, M. C., Cavalcanti, T., Ferreira da Silva, P., & Corrêa Cordeiro, F. (2023). Recursos linguísticos para o PLN específico de domínio: o Petrolês. Linguamática, 15(2), 51-68. | 24.035 | 615.418 |
Os corpora consolidados correspondem à unificação de conjuntos de corpora destinada ao treinamento de modelos vetoriais especializados. Diferentes composições de corpora podem ser experimentados na geração dos modelos vetoriais, de forma a obter representações adequadas às especificidades técnicas do domínio.
Os corpora foram gerados considerando as seguintes etapas de preprocessamento: conversão de caracteres para minúsculo, eliminação de stopwords, diacríticos, pontuação e substituição de tokens numéricos pela tag <TOKEN>
.
Quando citar os Corpora do Petrolês em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].
Corpora | Descrição | Sentenças | Tokens |
---|---|---|---|
IBICT-BDTD | Teses e dissertações relacionadas ao domínio de O&G, obtidas a partir da Biblioteca Digital Brasileira de Teses e Dissertações | 2.558.837 | 37.825.743 |
Petrolês - domínio específico | Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP). | 6.295.231 | 85.725.834 |
Petrolês - corpus híbrido | Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP), além do corpus de contexto geral em Português do NILC. | 43.622.972 | 451.021.003 |
Sistemas de Organização do Conhecimento (SOC), ou Knowledge organization systems (KOS), são esquemas semanticamente estruturados, úteis para recuperação da informação, que contemplam termos, definições, relacionamentos e propriedades de conceitos. Incluem glossários, listas, tesauros, taxonomias, ontologias (Saiba mais).
SOC | Descrição |
---|---|
Vocabulário de expressões multipalavras | Listagem contendo um conjunto de expressões multipalavra (Multiword expressions, MWEs) para o domínio de Óleo e Gás. A listagem foi extraída a partir do corpus especializado utilizando Pointwise mutual information (PMI) seguida de uma curadoria manual, e posteriormente ampliada pela extração de nomes de poços a partir de bases estruturadas. O arquivo contém cerca de 65,2 mil MWEs únicas. |
Vocabulário de O&G com frequência | Listagem contendo o vocabulário extraído a partir do corpus especializado de O&G, contemplando 237,9 mil termos e sua respectiva frequência a partir do corpus (mantidas apenas palavras com frequência maior ou igual a 7). |
Modelos de Word Embedding buscam atribuir representações matemáticas a um vocabulário, codificados na forma de vetores densos por algoritmos de aprendizagem automática não-supervisionada, de forma a capturar propriedades sintáticas e semânticas a partir do contexto em que ocorrem.
O PetroVec
é um conjunto de modelos vetoriais pré-treinados a partir dos corpora especializados do Petrolês.
Os modelos de word embeddings podem ser experimentados no ambiente interativo para visualização de espaço semântico do PetroVec, onde estão disponíveis recursos para avaliação de similaridade semântica, regiões de vizinhança, além de projeções PCA e t-SNE em 2D e 3D.
Os modelos foram treinados considerando as seguintes etapas de preprocessamento: conversão de caracteres para minúsculo, eliminação de stopwords, e substituição de tokens numéricos pela tag <TOKEN>
.
Os datasets de testes, o código-fonte utilizados para treinamento e avaliação dos modelos e instruções de uso estão publicamente disponíveis no repositório Github PetroVec.
Os resultados desta iniciativa para geração de modelos vetoriais especializados no domínio de O&G são apresentados no artigo publicado no journal Computers in Industry, da Elsevier: "Portuguese word embeddings for the oil and gas industry: Development and evaluation".
Quando citar os modelos PetroVec em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].
Modelo | Dimensão | Descrição |
---|---|---|
Petrovec-O&G (Word2vec)
Petrovec-O&G (FastText) Petrovec-O&G (Word2vec) |
100
100 300 |
Modelos Word2vec e FastText, vetores de 100 e 300 dimensões, treinados unicamente a partir de dado públicos relacionados ao domínio de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo; Notas e estudos técnicos da ANP). |
Petrovec-híbrido (Word2vec)
Petrovec-híbrido (FastText) Petrovec-híbrido (Word2vec) |
100
100 300 |
Modelos Word2vec e FastText, vetores de 100 e 300 dimensões, treinados a partir de corpus híbrido, contendo tanto o corpus público de domínio de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo; Notas e estudos técnicos da ANP), como também um corpus de contexto geral em Português do NILC. |
Esta seção descreve algumas das principais frentes de pesquisa em andamento, realizadas em colaboração da Petrobras com Universidades parceiras.
Iniciativa | Descrição | Parceiros |
---|---|---|
Corretores OCR | Conjunto de ferramentas utlizadas para correção de textos extraídos a partir de métodos de Reconhecimento Ótico de Caracteres (OCR) | Petrobras, UFRGS |
Socrates Corretor | Corretor desenvolvido para corrigir textos extraídos por OCR em pdfs. | Petrobras, UFRGS |
GeoCSV | O GeoCSV é uma solução web que permite fazer anotações manuais no dataset de imagens do projeto (por pasta o conjunto de imagens selecionadas) e integrá-las com as anotações feitas pela ferramenta de anotação chamada de Labelweb, além de permitir a visualização das imagens do dataset do projeto baseado em alguns critérios de busca, ou até mesmo carregando arquivos CSV independentes. | Petrobras, UFRGS |
REGIS-system | REGIS - Retrieval Evaluation for Geoscientific Information Systems. Ferramenta de apoio para a geração de uma coleção de teste para a recuperação de informação multimodal. Artigo publicado. | Petrobras, UFRGS |
GeoImageOntology | GeoImageOntology - Ontologia de Artefatos Visuais para a área de Exploração de Petróleo. Esta ontologia representa as principais formas de representação em figuras utilizadas na cadeia de Exploração, como mapas, seções, perfis e diagramas. | Petrobras, UFRGS |
Classificador de Imagens - Projeto Geodigital | A ideia do projeto consiste na classificação automática de imagens através de modelos construídos a partir de CNNs. Atualmente conseguimos realizar o treinamento de forma automática para construção de novos modelos, avaliação de performance de modelos já treinados e classificação de novas amostras de imagens nunca antes vistas pelo classificador. | Petrobras, UFRGS |
OCRAnno - OCR text annotation tool | OCRAnno é uma ferramenta de anotação textual projetada para oferecer dados de anotação com o objetivo de melhorar sistemas de extração de OCR. | Petrobras, UFRGS |
Labelweb | O sistema de anotação de imagens via web, Labelweb, é uma ferramenta desenvolvida majoritariamente em Node.js + Express + MongoDB + HTML + CSS + Javascript + JQuery, que permite o cadastro de usuários para participação no processo de anotação, i.e., a atribuição de categorias às imagens do banco de dados. | Petrobras, UFRGS |
PetroBERT | Iniciativa para treinamento e avaliação de modelos vetoriais contextuais em Português especializados no domínio de Óleo e Gás, baseados na arquitetura BERT e suas variações. | Petrobras, UFRGS, ICA/PUC-Rio, PUC-RS, UFF, LNCC |
PetroVec | Iniciativa para treinamento e avaliação de modelos vetoriais de palavras em Português, especializados no domínio de Óleo e Gás. Os resultados desta iniciativa para geração de modelos vetoriais especializados no domínio de O&G são apresentados no artigo publicado no journal Computers in Industry, da Elsevier: "Portuguese word embeddings for the oil and gas industry: Development and evaluation". | Petrobras, UFRGS, PUC-RS, UFRJ |
Reconhecimento de Entidades | Iniciativa para treinamento de modelos de Reconhecimento de Entidade Nomeada para o Domínio de Petróleo e Gás. O Reconhecimento de Entidade Nomeada (Named Entity Recognition - NER) refere-se à identificação de entidades com categorias específicas (geralmente substantivos) do texto, como nomes de pessoas, nomes de lugares, nomes de organizações, etc. Neste repositório encontram-se códigos para treinamento e valiação com base em três tipos de modelo: um modelo baseado em RNN (em TensorFlow), um modelo baseado em BERT (em PyTorch) e um modelo baseado em RNN com tokenização WordPiece (em TensorFlow). | Petrobras, ICA/PUC-Rio |
Extrator Tornado |
Ferramenta para extração de texto a partir de documentos PDF, utilizando técnicas modernas de visão computacional e reconhecimento ótico de caracteres (OCR). O Tornado é um processo e uma ferramenta de software que faz uso intensivo de aprendizado de máquina para, de modo seletivo, extrair informações de arquivos em formato PDF. O Tornado é capaz de fazer uma identificação visual dos elementos em uma página, tais como blocos de texto, figuras, gráficos ou tabelas, de forma semelhante a como um humano faria manualmente. A ferramenta seleciona a melhor estratégia para processar e extrair cada elemento identificado. Por exemplo, para os elementos textuais, uma extração textual simples é primeiro executada. Caso necessário, melhorias na imagem do texto baseadas em modernas técnicas de processamento baseadas em redes neurais profundas são executadas, e esta é encaminhada para uma etapa de reconhecimento ótico de caracteres (OCR), sem necessidade de intervenção humana. O Tornado é projetado para processamento eficiente e paralelo de grandes quantidades de arquivos, podendo ser usado, por exemplo, como uma ferramenta para construção de Corpus, ou em um pipeline de indexação para uma máquina de busca. A ferramenta é especializada na extração de documentos no domínio da indústria de O&G. |
Petrobras, ICA/PUC-Rio |
arrow_downward
Publicações
Linguamática, 15(2), 51-68. 2023.
Dissertação de mestrado. PUC-Rio, 2023.
Proceedings of the Universal Dependencies Brazilian Festival, p. 1–11, Fortaleza, Brazil. Association for Computational Linguistics, 2022.
Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana , (pp. 29-38). 2021.
Revista Brasileira De Iniciação Científica , , 8, e021033. 2021
Computers in Industry, Elsevier. Volume 124, 2021. ISSN 0166-3615.
Tese de Doutorado, COPPE/UFRJ, 2021
SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2021
Proceedings of The 12th Language Resources and Evaluation Conference. Marseille, France. 2020
Monografia de conclusão do curso de especialização Business Intelligence Master, 2020
Computational Processing of the Portuguese Language, Lecture Notes in Computer Science. Springer International Publishing, Cham, pp. 281–290, L.A., 2020.
Dissertação de Mestrado, FGV, 2020
LREC 2020 Workshop on Multimodal Wordnets (MMW2020)
arXiv, 2019
Evento: OTC Brasil 2019
Proceedigns of the 10th Global Wordnet Conference, 2019
Evento: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (VI TILic). pp. 391-394. Outubro, 15-18. Salvador/Bahia, Brasil, 2019<
Evento: Ontobras - Seminário de pesquisa em ontologias no Brasil 2019
CEUR Workshop, 2019
8th Brazilian Conference on Intelligent Systems (BRACIS), 2019
Evento: Rio O&G 2018