O Petrolês é um repositório de artefatos de Processamento de Linguagem Natural especializados no domínio de petróleo em Português, e tem como objetivo servir como uma referência para os grupos de pesquisas em inteligência artificial e empresas atuantes nesse domínio. O repositório contempla diversos tipos de artefatos, como os corpora de domínio, compostos por textos públicos relevantes para a indústria de óleo e gás, e modelos de inteligência artificial pré-treinados.

O Petrolês é uma iniciativa de colaboração interinstitucional liderada pelo Centro de Pesquisas e Desenvolvimento da Petrobras (CENPES), em parceria com PUC-Rio, UFRGS e PUC-RS, e visa incentivar pesquisas nas áreas de Processamento de Linguagem Natural e Linguística Computacional aplicadas ao domínio de O&G.

arrow_downward
Artefatos disponíveis
arrow_upward

Selecione a categoria desejada a partir das abas de navegação abaixo. Em cada aba, selecione os itens desejados ativando as pílulas correspondentes.

Corpora Consolidados

Os corpora consolidados correspondem à unificação de conjuntos textuais destinados ao treinamento de algoritmos de Processamento de Linguagem Natural (PLN).

Os arquivos aqui disponíveis foram extraídos e consolidados, realizando o mínimo pré-processamento do conteúdo (apenas eliminação de ruídos, números e caracteres especiais), de forma a atenderem a uma diversidade de aplicações de PLN mais abrangente.

Quando citar os Corpora do Petrolês em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].

Corpora Descrição Sentenças Tokens
IBICT-BDTD Teses e dissertações relacionadas ao domínio de O&G, obtidas a partir da Biblioteca Digital Brasileira de Teses e Dissertações 2.672.927 63.424.309
Petrolês - domínio específico Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP). 7.152.493 146.996.520
Petrolês - corpus híbrido Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP), além do corpus de contexto geral em Português do NILC. 49.310.552 829.350.869
Petro1 e Petro2 Corpora padrão ouro, inteiramente revistos, anotados com informação de lema, pos e dependências sintática conforme framework do projeto Universal Dependencies. Os corpora estão disponibilizados separadamente porque foram criados de maneiras diferentes, mas podem ser agrupados. O conteúdo é um subconjunto do corpus Petrolês - domínio específico.. 818 27.536
PetroTok Pequeno corpus padrão ouro, revisto apenas quanto ao pré-processamento, especificamente etapa de sentenciação. O conteúdo é um subconjunto do corpus Petrolês - domínio específico. O corpus não contém frases na sequência em que aparecem nos textos originais, mas uma seleção de frases que podem ser especialmente difíceis para o processamento automático.. 1.139 38.472
PetroGold v1 Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintática conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. Uma apresentação do material está em: de Souza, E., Silveira, A., Cavalcanti, T., Castro, M. C., & Freitas, C. (2021, Novembro). PetroGold – Corpus padrão ouro para o domínio do petróleo. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (pp. 29-38). Disponível em https://sol.sbc.org.br/index.php/stil/article/view/17781.. 9.127 253.640
PetroGold-v2 Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintática conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. O material está descrito em: de Souza, E., Freitas, C. (2022). Polishing the gold – how much revision do we need in treebanks?. I Universal Dependencies Brazilian Festival (UDFest-BR). Disponível em https://aclanthology.org/2022.udfestbr-1.2/. 8.949 250.595
PetroGold-v3 Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintáticas conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. 8.946 250.605
PetroNer Corpus padrão ouro anotado com entidades mencionadas do domínio do petróleo. Composto por Boletins Técnicos da Petrobras que fazem parte do corpus Petrolês [Cordeiro, 2020]. O material está descrito em: Freitas, C., De Souza, E., Castro, M. C., Cavalcanti, T., Ferreira da Silva, P., & Corrêa Cordeiro, F. (2023). Recursos linguísticos para o PLN específico de domínio: o Petrolês. Linguamática, 15(2), 51-68. 24.035 615.418
Corpora para Modelos Vetoriais de Palavras

Os corpora consolidados correspondem à unificação de conjuntos de corpora destinada ao treinamento de modelos vetoriais especializados. Diferentes composições de corpora podem ser experimentados na geração dos modelos vetoriais, de forma a obter representações adequadas às especificidades técnicas do domínio.

Os corpora foram gerados considerando as seguintes etapas de preprocessamento: conversão de caracteres para minúsculo, eliminação de stopwords, diacríticos, pontuação e substituição de tokens numéricos pela tag <TOKEN>.

Quando citar os Corpora do Petrolês em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].

Corpora Descrição Sentenças Tokens
IBICT-BDTD Teses e dissertações relacionadas ao domínio de O&G, obtidas a partir da Biblioteca Digital Brasileira de Teses e Dissertações 2.558.837 37.825.743
Petrolês - domínio específico Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP). 6.295.231 85.725.834
Petrolês - corpus híbrido Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP), além do corpus de contexto geral em Português do NILC. 43.622.972 451.021.003
Sistemas de Organização do Conhecimento

Sistemas de Organização do Conhecimento (SOC), ou Knowledge organization systems (KOS), são esquemas semanticamente estruturados, úteis para recuperação da informação, que contemplam termos, definições, relacionamentos e propriedades de conceitos. Incluem glossários, listas, tesauros, taxonomias, ontologias (Saiba mais).

SOC Descrição
Vocabulário de expressões multipalavras Listagem contendo um conjunto de expressões multipalavra (Multiword expressions, MWEs) para o domínio de Óleo e Gás. A listagem foi extraída a partir do corpus especializado utilizando Pointwise mutual information (PMI) seguida de uma curadoria manual, e posteriormente ampliada pela extração de nomes de poços a partir de bases estruturadas. O arquivo contém cerca de 65,2 mil MWEs únicas.
Vocabulário de O&G com frequência Listagem contendo o vocabulário extraído a partir do corpus especializado de O&G, contemplando 237,9 mil termos e sua respectiva frequência a partir do corpus (mantidas apenas palavras com frequência maior ou igual a 7).
Modelos de Word Embeddings PETROVEC

Modelos de Word Embedding buscam atribuir representações matemáticas a um vocabulário, codificados na forma de vetores densos por algoritmos de aprendizagem automática não-supervisionada, de forma a capturar propriedades sintáticas e semânticas a partir do contexto em que ocorrem.

O PetroVec é um conjunto de modelos vetoriais pré-treinados a partir dos corpora especializados do Petrolês. Os modelos de word embeddings podem ser experimentados no ambiente interativo para visualização de espaço semântico do PetroVec, onde estão disponíveis recursos para avaliação de similaridade semântica, regiões de vizinhança, além de projeções PCA e t-SNE em 2D e 3D.

Os modelos foram treinados considerando as seguintes etapas de preprocessamento: conversão de caracteres para minúsculo, eliminação de stopwords, e substituição de tokens numéricos pela tag <TOKEN>.

Os datasets de testes, o código-fonte utilizados para treinamento e avaliação dos modelos e instruções de uso estão publicamente disponíveis no repositório Github PetroVec.

Os resultados desta iniciativa para geração de modelos vetoriais especializados no domínio de O&G são apresentados no artigo publicado no journal Computers in Industry, da Elsevier: "Portuguese word embeddings for the oil and gas industry: Development and evaluation".
Quando citar os modelos PetroVec em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].

Modelo Dimensão Descrição
Petrovec-O&G (Word2vec)
Petrovec-O&G (FastText)
Petrovec-O&G (Word2vec)
100
100
300
Modelos Word2vec e FastText, vetores de 100 e 300 dimensões, treinados unicamente a partir de dado públicos relacionados ao domínio de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo; Notas e estudos técnicos da ANP).
Petrovec-híbrido (Word2vec)
Petrovec-híbrido (FastText)
Petrovec-híbrido (Word2vec)
100
100
300
Modelos Word2vec e FastText, vetores de 100 e 300 dimensões, treinados a partir de corpus híbrido, contendo tanto o corpus público de domínio de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo; Notas e estudos técnicos da ANP), como também um corpus de contexto geral em Português do NILC.
Iniciativas em Desenvolvimento

Esta seção descreve algumas das principais frentes de pesquisa em andamento, realizadas em colaboração da Petrobras com Universidades parceiras.

Iniciativa Descrição Parceiros
Corretores OCR Conjunto de ferramentas utlizadas para correção de textos extraídos a partir de métodos de Reconhecimento Ótico de Caracteres (OCR) Petrobras, UFRGS
Socrates Corretor Corretor desenvolvido para corrigir textos extraídos por OCR em pdfs. Petrobras, UFRGS
GeoCSV O GeoCSV é uma solução web que permite fazer anotações manuais no dataset de imagens do projeto (por pasta o conjunto de imagens selecionadas) e integrá-las com as anotações feitas pela ferramenta de anotação chamada de Labelweb, além de permitir a visualização das imagens do dataset do projeto baseado em alguns critérios de busca, ou até mesmo carregando arquivos CSV independentes. Petrobras, UFRGS
REGIS-system REGIS - Retrieval Evaluation for Geoscientific Information Systems. Ferramenta de apoio para a geração de uma coleção de teste para a recuperação de informação multimodal. Artigo publicado. Petrobras, UFRGS
GeoImageOntology GeoImageOntology - Ontologia de Artefatos Visuais para a área de Exploração de Petróleo. Esta ontologia representa as principais formas de representação em figuras utilizadas na cadeia de Exploração, como mapas, seções, perfis e diagramas. Petrobras, UFRGS
Classificador de Imagens - Projeto Geodigital A ideia do projeto consiste na classificação automática de imagens através de modelos construídos a partir de CNNs. Atualmente conseguimos realizar o treinamento de forma automática para construção de novos modelos, avaliação de performance de modelos já treinados e classificação de novas amostras de imagens nunca antes vistas pelo classificador. Petrobras, UFRGS
OCRAnno - OCR text annotation tool OCRAnno é uma ferramenta de anotação textual projetada para oferecer dados de anotação com o objetivo de melhorar sistemas de extração de OCR. Petrobras, UFRGS
Labelweb O sistema de anotação de imagens via web, Labelweb, é uma ferramenta desenvolvida majoritariamente em Node.js + Express + MongoDB + HTML + CSS + Javascript + JQuery, que permite o cadastro de usuários para participação no processo de anotação, i.e., a atribuição de categorias às imagens do banco de dados. Petrobras, UFRGS
PetroBERT Iniciativa para treinamento e avaliação de modelos vetoriais contextuais em Português especializados no domínio de Óleo e Gás, baseados na arquitetura BERT e suas variações. Petrobras, UFRGS, ICA/PUC-Rio, PUC-RS, UFF, LNCC
PetroVec Iniciativa para treinamento e avaliação de modelos vetoriais de palavras em Português, especializados no domínio de Óleo e Gás. Os resultados desta iniciativa para geração de modelos vetoriais especializados no domínio de O&G são apresentados no artigo publicado no journal Computers in Industry, da Elsevier: "Portuguese word embeddings for the oil and gas industry: Development and evaluation". Petrobras, UFRGS, PUC-RS, UFRJ
Reconhecimento de Entidades Iniciativa para treinamento de modelos de Reconhecimento de Entidade Nomeada para o Domínio de Petróleo e Gás. O Reconhecimento de Entidade Nomeada (Named Entity Recognition - NER) refere-se à identificação de entidades com categorias específicas (geralmente substantivos) do texto, como nomes de pessoas, nomes de lugares, nomes de organizações, etc. Neste repositório encontram-se códigos para treinamento e valiação com base em três tipos de modelo: um modelo baseado em RNN (em TensorFlow), um modelo baseado em BERT (em PyTorch) e um modelo baseado em RNN com tokenização WordPiece (em TensorFlow). Petrobras, ICA/PUC-Rio
Extrator Tornado Ferramenta para extração de texto a partir de documentos PDF, utilizando técnicas modernas de visão computacional e reconhecimento ótico de caracteres (OCR).
O Tornado é um processo e uma ferramenta de software que faz uso intensivo de aprendizado de máquina para, de modo seletivo, extrair informações de arquivos em formato PDF. O Tornado é capaz de fazer uma identificação visual dos elementos em uma página, tais como blocos de texto, figuras, gráficos ou tabelas, de forma semelhante a como um humano faria manualmente.
A ferramenta seleciona a melhor estratégia para processar e extrair cada elemento identificado. Por exemplo, para os elementos textuais, uma extração textual simples é primeiro executada. Caso necessário, melhorias na imagem do texto baseadas em modernas técnicas de processamento baseadas em redes neurais profundas são executadas, e esta é encaminhada para uma etapa de reconhecimento ótico de caracteres (OCR), sem necessidade de intervenção humana.
O Tornado é projetado para processamento eficiente e paralelo de grandes quantidades de arquivos, podendo ser usado, por exemplo, como uma ferramenta para construção de Corpus, ou em um pipeline de indexação para uma máquina de busca. A ferramenta é especializada na extração de documentos no domínio da indústria de O&G.
Petrobras, ICA/PUC-Rio



arrow_downward
arrow_upward
Publicações

De Souza, Elvis

Dissertação de mestrado. PUC-Rio, 2023.

DE SOUZA, Elvis & FREITAS, Cláudia

Proceedings of the Universal Dependencies Brazilian Festival, p. 1–11, Fortaleza, Brazil. Association for Computational Linguistics, 2022.

de Souza, E., Silveira, A., Cavalcanti, T., Castro, M. C., & Freitas, C.

Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana , (pp. 29-38). 2021.

Cavalcanti, T., Silveira, A., de Souza, E., & Freitas, C.

Revista Brasileira De Iniciação Científica , , 8, e021033. 2021

Diogo Gomes (Petrobras), Fábio Cordeiro (Petrobras), Bernardo Consoli, Nikolas Santos, Viviane Moreira, Renata Vieira, Silvia Moraes, Alexandre Evsukoff

Computers in Industry, Elsevier. Volume 124, 2021. ISSN 0166-3615.

Lucas Lima de Oliveira, Regis Kruel Romeu, Viviane Pereira Moreira

SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2021

Bernardo Consoli, Joaquim , Santos, Diogo Gomes, Fabio Cordeiro, Renata Vieira, Viviane Moreira

Proceedings of The 12th Language Resources and Evaluation Conference. Marseille, France. 2020

Fábio Cordeiro (Petrobras)

Monografia de conclusão do curso de especialização Business Intelligence Master, 2020

https://doi.org/10.48072/2525-7579.rog.2020.387

de Araújo, J.C.C., Freitas, C., Pacheco, M.A.C., Forero-Mendoza

Computational Processing of the Portuguese Language, Lecture Notes in Computer Science. Springer International Publishing, Cham, pp. 281–290, L.A., 2020.

Alexandre Tessarollo (Petrobras), Alexandre Rademaker.

LREC 2020 Workshop on Multimodal Wordnets (MMW2020)

Fábio Cordeiro (Petrobras), Diogo Gomes (Petrobras), Flavio Gomes (Petrobras) e Renata Texeira (Petrobras).

Evento: OTC Brasil 2019

Alexandre Rademaker, Bruno Cuconato, Henrique Muniz, Alexandre Tessarollo (Petrobras).

Proceedigns of the 10th Global Wordnet Conference, 2019

Aline Silveira (PUC-Rio), Elvis de Souza (PUC-Rio), Tatiana Cavalcanti (PUC-Rio), Cláudia Freitas (PUC-Rio)

Evento: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (VI TILic). pp. 391-394. Outubro, 15-18. Salvador/Bahia, Brasil, 2019<

Mara Abel, Eduardo Simões Lopes Gastal, Cassiana Roberta Lizzoni Michelin, Luiza Gonçalves Maggi, Bruno Eduardo Firnkes, Felix Eduardo Huaroto Pachas and Renata dos Santos Alvarenga (UFRGS)

Evento: Ontobras - Seminário de pesquisa em ontologias no Brasil 2019

Alexandre Rademaker, Alexandre Tessarollo (Petrobras), Henrique Muniz, Adam Pease.

CEUR Workshop, 2019

João Marcos Correia Marques, Fabio Gagliardi Cozman, Ismael Humberto Ferreira dos Santos

8th Brazilian Conference on Intelligent Systems (BRACIS), 2019

Diogo Gomes (Petrobras), Fábio Cordeiro (Petrobras) e Alexandre Evsukof (UFRJ)

Evento: Rio O&G 2018

arrow_downward
arrow_upward
Equipe do Projeto

Petrobras

foto
Regis Kruel Romeu
foto
Fábio Corrêa Cordeiro
foto
Diogo Magalhães
foto
Claudio Marcos Ziglio
foto
Antônio Marcelo Azevedo Alexandre
foto
Max de Castro Rodrigues
foto
Vitor Alcantara Batista
foto
Eugenio Pacelli Ferreira Dias Junior
foto
Luciana Santana



ICA/PUC-Rio

foto
Aline da Silveira Matos
foto
Cristian Munoz
foto
Eleonora Cominato Weiner
foto
Elvis Alves de Souza
foto
Evelyn Batista
foto
Jose Ruiz
foto
Leonardo Mendonza
foto
Marco Aurelio C.
foto
Maria Cláudia de Freitas
foto
Renato Sayão
foto
Tatiana Cavalcanti



Instituto de Informática - UFRGS

foto
Viviane Pereira Moreira
foto
Danny Suarez Vargas
foto
Lucas Lima de Oliveira
foto
Gabriel Vogel Pinto



PUC-RS

foto
Renata Vieira
foto
Sílvia Maria Wanderley Moraes
foto
Bernardo Scapini Consoli
foto
Nikolas Lacerda Santos
foto
Nathan Schneider Gavenski



COPPE/UFRJ - LAMCE e NTT

foto
Alexandre G. Evsukoff