Petrolês

O Petrolês é um repositório de artefatos de Processamento de Linguagem Natural especializados no domínio de petróleo em Português, e tem como objetivo servir como uma referência para os grupos de pesquisas em inteligência artificial e empresas atuantes nesse domínio. O repositório contempla diversos tipos de artefatos, como os corpora de domínio, compostos por textos públicos relevantes para a indústria de óleo e gás, e modelos de inteligência artificial pré-treinados.

O Petrolês é uma iniciativa de colaboração interinstitucional liderada pelo Centro de Pesquisas e Desenvolvimento da Petrobras (CENPES), em parceria com PUC-Rio, UFRGS e PUC-RS, e visa incentivar pesquisas nas áreas de Processamento de Linguagem Natural e Linguística Computacional aplicadas ao domínio de O&G.

arrow_downward

Artefatos disponíveis

arrow_upward

Selecione a categoria desejada a partir das abas de navegação abaixo. Em cada aba, selecione os itens desejados ativando as pílulas correspondentes.

Corpora Consolidados

Os corpora consolidados correspondem à unificação de conjuntos textuais destinados ao treinamento de algoritmos de Processamento de Linguagem Natural (PLN).

Os arquivos aqui disponíveis foram extraídos e consolidados, realizando o mínimo pré-processamento do conteúdo (apenas eliminação de ruídos, números e caracteres especiais), de forma a atenderem a uma diversidade de aplicações de PLN mais abrangente.

Quando citar os Corpora do Petrolês em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].

Corpora	Descrição	Sentenças	Tokens
IBICT-BDTD	Teses e dissertações relacionadas ao domínio de O&G, obtidas a partir da Biblioteca Digital Brasileira de Teses e Dissertações	2.672.927	63.424.309
Petrolês - domínio específico	Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP).	7.152.493	146.996.520
Petrolês - corpus híbrido	Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP), além do corpus de contexto geral em Português do NILC.	49.310.552	829.350.869
Petro1 e Petro2	Corpora padrão ouro, inteiramente revistos, anotados com informação de lema, pos e dependências sintática conforme framework do projeto Universal Dependencies. Os corpora estão disponibilizados separadamente porque foram criados de maneiras diferentes, mas podem ser agrupados. O conteúdo é um subconjunto do corpus Petrolês - domínio específico..	818	27.536
PetroTok	Pequeno corpus padrão ouro, revisto apenas quanto ao pré-processamento, especificamente etapa de sentenciação. O conteúdo é um subconjunto do corpus Petrolês - domínio específico. O corpus não contém frases na sequência em que aparecem nos textos originais, mas uma seleção de frases que podem ser especialmente difíceis para o processamento automático..	1.139	38.472
PetroGold v1	Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintática conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. Uma apresentação do material está em: de Souza, E., Silveira, A., Cavalcanti, T., Castro, M. C., & Freitas, C. (2021, Novembro). PetroGold – Corpus padrão ouro para o domínio do petróleo. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (pp. 29-38). Disponível em https://sol.sbc.org.br/index.php/stil/article/view/17781..	9.127	253.640
PetroGold-v2	Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintática conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês. O material está descrito em: de Souza, E., Freitas, C. (2022). Polishing the gold – how much revision do we need in treebanks?. I Universal Dependencies Brazilian Festival (UDFest-BR). Disponível em https://aclanthology.org/2022.udfestbr-1.2/.	8.949	250.595
PetroGold-v3	Treebank padrão ouro, com revisão da anotação automática de lema, POS e dependências sintáticas conforme framework do projeto Universal Dependencies. O conteúdo é um subconjunto do corpus Petrolês.	8.946	250.605
PetroNer	Corpus padrão ouro anotado com entidades mencionadas do domínio do petróleo. Composto por Boletins Técnicos da Petrobras que fazem parte do corpus Petrolês [Cordeiro, 2020]. O material está descrito em: Freitas, C., De Souza, E., Castro, M. C., Cavalcanti, T., Ferreira da Silva, P., & Corrêa Cordeiro, F. (2023). Recursos linguísticos para o PLN específico de domínio: o Petrolês. Linguamática, 15(2), 51-68.	24.035	615.418

Corpora para Modelos Vetoriais de Palavras

Os corpora consolidados correspondem à unificação de conjuntos de corpora destinada ao treinamento de modelos vetoriais especializados. Diferentes composições de corpora podem ser experimentados na geração dos modelos vetoriais, de forma a obter representações adequadas às especificidades técnicas do domínio.

Os corpora foram gerados considerando as seguintes etapas de preprocessamento: conversão de caracteres para minúsculo, eliminação de stopwords, diacríticos, pontuação e substituição de tokens numéricos pela tag <TOKEN>.

Quando citar os Corpora do Petrolês em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].

Corpora	Descrição	Sentenças	Tokens
IBICT-BDTD	Teses e dissertações relacionadas ao domínio de O&G, obtidas a partir da Biblioteca Digital Brasileira de Teses e Dissertações	2.558.837	37.825.743
Petrolês - domínio específico	Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP).	6.295.231	85.725.834
Petrolês - corpus híbrido	Arquivo consolidado contendo todos os corpora públicos relacionados ao domínio específico de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo do IBICT-BDTD e Petrosin; Notas e estudos técnicos da ANP), além do corpus de contexto geral em Português do NILC.	43.622.972	451.021.003

Sistemas de Organização do Conhecimento

Sistemas de Organização do Conhecimento (SOC), ou Knowledge organization systems (KOS), são esquemas semanticamente estruturados, úteis para recuperação da informação, que contemplam termos, definições, relacionamentos e propriedades de conceitos. Incluem glossários, listas, tesauros, taxonomias, ontologias (Saiba mais).

SOC	Descrição
Vocabulário de expressões multipalavras	Listagem contendo um conjunto de expressões multipalavra (Multiword expressions, MWEs) para o domínio de Óleo e Gás. A listagem foi extraída a partir do corpus especializado utilizando Pointwise mutual information (PMI) seguida de uma curadoria manual, e posteriormente ampliada pela extração de nomes de poços a partir de bases estruturadas. O arquivo contém cerca de 65,2 mil MWEs únicas.
Vocabulário de O&G com frequência	Listagem contendo o vocabulário extraído a partir do corpus especializado de O&G, contemplando 237,9 mil termos e sua respectiva frequência a partir do corpus (mantidas apenas palavras com frequência maior ou igual a 7).

SOC

Descrição

Vocabulário de expressões multipalavras

Listagem contendo um conjunto de expressões multipalavra (Multiword expressions, MWEs) para o domínio de Óleo e Gás. A listagem foi extraída a partir do corpus especializado utilizando Pointwise mutual information (PMI) seguida de uma curadoria manual, e posteriormente ampliada pela extração de nomes de poços a partir de bases estruturadas. O arquivo contém cerca de 65,2 mil MWEs únicas.

Vocabulário de O&G com frequência

Listagem contendo o vocabulário extraído a partir do corpus especializado de O&G, contemplando 237,9 mil termos e sua respectiva frequência a partir do corpus (mantidas apenas palavras com frequência maior ou igual a 7).

Modelos de Word Embeddings PETROVEC

Modelos de Word Embedding buscam atribuir representações matemáticas a um vocabulário, codificados na forma de vetores densos por algoritmos de aprendizagem automática não-supervisionada, de forma a capturar propriedades sintáticas e semânticas a partir do contexto em que ocorrem.

O PetroVec é um conjunto de modelos vetoriais pré-treinados a partir dos corpora especializados do Petrolês. Os modelos de word embeddings podem ser experimentados no ambiente interativo para visualização de espaço semântico do PetroVec, onde estão disponíveis recursos para avaliação de similaridade semântica, regiões de vizinhança, além de projeções PCA e t-SNE em 2D e 3D.

Os modelos foram treinados considerando as seguintes etapas de preprocessamento: conversão de caracteres para minúsculo, eliminação de stopwords, e substituição de tokens numéricos pela tag <TOKEN>.

Os datasets de testes, o código-fonte utilizados para treinamento e avaliação dos modelos e instruções de uso estão publicamente disponíveis no repositório Github PetroVec.

Os resultados desta iniciativa para geração de modelos vetoriais especializados no domínio de O&G são apresentados no artigo publicado no journal Computers in Industry, da Elsevier: "Portuguese word embeddings for the oil and gas industry: Development and evaluation".
Quando citar os modelos PetroVec em artigos acadêmicos ou teses, por favor use essa entrada BibTeX [Download .bib].

Modelo	Dimensão	Descrição
Petrovec-O&G (Word2vec) Petrovec-O&G (FastText) Petrovec-O&G (Word2vec)	100 100 300	Modelos Word2vec e FastText, vetores de 100 e 300 dimensões, treinados unicamente a partir de dado públicos relacionados ao domínio de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo; Notas e estudos técnicos da ANP).
Petrovec-híbrido (Word2vec) Petrovec-híbrido (FastText) Petrovec-híbrido (Word2vec)	100 100 300	Modelos Word2vec e FastText, vetores de 100 e 300 dimensões, treinados a partir de corpus híbrido, contendo tanto o corpus público de domínio de O&G (Boletins Técnicos da Petrobras; Teses e Dissertações em assuntos relacionados à indústria de Petróleo; Notas e estudos técnicos da ANP), como também um corpus de contexto geral em Português do NILC.

Iniciativas em Desenvolvimento

Esta seção descreve algumas das principais frentes de pesquisa em andamento, realizadas em colaboração da Petrobras com Universidades parceiras.

Iniciativa	Descrição	Parceiros
Corretores OCR	Conjunto de ferramentas utlizadas para correção de textos extraídos a partir de métodos de Reconhecimento Ótico de Caracteres (OCR)	Petrobras, UFRGS
Socrates Corretor	Corretor desenvolvido para corrigir textos extraídos por OCR em pdfs.	Petrobras, UFRGS
GeoCSV	O GeoCSV é uma solução web que permite fazer anotações manuais no dataset de imagens do projeto (por pasta o conjunto de imagens selecionadas) e integrá-las com as anotações feitas pela ferramenta de anotação chamada de Labelweb, além de permitir a visualização das imagens do dataset do projeto baseado em alguns critérios de busca, ou até mesmo carregando arquivos CSV independentes.	Petrobras, UFRGS
REGIS-system	REGIS - Retrieval Evaluation for Geoscientific Information Systems. Ferramenta de apoio para a geração de uma coleção de teste para a recuperação de informação multimodal. Artigo publicado.	Petrobras, UFRGS
GeoImageOntology	GeoImageOntology - Ontologia de Artefatos Visuais para a área de Exploração de Petróleo. Esta ontologia representa as principais formas de representação em figuras utilizadas na cadeia de Exploração, como mapas, seções, perfis e diagramas.	Petrobras, UFRGS
Classificador de Imagens - Projeto Geodigital	A ideia do projeto consiste na classificação automática de imagens através de modelos construídos a partir de CNNs. Atualmente conseguimos realizar o treinamento de forma automática para construção de novos modelos, avaliação de performance de modelos já treinados e classificação de novas amostras de imagens nunca antes vistas pelo classificador.	Petrobras, UFRGS
OCRAnno - OCR text annotation tool	OCRAnno é uma ferramenta de anotação textual projetada para oferecer dados de anotação com o objetivo de melhorar sistemas de extração de OCR.	Petrobras, UFRGS
Labelweb	O sistema de anotação de imagens via web, Labelweb, é uma ferramenta desenvolvida majoritariamente em Node.js + Express + MongoDB + HTML + CSS + Javascript + JQuery, que permite o cadastro de usuários para participação no processo de anotação, i.e., a atribuição de categorias às imagens do banco de dados.	Petrobras, UFRGS
PetroBERT	Iniciativa para treinamento e avaliação de modelos vetoriais contextuais em Português especializados no domínio de Óleo e Gás, baseados na arquitetura BERT e suas variações.	Petrobras, UFRGS, ICA/PUC-Rio, PUC-RS, UFF, LNCC
PetroVec	Iniciativa para treinamento e avaliação de modelos vetoriais de palavras em Português, especializados no domínio de Óleo e Gás. Os resultados desta iniciativa para geração de modelos vetoriais especializados no domínio de O&G são apresentados no artigo publicado no journal Computers in Industry, da Elsevier: "Portuguese word embeddings for the oil and gas industry: Development and evaluation".	Petrobras, UFRGS, PUC-RS, UFRJ
Reconhecimento de Entidades	Iniciativa para treinamento de modelos de Reconhecimento de Entidade Nomeada para o Domínio de Petróleo e Gás. O Reconhecimento de Entidade Nomeada (Named Entity Recognition - NER) refere-se à identificação de entidades com categorias específicas (geralmente substantivos) do texto, como nomes de pessoas, nomes de lugares, nomes de organizações, etc. Neste repositório encontram-se códigos para treinamento e valiação com base em três tipos de modelo: um modelo baseado em RNN (em TensorFlow), um modelo baseado em BERT (em PyTorch) e um modelo baseado em RNN com tokenização WordPiece (em TensorFlow).	Petrobras, ICA/PUC-Rio
Extrator Tornado	Ferramenta para extração de texto a partir de documentos PDF, utilizando técnicas modernas de visão computacional e reconhecimento ótico de caracteres (OCR). O Tornado é um processo e uma ferramenta de software que faz uso intensivo de aprendizado de máquina para, de modo seletivo, extrair informações de arquivos em formato PDF. O Tornado é capaz de fazer uma identificação visual dos elementos em uma página, tais como blocos de texto, figuras, gráficos ou tabelas, de forma semelhante a como um humano faria manualmente. A ferramenta seleciona a melhor estratégia para processar e extrair cada elemento identificado. Por exemplo, para os elementos textuais, uma extração textual simples é primeiro executada. Caso necessário, melhorias na imagem do texto baseadas em modernas técnicas de processamento baseadas em redes neurais profundas são executadas, e esta é encaminhada para uma etapa de reconhecimento ótico de caracteres (OCR), sem necessidade de intervenção humana. O Tornado é projetado para processamento eficiente e paralelo de grandes quantidades de arquivos, podendo ser usado, por exemplo, como uma ferramenta para construção de Corpus, ou em um pipeline de indexação para uma máquina de busca. A ferramenta é especializada na extração de documentos no domínio da indústria de O&G.	Petrobras, ICA/PUC-Rio

arrow_downward

arrow_upward

Publicações

Recursos linguísticos para o PLN específico de domínio: o Petrolês.

Freitas, C., De Souza, E., Castro, M. C., Cavalcanti, T., Ferreira da Silva, P., & Corrêa Cordeiro, F.

Linguamática, 15(2), 51-68. 2023.

Construção e avaliação de um treebank padrão ouro.

De Souza, Elvis

Dissertação de mestrado. PUC-Rio, 2023.

Polishing the gold – how much revision do we need in treebanks?

DE SOUZA, Elvis & FREITAS, Cláudia

Proceedings of the Universal Dependencies Brazilian Festival, p. 1–11, Fortaleza, Brazil. Association for Computational Linguistics, 2022.

PetroGold – Corpus padrão ouro para o domínio do petróleo

de Souza, E., Silveira, A., Cavalcanti, T., Castro, M. C., & Freitas, C.

Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana , (pp. 29-38). 2021.

Os limites da palavra e da sentença no processamento automático de textos

Cavalcanti, T., Silveira, A., de Souza, E., & Freitas, C.

Revista Brasileira De Iniciação Científica , , 8, e021033. 2021

Portuguese word embeddings for the oil and gas industry: Development and evaluation

Diogo Gomes (Petrobras), Fábio Cordeiro (Petrobras), Bernardo Consoli, Nikolas Santos, Viviane Moreira, Renata Vieira, Silvia Moraes, Alexandre Evsukoff

Computers in Industry, Elsevier. Volume 124, 2021. ISSN 0166-3615.

PetroVec: Desenvolvimento e avaliação de modelos vetoriais de palavras em Português para o domínio de óleo e gás

Diogo Gomes (Petrobras)

Tese de Doutorado, COPPE/UFRJ, 2021

REGIS: A Test Collection for Geoscientific Documents in Portuguese

Lucas Lima de Oliveira, Regis Kruel Romeu, Viviane Pereira Moreira

SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2021

Embeddings for Named Entity Recognition in Geoscience Portuguese Literature

Bernardo Consoli, Joaquim , Santos, Diogo Gomes, Fabio Cordeiro, Renata Vieira, Viviane Moreira

Proceedings of The 12th Language Resources and Evaluation Conference. Marseille, France. 2020

Petrolês - How to Build a Specialized Oil and Gas Corpus in Portuguese. ROG 20, 387–388.

Fábio Cordeiro (Petrobras)

Monografia de conclusão do curso de especialização Business Intelligence Master, 2020

https://doi.org/10.48072/2525-7579.rog.2020.387

An Investigation of Pre-trained Embeddings in Dependency Parsing

de Araújo, J.C.C., Freitas, C., Pacheco, M.A.C., Forero-Mendoza

Computational Processing of the Portuguese Language, Lecture Notes in Computer Science. Springer International Publishing, Cham, pp. 281–290, L.A., 2020.

Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts

Alexandre Tessarollo (Petrobras)

Dissertação de Mestrado, FGV, 2020

Inclusion of Lithological terms (rocks and minerals) in The Open Wordnet for English

Alexandre Tessarollo (Petrobras), Alexandre Rademaker.

LREC 2020 Workshop on Multimodal Wordnets (MMW2020)

Processamento de linguagem natural em Português e aprendizagem profunda para o domínio de Óleo e Gás.

Diogo Gomes (Petrobras), Alexandre Evsukoff (UFRJ)

arXiv, 2019

Technology Intelligence Analysis Based on Document Embedding Techniques for Oil and Gas Domain.

Fábio Cordeiro (Petrobras), Diogo Gomes (Petrobras), Flavio Gomes (Petrobras) e Renata Texeira (Petrobras).

Evento: OTC Brasil 2019

Completing the Princeton Annotated Gloss Corpus Project

Alexandre Rademaker, Bruno Cuconato, Henrique Muniz, Alexandre Tessarollo (Petrobras).

Proceedigns of the 10th Global Wordnet Conference, 2019

Do PDF ao TXT: Desafios na extração de informação em textos técnico-científicos.

Aline Silveira (PUC-Rio), Elvis de Souza (PUC-Rio), Tatiana Cavalcanti (PUC-Rio), Cláudia Freitas (PUC-Rio)

Evento: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (VI TILic). pp. 391-394. Outubro, 15-18. Salvador/Bahia, Brasil, 2019<

A knowledge organization system for image classification and retrieval in petroleum exploration domain.

Mara Abel, Eduardo Simões Lopes Gastal, Cassiana Roberta Lizzoni Michelin, Luiza Gonçalves Maggi, Bruno Eduardo Firnkes, Felix Eduardo Huaroto Pachas and Renata dos Santos Alvarenga (UFRGS)

Evento: Ontobras - Seminário de pesquisa em ontologias no Brasil 2019

Extending SUMO to Geological Times.

Alexandre Rademaker, Alexandre Tessarollo (Petrobras), Henrique Muniz, Adam Pease.

CEUR Workshop, 2019

Automatic Summarization of Technical Documents in the Oil and Gas Industry

João Marcos Correia Marques, Fabio Gagliardi Cozman, Ismael Humberto Ferreira dos Santos

8th Brazilian Conference on Intelligent Systems (BRACIS), 2019

Word embeddings em português para o domínio específico de óleo e gás.

Diogo Gomes (Petrobras), Fábio Cordeiro (Petrobras) e Alexandre Evsukof (UFRJ)

Evento: Rio O&G 2018

arrow_downward

arrow_upward