Os avanços tecnológicos exibem vários graus de longevidade. Alguns são testados e confiáveis, durando mais do que outros, enquanto outras tecnologias sucumbem ao hype fugaz sem atingir fruição substantiva. Uma constante, neste cenário dinâmico, são os dados.

Para fazer uso da melhor e mais recente tecnologia, você deve ter sua casa, ou mais especificamente, seus dados, em ordem. Por meio do gerenciamento de dados fundamentais de alta qualidade, onde as ontologias desempenham um papel crucial, uma organização pode ser ágil o suficiente para se adaptar e fazer uso de tecnologias de ponta, como grandes modelos de linguagem (LLM).

O que é um modelo de linguagem grande?

Um LLM é um modelo sofisticado, generativo e de inteligência artificial (IA) projetado para entender e gerar texto semelhante ao humano. Treinados em quantidades monumentais de dados, os LLMs são projetados para gerar respostas coerentes e contextualmente relevantes. Os LLMs são, portanto, ótimos em tarefas baseadas em linguagem que lhes permitem aproveitar seu conhecimento aprendido de padrões textuais, como resumo, geração, agregação, tradução e assistência de programação.

O que é uma ontologia?

Uma ontologia é uma representação formal de um domínio de conhecimento, permitindo a codificação estruturada de informações usando princípios semelhantes aos encontrados na lógica simbólica tradicional. As ontologias capturam o conhecimento humano em um formato computacionalmente amigável; permitindo que a análise seja concluída com conhecimento atualizado do especialista no assunto (SME) de forma escalável.

É importante notar também que o termo ontologia é usado para definir padrões que variam em expressividade e formalidade, variando de glossários a tesauros e taxonomias por meio de metadados e modelos de dados até ontologias semânticas ricas.

Gerenciamento de dados básico

Um caso de uso chave de ontologias, ou mais especificamente padrões derivados de ontologias, é a marcação e o gerenciamento de dados. Seja estruturado, não estruturado, interno ou externo, ao alinhar seus dados aos padrões, eles se tornam mais localizáveis, acessíveis, interoperáveis e reutilizáveis (FAIR). Como resultado, as tarefas de recuperação de informações podem ser aprimoradas e, ao representar dados anteriormente não estruturados de maneira estruturada e semântica, a inferência e a extração de insights podem ser aceleradas.

Não posso simplesmente usar um LLM para isso?

Mas espere… certamente, posso usar o poder de um LLM para gerenciar, recuperar e analisar meus dados que ouço (alguns) você chorar? Bem, não, não completamente. E certamente não em cenários em que a tomada de decisão baseada em evidências é crucial, como as Ciências da Vida e outros domínios em que as decisões precisam ser calculadas de maneira explicável com proveniência e onde decisões erradas podem resultar em consequências terríveis.

Vamos dar uma olhada em algumas das tarefas específicas que acreditamos que a criação e aplicação de ontologias ainda são vitais …

1. Geração de ontologias

Os LLMs podem ajudar a descobrir o ‘conhecimento’, mas as ontologias são necessárias para capturá-lo para uso futuro. Embora várias tecnologias possam suportar a curadoria semiautomatizada de ontologias, a validação humana é crucial para classes, termos e relacionamentos candidatos.

Transformar a saída LLM em uma ontologia por meio de um modelo leve permite versatilidade e reutilização em aplicações downstream. Mesmo que a IA possa criar uma ontologia perfeita, é crucial reconhecer que o valor de um padrão está em seu consenso entre os humanos. Embora a IA possa gerar uma ontologia bem estruturada, ela pode muito bem lutar com distinções sutis e divergir do que os outros usam. O humano no circuito é vital.

2. Alinhamento para obter padrões

Embora sejam adeptos do reconhecimento de tipos de coisas, como genes, os LLMs lutam para alinhar representações variadas e sinônimas de instâncias a identificadores específicos (por exemplo, entender que BRCA1 e FANCS são equivalentes). Além de fornecer uma ontologia como parte de um prompt (as limitações incluem o comprimento do token de prompt), a capacidade de anotar dados textuais para digitar, instância e relacionamentos que o acompanham, ou hierarquias, ainda é algo que requer ontologias. As ontologias “sabem” as coisas e são validadas por humanos.

3. Pesquisa, banco de dados único

As limitações dos LLMs nas tarefas de pesquisa estão bem documentadas: alucinações, informações desatualizadas, segurança e privacidade, falta de proveniência e auditabilidade / reprodutibilidade, para citar alguns. A arquitetura Retrieval Augmented Generation (RAG), a abordagem de aterramento amplamente aceita, está ganhando destaque.

Os sistemas RAG bem-sucedidos dependem da recuperação precisa de informações (IR), muitas vezes usando incorporações para indicar relacionamento, não o “como” crucial para decisões explicáveis. Nesse domínio, o consenso é que as abordagens lexicais / ontológicas ou híbridas se destacam em relação aos métodos puramente baseados em vetores.

4. Pesquisa, democratizando silos

Os dados raramente residem em uma única fonte corporativa. Ele existe em diversas fontes, formatos e sintaxes. Para democratizar os dados, é crucial alinhar dados isolados díspares a padrões comuns, possibilitados por ontologias que garantem a interoperabilidade no nível da fonte. Da mesma forma, converter consultas de linguagem natural em entidades ontológicas é vital para consultar diversos dados de forma eficaz.

As ontologias desempenham um papel fundamental nesses casos, auxiliando na recuperação contínua de silos que se comparam a IDs capturados em ontologias, como gráficos de conhecimento. Embora os LLMs tenham um papel em aspectos de tal solução, por exemplo, converter consultas de linguagem natural em uma sintaxe de consulta relevante (ou seja, SSQL para SciBite Search ou Cypher para Neo4J), resumindo os resultados de um conjunto de IR preciso - ontologias também são primordiais.

Quando modelamos dados com ontologias, podemos fazer perguntas extremamente precisas, obter respostas definitivas e somos capazes de usar o raciocínio para deduzir e explicar as respostas às consultas. As ontologias nasceram da necessidade de identificar inequivocamente os tipos de entidades no mundo (e em nossos dados) e as relações que se mantêm entre elas. Os LLMs, por outro lado, fornecem uma abordagem estatística para identificá-los que podem ser apresentados por meio da linguagem natural – permitindo-nos ver quais coisas estão potencialmente relacionadas, mas não como.

Grandes modelos de linguagem não vão a lugar nenhum e beneficiarão a todos nós, sua capacidade de apoiar tarefas operacionais é clara para todos verem, no entanto, em situações em que a tomada de decisão baseada em evidências é fundamental, particularmente em P&D nas Ciências da Vida, as ontologias ainda têm um papel enorme a desempenhar.

Assim como ontologias ou qualquer software, grandes modelos de linguagem são apenas ferramentas para ajudá-lo a fazer as coisas. Nenhuma coisa resolve todos os problemas sozinha. Todos devemos nos lembrar de começar entendendo o problema, não encaixando uma solução em um lugar onde ela não se encaixa.


Autor: Joe Mullen

Artigo Original