27 setembro 2007

Parte da web semântica já existe

por Alexandre Fugita

[Conversa das APIs] Em teoria a web semântica é fantástica, ou seja, redescrever toda a informação que já existe na web na tentativa de fazer os computadores entenderem o significado das coisas. Em poucas palavras, seria uma camada a mais na web com meta-informações sobre a informação. A busca seria beneficiada pelo uso da linguagem natural. Mas se a intenção da web semântica é fazer computadores conversarem entre si e se entenderem um com os outros, isso já está acontecendo e se chama mashup.

Como seria essa tal de web semântica…

Quando entramos em uma página web prontamente entendemos os seus elementos. Reconhecemos um texto, absorvemos as informações contidas nele, fazemos relações e depois da leitura talvez um conceito novo ou informação começe a fazer parte de nosso repertório. Se essa página for de uma loja virtual nosso cérebro é capaz de localizar o preço de um produto, sua foto, suas especificações, prazo de entrega, etc…

Já um computador, por exemplo, o robô de um mecanismo de busca, teoricamente não distingue nada disso. Para ele tudo não passa de um monte de caracteres organizados em uma certa seqüência. É aí que entra a web semântica. Através de tags é possível descrever que aqueles números são o preço, que aquele monte de letras é o nome do produto, que aquele outro conjunto de informações representam o prazo de entrega.

Ou seja, para a web semântica existir, teríamos que redescrever toda a informação da web com essas tags de microformatos. No mínimo isso parece inviável. E não é possível ser feita automaticamente por um software. Se esse software existisse na verdade não precisaríamos descrever a informação com tags, o problema já estaria resolvido.

APIs, mashups e os dados semânticos

Uma coisa que está acontecendo é a transformação da web em real plataforma. As APIs, antes escondidas nos recantos dos sistemas operacionais, agora estão livres destas amarras, acessíveis pela internet. Serviços web conseguem se comunicar entre si, trocar informações e gerar novas e excelentes aplicações. O vídeo abaixo, que circulou tempos atrás pelos blogs, explica muito bem o que quero dizer.

[youtube U9sENSA_sjI]

Veja esse vídeo direto no YouTube.

Aquela visão do Tim Bernes-Lee do software semântico que conseguiria marcar uma consulta médica e ao mesmo tempo agendar uma viagem de negócios cuidando sozinho da logística praticamente já é possível. Mas esses serviços não dependem exatamente das páginas web serem semânticas e sim da semântica que existe no formato XML (para troca de informações), algo previsto na teoria da web semântica. Isso sim faz sentido, troca de dados entre aplicações. Mas transformar páginas de conteúdo em algo inteligível por máquinas está longe de acontecer. Será mesmo?

Leia também:

Semantic Web: Difficulties with the Classic Approach, via Read Write Web
Top-Down: A New Approach to the Semantic Web, via Read Write Web

Assuntos

Comentários do Facebook

12 comentários

1. Aguinelo Pedroso disse em 27 set 2007 - 18:54

Na minha opinião que tudo isso é um pouco de viagem, possivel pode até ser que seja, mas vai levar um bom tempo ainda e creio que não seja na “Web 3.0” que isso aconteça. Marshups já são uma grande evolução nesse sentido e tudo isso é viabilizado em grande parte por XML, tudo aseu tempo.
2. semtex disse em 27 set 2007 - 19:26

O vídeo é bastante didático! Não sabia o que era ‘méshap’, apesar de ter encontrado este termo várias vezes por aqui. Mas a idéia se parece um pouco com o velho Java: superar a diversidade de línguas dos sistemas operacionais para fazer aplicativos que funcionam em todas as plataformas…
3. Daniel Accorsi disse em 28 set 2007 - 08:51

Acho que aquela imagenzinha logo no começo do artigo diz tudo. O que mais me identifiquei foi a facilidade de hoje em dia haver troca de informações entre sistemas web através de API. Acredito que a partir daí será possível uma integração geral, será criado um novo padrão de comunicação para que haja uma conexão instantânea e automática com outros sistema, sem a necessidade de fazer requisições. Seria mais ou menos uma rede dentro de outra. Esse mundo que está sendo criado é incrível, vai ser até possível viver nele.
4. Prof.Luís Eduardo disse em 28 set 2007 - 15:34

Parece que as coisas vão se acertando aos poucos, e logo uma tendência será os serviços na web serem “semânticos” porque os usuários vão usar esta informação para interagir.
É mais ou menos como o Rss que se impôs como obrigatório para os portais e blogs. Outras técnicas de qualificação dos dados logo estarão em uso. O Xml parece uma parte essencial desta visão.
5. Alexandre Fugita disse em 29 set 2007 - 06:00

Aguinelo,

É uma viagem interessante. Eu sempre me surpreendo como as coisas mudaram rapidamente nos últimos anos. O que os próximos anos nos trará?

semtex,

O velho java nunca conseguiu cumprir essa idéia. O troço é lento, trava a máquina, mesmo a mais rápida. Além disso a idéia do mashup não é rodar no cliente (nossas máquinas) como o java e sim rodar no servidor em algum lugar do planeta. E tem se mostrado uma solução muito interessante agora que a internet é banda larga e os computadores mais rápidos.

Daniel,

As possibilidades são infinitas. A plataforma é a internet. Serviço web sem API = serviço web isolado. Ou seja, não será interessante!

Prof. Luís Eduardo,

O XML é parte essencial mesmo. E toda essa troca de dados via APIs, RSS, etc, com tags e tudo mais mostra exatamente isso. Enquanto isso a web continua sem semântica.

Abraços a todos!
6. brazz disse em 30 set 2007 - 10:51

Alexandre,
Acho que a Google está MUITO mais avançada em interpretação de semântica do que o seu post sugere.
Pesquise, por exemplo, por LSI – Latent Semantics Indexing; isso foi tópico de um paper há uns cinco anos; basicamente, é uma técnica que mapeia qualquer documento para um universo semântico de duas dimensões; quanto mais próximos dois documentos no universo, mais correlatos semanticamente.
Ainda sobre pesquisa, procure por ‘term vector’, uma técnica um pouco mais antiquada que cria vetores n-dimensionais (n é o número de palavras do universo) e compara similaridades pelo produto escalar entre vetores.
Muito disso já era aplicado quando a Google lançou o Adsense (que foi anunciado pouco após a compra da Applied Semantics – a Google é um dos maiores empregadores de linguistas do mundo); no Adwords, o anunciante dizia qual o tópico do seu anúncio; no Adsense, é o algoritmo que deve ‘sentir’ o tópico da página. E como o algo faz isso? Por análise semântica.
Mais recentemente, a google publicou uma patente (não tenho aqui de imediato) que rankeia documentos por ‘sets of quality phrases’ ou algo semelhante. Um documento que contenha, por exemplo, uma frase com ‘Recife’ e ‘frevo’ indica qualidade; por quê? porque a Google sabe (por meio dos enormes banco de dados que acumulou) que é comum que as pessoas pesquisem por ‘frevo em Recife’ e variações (muito mais comum, por exemplo, do que ‘frevo na Tailândia’). Imagine o que os PhDs da Google não podem aprender estudando o imenso banco de dados com todas as pesquisas em todas as épocas.
Quanto mais a Google evoluir na semântica, menos ela vai depender de links (e menos os SEOs vão influir nos rankings). Por isso ela investe tanto nisso.
Abraço,
7. Citação de Allan via Rec6 em 2 out 2007 - 12:58

Parte da web semântica já existe – Techbits…

Em teoria a web semântica é fantástica, ou seja, redescrever toda a informação que já existe na web na tentativa de fazer os computadores entenderem o significado das coisas….
8. Alexandre Fugita disse em 3 out 2007 - 18:15

brazz,

Concordo com você que o Google é muito bom em análise semântica estatística. Não é exatamente entender o texto, mas inferir, através de algoritmos matemáticos qual é o provável assunto de um texto.

Abraços!
9. Citação de WEBtudinho » Planet Microformats em 24 out 2007 - 02:42

[…] Sinto-me honrado por ser um dos únicos brasileiros no meio de tantos links. E como linkar não dói e é muito legal, os brasileiros na lista são: Tiago Dória e TechBits. […]
10. Claudia disse em 9 nov 2007 - 16:23

Falando de Web semântica, tenho um link bem legal!
http://www.cortex-intelligence.com
11. Alexandre Fugita disse em 12 nov 2007 - 15:47

Claudia,

Ótima dica!
12. Citação de Top-Down: A New Approach to the Semantic Web « The “Meta” Internet: The genesis of a “virtual” Silicon Valleys leveraging the power of the Internet. em 12 mar 2008 - 21:13

[…] $350m on Zimbra; an Open Source,… Read More Tracked on September 22, 2007 10:35 PM » Parte da web sem?¢ntica j?° existe from Techbits Em teoria a web sem?¢ntica ?© fant?°stica, ou seja, redescrever toda a […]