August 2, 2007

Semantik Web {3.0} ve Temel Bilimler


Peki peki… Bu teknolojilerin dur durak bilmediğini görüyoruz. Şimdi de önümüzde bir web 3.0 konuşmalarıdır gidiyor. Tim Berners-Lee, taa 1999 yıllarında bu terimi şu cümlesiyle ortaya atmış :

I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A ‘Semantic Web’, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The ‘intelligent agents’ people have touted for ages will finally materialize.

Bu güzel hayalin peşinde koşturduğumuz şu günlerde, elimden geldiğince semantik web’in temel bilimler ile ilişkisinden ve bu yeni teknolojinin temel bilimler alanında ne gibi katkılar sağlayabileceğinden bahsedeceğim.

Aslında her şey, BIO 482 kodlu biyoenformatik içerikli dersteki bir sunum ödevi için anlatabileceğim bir makale ararken başladı. İlgi çekici bir makale aramaya ilk olarak -haftalık olarak e-posta kutuma gelen ama zamansızlıktan çok az kontrol edebildiğim - makale alarmlarından başladım. Şansım yağver gitti ve daha ilk e-postaların birinde Briefings in Bioinformatics ile ve hatta bu yayının semantik web temalı şu sayısı ile karşılaştım. Zaten orada burada karşıma çıkan semantik web terimi hakkında bilgi edinmek istiyordum, buna bir de ödevle karışık bilim alanındaki yararları öğrenme hevesi eklenince kendimi merakla makaleleri okurken buldum.

Öncelikle semantik web nedir? Semantik web, internet üzerindeki tüm bilgilerin ve bunların birbirleriyle olan ilişkilerinin yalnızca insanlar değil, bunun yanında otomasyon sistemleri tarafından da kolayca anlaşılabildiği; yararlı bilgiye erişimin oldukça kolay olduğu; amaca yönelik bağlamlarda bu veri ilişkilerinin rahatlıkla kullanılabildiği (tabir-i caizse ütopik) bir ağın takma adıdır. Uzun ve soğuk bir tanım oldu değil mi? O zaman hemen örneklendirelim: Eğer ben yeni bir dizüstü almak istiyorsam, benim bulunduğum yere kargo gönderilebilecek, mağaza stoklarında bulunan, bütçeme uygun, üzerinde Linux yüklü, ortalama bir bilgisayar almak istiyorum demektir. Bu koşulların hepsinin ne anlama geldiği ve bunları kullanarak bilgi arama olanakları günümüzde zaten internette bulunuyor; ama sorun bunların bir bilgisayar tarafından kolayca anlaşılamaması. Sırf bu yüzden, yeni bir dizüstü için internette saatlerce belki günlerce gezmem; çeşitli kaynaklardan çeşitli sorgular yapmam gerekecek. Tamamen bir zaman kaybı. Oysa semantik web benim için tüm bunları kolaylaştıracak ve ben kendisine “yeni bir dizüstü almak istiyorum” dediğimde benim yapacağım şey arkama yaslanıp, ekranımda çıkan uygun sonuçları izlemek olacak.

Internetin gidişatı

Çok güzel değil mi? Peki bu nasıl sağlanabilir? Bir insanın kolaylıkla anlayabildiği içerikler bir makina için nasıl anlamlandırılabilir? Çoğu konuda kararları bulunan W3C’un bu konuda da bazı fikirleri ve uygulamaları bulunuyor. Örneğin kendilerinin sponsorluk ettiği Semantic Web Education & Outreach Interest Group (SWEO). Bu ve bunun gibi öntanımlı biçimlerin, bunların avantajlarının ve dezavantajlarının detaylarına girmeyeceğim ve bazı şeyleri yüzeyden geçmeye dikkat edeceğim.

Semantik şema

Gelin semantik web bağlamında şu cümleyi inceleyelim:

“Ben bugün Linux gördüm”

Bu cümlede ben, bugün, Linux ve görmek kelimelerini özne, zaman, nesne ve eylem olarak bir bakışta ayırt edebiliriz. Eğer bunların ne olduğunu, bir şekilde bilgisayara da anlatma fırsatım olursa, mesela:

<cumle>
  <ozne>Ben</ozne>
  <zaman>bugün</zaman>

<nesne>Linux</nesne>

<eylem>görmek</eylem>

</cumle>

bu bilgi, otomatik sistemler için de bir anda anlamlı hale gelecektir. Eylemlerin ve çeşitli kelimelerin ilişkilerinin incelendiği bir kelime ontolojisi veritabanı ile bu cümle bize sandığımızdan çok şey ifade etmeye başlar. Bugün sunumda da gösterdiğim ve bazı şeylerin kafamda oluşmasında yardımcı olan etkileşimli bir semantik metin işleme örneğine buradan erişebilirsiniz.

Bu kadar önbilgi şimdilik yeterli olacaktır sanırım.

Bilgiye kolay erişim söz konusu olduğunda, bunun temel bilimler ile direkt olarak ilişkili olduğunu hemen söyleyebiliriz. Temel bilimlerin günümüzde durumu ve sorunları da apaçık bir şekilde önümüzde durmaktadır. Akademik hayatında makale okuma zorunluluğuna erişmiş insanlar ne demek istediğimi anlayabilirler. Dünyanın her yerinde neredeyse sayılması imkansız miktarda deney, gözlem ve veri toplama eylemleri yürütülüyor. Bunlardan iyi ve gerçekçi bir sonuç elde edenler de prestijli bir yayın organında makale yayınlamak için çaba veriyor. Başarılı olduklarında ise, bize Google Scholar‘dan erişilebilen bilgi dolu bir makale hediye etmiş oluyorlar. Farkedebileceğiniz gibi en temel sorunlardan bir tanesiyle daha en baştan karşılaşıyoruz. Makaleler insanların okuması içindir. Bu konuda kimsenin emeğini gözardı etmek istemem. PubMed gibi bazı kuruluşlar makalelerin konulara göre ayrılması, atıfların bağlantılanması, etiketleme gibi işlemleri bir takım çalışan insan yardımı ile yürütmekteler. Amma velakin bu uğraşlar Web 2.0 çılgınlığıylabüyüyen etiketleme olgusunu pek de aşamıyor; çünkü hala makaleler, içlerinde bahsi geçen moleküller, bulgular, bunların yakın ve uzak ilişkilerinin aktarıldığı bir kaynağımız yok.

Sanırım birkaç durum incelemesinin zamanı geldi.

Diyelim ki siz A proteini üzerine çalışmalar yürütüyorsunuz ve B proteinin sizin proteininizle etkileşimde bulunduğundan şüpheleniyorsunuz. Önceki deneylerde bununla ilgili bir bilgi olup olmadığını anlamak için A ve B‘yi beraber kullanarak makaleler arasında arama yapmanız lazım. Şanslıysanız bu konuda bir şeyler bulabilirsiniz. Burada gözden kaçıracağınız şey, daha karmaşık ilişkiler olacaktır. Ya makale yığınının içinde bir tanesi A proteinin C ile etkileşimde bulunduğunu, bir diğeri ise C‘nin B ile etkileşimde bulunduğunu yazıyorsa? Bu durumda A -dolaylı da olsa- B ile etkileşime girme şansına sahip. Bu bilgi aslında orada duruyor, ama edinmesi neredeyse imkansız; çünkü aradaki proteinin C değil de D olma, hatta E, hatta F… olma olasılığı da bulunuyor. Bunları tek tek inceleyemeceğinize göre (ya da buna zamanınızın yetmeyeceğini düşünürsek) aslında varolan bir bilgiden, tamamen eksik ilişkilendirmeler yüzünden mahrum kalıyorsunuz. Oysa semantik bir webde A‘nın C ile olan ve C‘nin B ile olan ilişkisi A‘nın B ile olan ilişkisine erişimi kolay kılar ve sizi daha mutlu kılar. Şuan tüm yazılmış makaleler, sırf bu ilişkilerin kurulabilmesi için text-mining (metin madenciliği) teknikleri ile incelenmekte ama takdir edersiniz ki bu konuda oldukça büyük engeller bulunmakta.

Bir başka örnek ise gen içerikleriyle veya dizilimleriyle (sekans) ile ilgili. Bir hastalık üzerine çalışan insanların çoğu veritabanları üzerinde kendi deneylerinde elde ettikleri dizilimleri, bir benzerlik bulma ümidi ile arattırırlar. Gelin görün ki, bu arama sonuçlarının çıktıları hiç de insancıl değildir. Metin bazlı ve arama motorundan motoruna değişen bir biçimlendirme ile sunulan bu sonuçlar yüzünden araştırma yapanlar, gerçeği temsil eden büyük resmi görmekte zorlanırlar. Oysa ideal senaryoda, arattığınız bir dizilimin temsil ettiği olası geni, başka canlılardaki karşılığını, sebep olduğu hastalıkları, bununla ilgili diğer bulguları vs. bir arada görmek, belki de bunları bir bilgisayara incelettirmek istersiniz. Ne yazık ki şuan için işler bu kadar güzel yürümüyor. Yine elimizden olan bilgilerin kullanılabilirliğinin düşüklüğü yüzünden, aslında kolaylıkla yapılabilecek şeylerden mahrum kalıyoruz. Semantik web’in bir uygulaması olan BioDASH projesi ve semantik tarayıcılar tam olarak bu işlevi yerine getiriyorlar, yani sizi ilgilendiren konudaki bilgiyi hem sizin, hem bilgisayarınızın anlayabileceği biçimde karşınıza getiriyorlar.

BioDASH

Son örneğimi ise grafiklerle ilgili vereceğim. İnternet üzerinde deney sonuçlarının veya veri topluluklarının sunulması konusunda da büyük sıkıntılarımız var. İlk olarak bunların sunumu tamamen kendilerini yayınlayan kişilerin seçimlerine bırakılmış durumda: html tabloları, hesap tabloları, düz metin … Takdir edersiniz ki bu biçimlerin çoğu birbiriyle uyumsuz ve anlamlandırılmaları çok güç. O yüzden veri setlerine ilişkin grafikler veri setini oluşturan kişinin tekelinde yürümekte. Oysa yeniden üretilebilirliğin ve farklı biçimlerde sunulabilirliğin önünün açılması gerekiyor. Semantik web, bu verilerin sunulmasında da getirdiği çözümler ile biz araştırmacı/izleyici kullanıcıya istemci tarafında çeşitlendirilebilir ve kişiselleştirilebilir grafiklerin olabilitesini arttırıyor. Böylece bizler bir grafiği kendi ilgimize göre veya kendi belirlediğimiz veri setlerine göre istediğimiz gibi çizdirip, kullanabilir hale geliyoruz. Bunun en güzel uygulaması yine bir önceki örnekte bahsettiğim BioDASH projesi.

Bu sorunlar yalnızca bir dalda değil, aslında bütün bilim dallarında bulunan sorunlar. Umarız ki semantik web, bu sorunların çözümlerine öngörüldüğü gibi katkıda bulunur ve bireylerin işlerini kolaylaştırır.

Semantik web ve yapısının kendisi ile çeliştiği konusunda birkaç yazı başlığı görmüşlüğüm var, fakat hala bu teknolojiye yeni olduğum için antitezlerinden önce tezlerini incelemek ile meşgulüm. Umarım, zaman buldukça bu konuda daha fazla araştırma yapıp, bir yazı dizisi oluşturabilirim.

Semantik Web

Semantic Web

2 Responses to “Semantik Web {3.0} ve Temel Bilimler”

  1. Emin Senay Says:

    Selamlar,
    Cok super bir yazi olmus, takdir ettim bir kere daha. Boyle bolca yazilar yaz da okuyalim devamli.

    Not: Benim site bir sureligine gocmus durumda. Sunucularin network kartinda problem cikmis sanirim. Sitemi okuyan nadir insanlardan biri oldugun icin dogrudan bunu da yazayim dedim.

  2. plodos Says:

    başarılı bir yazı, tebrikler….

Leave a Reply

Proudly powered by wordpress - Theme by neuro
Edited by me