Integaration of Indian Wiktionaries (IIW) – Help needed

Indian dictionary DATA with creative commons licence is available on web. A programme needed to extract the data. If it is available, more contributors will clean the data and upload the modified data in the respective wiktionary project. Let me explain in Tamil language.

பின்வரும் இணைப்பில் பல இந்திய அகரமுதலிகள் பொதுப் பயன்பாட்டு உரிமத்தோடு(CC) உள்ளன.
http://dsal.uchicago.edu/dictionaries/
அவற்றில் ஒன்று வங்கமொழிக்கான அகரமுதலி (beta version)
dsalsrv02.uchicago.edu/cgi-bin/philologic/contextualize.pl?p.0.dasa.11293
இந்திய மொழிகளின் விக்சனரித்திட்டத்தை வளர்ச்சியுறச் செய்ய, இதனை ஒரு முன்னோடித்திட்டமாக எடுத்துள்ளேன். நான் நேரில் சந்தித்த 10 மொழியினர் ஆதீத ஆர்வம் காட்டினர். இணைய இணைப்பு ஒழுங்காக இல்லாததாலும், நேரமின்மையாலும் அனைவரிடமும் திட்டத்தை விளக்க இயலவில்லை.
எனினும், வங்கமொழியினர் என் அறையில் இருந்ததால், இரவு செயற்பட்டு பல அடித்தளங்களை அமைத்துள்ளோம். இப்பொழுது தரவு இருந்தால், ஒரு மாதத்தில் இத்திட்டம் வளரும். அதனைக் காட்டி இந்திய விக்சனரியினரை ஒன்றுணைக்க பல்வேறு உதவுகளைக் கோரலாம்.மேற்கண்ட வங்கமொழி தரவினை எடுக்க பின்வரும் நிரலாக்கப்பக்கம் உதவலாம்.
http://runnable.com/UryhiPR1U0BKAAMO/how-do-web-scrapping-with-python-baby-steps-for-tutorial-beginner-scraping-scrapy-beautifulsoup-requests-html-and-wikipedia

மேலும், சில கருவிகளை பின்வரும் தொடுப்பில்  காணலாம்.

http://www.notprovided.eu/7-tools-web-scraping-use-data-journalism-creating-insightful-content/

அப்பொழுது கீழ்கண்ட குறிப்புகளை கவனத்தில் கொள்ளவும். மேற்கூறிய வங்கமொழி அகரமுதலியின் ஒரு சொல்லைப் படமாக கீழே கொடுத்துள்ளேன்.


இதில் தடிமனாக இருப்பது தலைப்புச்சொல். மற்றவை அதன் விளக்கம்.
இந்த தலைப்புச்சொல் ஒரு கட்டத்திலும்(COLUMN-A), மற்றவை அடுத்த கட்டத்திலும் வேண்டும்.

மேற்கூறிய வங்கமொழியின் இணையபக்க நிரலாக்கத்தைப் பார்த்தபோது பின்வரும் தேவையைப் புரிந்து கொண்டேன். இதில் வண்ணமிட்டவை html நிரலாக்கம். இவ்வண்ணம் எதைக் குறிக்கிறது என்றால், நாம் பிரித்தெடுக்க வேண்டிய தரவின் முன்னும், பின்னும் இருக்கும்  html நிரலாக்கம் ஆகும்.Column-1 = <span class=”hi”>অওঘ̆র্ষণ</span></span>
Column-2 = </span></span> [প্রাদে◦] বি, সঙ্গীতের স্বরের ঐক্য <eng>
Column-3 = <eng>harmony</eng>.</p>

இதுபற்றி வேறு எண்ண விவரங்கள் குறிப்பிட்டு வலைப்பூ எழுத வேண்டும்?

வங்கமொழியினருக்கு கூகுள் ஆவண தானியக்க பதிவேற்றப் பயிற்சி அளி்த்துள்ளேன். அதன் தொடக்கக் குறிப்பை இங்கு காணலாம்.
https://ta.wiktionary.org/s/4ojr
ஆவலுடன்..
வணக்கம்.

 

Advertisements

மறுமொழியொன்றை இடுங்கள்

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / மாற்று )

Twitter picture

You are commenting using your Twitter account. Log Out / மாற்று )

Facebook photo

You are commenting using your Facebook account. Log Out / மாற்று )

Google+ photo

You are commenting using your Google+ account. Log Out / மாற்று )

Connecting to %s