একটি Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন স্থাপন করুন

এই নির্দেশিকাটি Google Cloud Search Norconex HTTP Collector indexer plugin অ্যাডমিনিস্ট্রেটরদের জন্য, অর্থাৎ, যারা indexer plugin ডাউনলোড, স্থাপন, কনফিগার এবং রক্ষণাবেক্ষণের জন্য দায়ী তাদের জন্য। নির্দেশিকাটি ধরে নেয় যে আপনি Linux অপারেটিং সিস্টেম, ওয়েব ক্রলিংয়ের মৌলিক বিষয়গুলি, XML এবং Norconex HTTP Collector এর সাথে পরিচিত।

এই নির্দেশিকাটিতে ইনডেক্সার প্লাগইন স্থাপনের সাথে সম্পর্কিত গুরুত্বপূর্ণ কাজগুলি সম্পাদনের জন্য নির্দেশাবলী অন্তর্ভুক্ত রয়েছে:

  • ইনডেক্সার প্লাগইন সফটওয়্যারটি ডাউনলোড করুন।
  • গুগল ক্লাউড সার্চ কনফিগার করুন
  • নরকোনেক্স HTTP কালেক্টর এবং ওয়েব ক্রলিং কনফিগার করুন
  • ওয়েব ক্রল শুরু করুন এবং কন্টেন্ট আপলোড করুন

Norconex HTTP Collector indexer প্লাগইনে Google Cloud Search ম্যাপ করার জন্য Google Workspace অ্যাডমিনিস্ট্রেটরকে যে কাজগুলি করতে হবে সে সম্পর্কে তথ্য এই নির্দেশিকায় নেই। সেই কাজগুলি সম্পর্কে তথ্যের জন্য, তৃতীয় পক্ষের ডেটা উৎস পরিচালনা করুন দেখুন।

ক্লাউড সার্চ নরকোনেক্স HTTP কালেক্টর ইনডেক্সার প্লাগইনের সংক্ষিপ্ত বিবরণ

ডিফল্টরূপে, ক্লাউড সার্চ গুগল ডক্স এবং জিমেইলের মতো গুগল ওয়ার্কস্পেস পণ্য থেকে কন্টেন্ট আবিষ্কার, ইন্ডেক্স এবং পরিবেশন করতে পারে। আপনি একটি ওপেন সোর্স এন্টারপ্রাইজ ওয়েব ক্রলার, নরকোনেক্স HTTP কালেক্টরের জন্য ইনডেক্সার প্লাগইন স্থাপন করে আপনার ব্যবহারকারীদের কাছে ওয়েব কন্টেন্ট পরিবেশন অন্তর্ভুক্ত করার জন্য গুগল ক্লাউড সার্চের পরিধি বাড়াতে পারেন।

কনফিগারেশন বৈশিষ্ট্য ফাইল

ইনডেক্সার প্লাগইনকে ওয়েব ক্রল করতে এবং ইনডেক্সিং API-তে কন্টেন্ট আপলোড করতে সক্ষম করার জন্য, আপনি, ইনডেক্সার প্লাগইন প্রশাসক হিসাবে, ডিপ্লয়মেন্ট ধাপে এই নথিতে বর্ণিত কনফিগারেশন ধাপগুলির সময় নির্দিষ্ট তথ্য প্রদান করবেন।

ইনডেক্সার প্লাগইন ব্যবহার করতে, আপনাকে দুটি কনফিগারেশন ফাইলে বৈশিষ্ট্য সেট করতে হবে:

  • {gcs-crawl-config.xml} -- নরকোনেক্স HTTP কালেক্টরের জন্য সেটিংস রয়েছে।
  • sdk-configuration.properties -- গুগল ক্লাউড সার্চের জন্য সেটিংস রয়েছে।

প্রতিটি ফাইলের বৈশিষ্ট্যগুলি Google Cloud Search indexer plugin এবং Norconex HTTP Collector কে একে অপরের সাথে যোগাযোগ করতে সক্ষম করে।

ওয়েব ক্রল এবং কন্টেন্ট আপলোড

কনফিগারেশন ফাইলগুলি পূরণ করার পরে, ওয়েব ক্রল শুরু করার জন্য আপনার কাছে প্রয়োজনীয় সেটিংস থাকবে। Norconex HTTP Collector ওয়েব ক্রল করে, এর কনফিগারেশনের সাথে সম্পর্কিত ডকুমেন্ট কন্টেন্ট আবিষ্কার করে এবং ডকুমেন্ট কন্টেন্টের মূল বাইনারি (বা টেক্সট) সংস্করণগুলি ক্লাউড সার্চ ইনডেক্সিং API-তে আপলোড করে যেখানে এটি ইনডেক্স করা হয় এবং শেষ পর্যন্ত আপনার ব্যবহারকারীদের কাছে পরিবেশিত হয়।

সমর্থিত অপারেটিং সিস্টেম

গুগল ক্লাউড সার্চ নরকোনেক্স HTTP কালেক্টর ইনডেক্সার প্লাগইনটি লিনাক্সে ইনস্টল করা আবশ্যক।

সমর্থিত নরকোনেক্স HTTP কালেক্টর সংস্করণ

গুগল ক্লাউড সার্চ নরকোনেক্স HTTP কালেক্টর ইনডেক্সার প্লাগইন 2.8.0 সংস্করণ সমর্থন করে।

ACL সাপোর্ট

ইনডেক্সার প্লাগইন অ্যাক্সেস কন্ট্রোল লিস্ট (ACL) ব্যবহার করে গুগল ওয়ার্কস্পেস ডোমেনে ডকুমেন্টগুলিতে অ্যাক্সেস নিয়ন্ত্রণ করতে সহায়তা করে।

যদি Google Cloud Search প্লাগইন কনফিগারেশনে ডিফল্ট ACL গুলি সক্রিয় থাকে ( defaultAcl.mode other than none এ সেট করা থাকে এবং defaultAcl.* দিয়ে কনফিগার করা থাকে), তাহলে ইনডেক্সার প্লাগইন প্রথমে একটি ডিফল্ট ACL তৈরি এবং প্রয়োগ করার চেষ্টা করে।

যদি ডিফল্ট ACL গুলি সক্রিয় না থাকে, তাহলে প্লাগইনটি সম্পূর্ণ Google Workspace ডোমেনকে পড়ার অনুমতি দেওয়ার ক্ষেত্রে ফিরে আসে।

ACL কনফিগারেশন প্যারামিটারের বিস্তারিত বিবরণের জন্য, Google-সরবরাহকৃত সংযোগকারী প্যারামিটার দেখুন।

পূর্বশর্ত

ইনডেক্সার প্লাগইন স্থাপন করার আগে, নিশ্চিত করুন যে আপনার কাছে নিম্নলিখিত প্রয়োজনীয় উপাদানগুলি রয়েছে:

  • জাভা JRE 1.8 এমন একটি কম্পিউটারে ইনস্টল করা হয়েছে যা ইনডেক্সার প্লাগইন চালায়
  • ক্লাউড সার্চ এবং নরকোনেক্স HTTP কালেক্টরের মধ্যে সম্পর্ক স্থাপনের জন্য প্রয়োজনীয় Google Workspace তথ্য:

    সাধারণত, ডোমেনের Google Workspace প্রশাসক আপনার জন্য এই শংসাপত্রগুলি সরবরাহ করতে পারেন।

স্থাপনের ধাপ

ইনডেক্সার প্লাগইন স্থাপন করতে, এই পদক্ষেপগুলি অনুসরণ করুন:

  1. নরকোনেক্স HTTP কালেক্টর এবং ইনডেক্সার প্লাগইন সফটওয়্যার ইনস্টল করুন
  2. গুগল ক্লাউড সার্চ কনফিগার করুন
  3. নরকোনেক্স HTTP কালেক্টর কনফিগার করুন
  4. ওয়েব ক্রল কনফিগার করুন
  5. একটি ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন

ধাপ ১: নরকোনেক্স HTTP কালেক্টর এবং ইনডেক্সার প্লাগইন সফটওয়্যার ইনস্টল করুন

  1. এই পৃষ্ঠা থেকে নরকোনেক্স কমিটার সফটওয়্যারটি ডাউনলোড করুন।
  2. ডাউনলোড করা সফটওয়্যারটি ~/norconex/ ফোল্ডারে আনজিপ করুন।
  3. GitHub থেকে commiter প্লাগইনটি ক্লোন করুন। git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git এবং তারপর cd norconex-committer-plugin
  4. কমিটার প্লাগইনের পছন্দসই সংস্করণটি দেখুন এবং জিপ ফাইলটি তৈরি করুন: git checkout tags/v1-0.0.3 এবং mvn package (সংযোগকারী তৈরি করার সময় পরীক্ষাগুলি এড়িয়ে যেতে, mvn package -DskipTests ব্যবহার করুন।)
  5. cd target
  6. বিল্ট প্লাগইন জার ফাইলটি নরকোনেক্স লিব ডিরেক্টরিতে কপি করুন। cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. আপনার তৈরি করা জিপ ফাইলটি বের করুন এবং তারপর ফাইলটি আনজিপ করুন: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. প্লাগইনের .jar এবং সমস্ত প্রয়োজনীয় লাইব্রেরি http সংগ্রাহকের ডিরেক্টরিতে কপি করার জন্য ইনস্টল স্ক্রিপ্টটি কার্যকর করুন:
    1. উপরে আনজিপ করা এক্সট্র্যাক্ট করা কমিটার প্লাগইনটিতে পরিবর্তন করুন: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh এক্সিকিউট করুন এবং অনুরোধ করা হলে টার্গেট ডিরেক্টরি হিসেবে norconex/norconex-collector-http-{version}/lib এর সম্পূর্ণ পাথ প্রদান করুন।
    3. যদি ডুপ্লিকেট জার ফাইল পাওয়া যায়, তাহলে বিকল্প 1 নির্বাচন করুন (টার্গেট জার নাম পরিবর্তন করে টার্গেট জার এর চেয়ে বড় বা একই সংস্করণ থাকলেই সোর্স জার কপি করুন)।

ধাপ ২: গুগল ক্লাউড সার্চ কনফিগার করুন

ইনডেক্সার প্লাগইনটি নরকোনেক্স HTTP কালেক্টরের সাথে সংযোগ স্থাপন করতে এবং প্রাসঙ্গিক বিষয়বস্তু সূচী করতে, আপনাকে নরকোনেক্স ডিরেক্টরিতে ক্লাউড সার্চ কনফিগারেশন ফাইল তৈরি করতে হবে যেখানে নরকোনেক্স HTTP কালেক্টর ইনস্টল করা আছে। গুগল আপনাকে ক্লাউড সার্চ কনফিগারেশন ফাইলটির নাম sdk-configuration.properties রাখার পরামর্শ দেয়।

এই কনফিগারেশন ফাইলে অবশ্যই এমন কী/মান জোড়া থাকতে হবে যা একটি প্যারামিটার সংজ্ঞায়িত করে। কনফিগারেশন ফাইলে কমপক্ষে নিম্নলিখিত প্যারামিটারগুলি নির্দিষ্ট করতে হবে, যা ক্লাউড সার্চ ডেটা সোর্স অ্যাক্সেস করার জন্য প্রয়োজনীয়।

বিন্যাস প্যারামিটার
ডেটা সোর্স আইডি api.sourceId = 1234567890abcdef
প্রয়োজন। Google Workspace অ্যাডমিনিস্ট্রেটর দ্বারা সেট আপ করা ক্লাউড সার্চ সোর্স আইডি।
পরিষেবা অ্যাকাউন্ট api.serviceAccountPrivateKeyFile = ./PrivateKey.json
প্রয়োজন। ইনডেক্সার প্লাগইন অ্যাক্সেসিবিলিটির জন্য Google Workspace অ্যাডমিনিস্ট্রেটর দ্বারা তৈরি ক্লাউড সার্চ পরিষেবা অ্যাকাউন্ট কী ফাইল।

নিম্নলিখিত উদাহরণে একটি sdk-configuration.properties ফাইল দেখানো হয়েছে।

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

কনফিগারেশন ফাইলে Google-এর সরবরাহকৃত কনফিগারেশন প্যারামিটারও থাকতে পারে। এই প্যারামিটারগুলি কীভাবে এই প্লাগইনটি Google Cloud Search API-তে ডেটা পুশ করে তা প্রভাবিত করতে পারে। উদাহরণস্বরূপ, batch.* প্যারামিটারের সেটটি সনাক্ত করে যে সংযোগকারী কীভাবে অনুরোধগুলিকে একত্রিত করে।

যদি আপনি কনফিগারেশন ফাইলে কোনও প্যারামিটার সংজ্ঞায়িত না করেন, তাহলে ডিফল্ট মান, যদি উপলব্ধ থাকে, ব্যবহার করা হয়। প্রতিটি প্যারামিটারের বিস্তারিত বিবরণের জন্য, Google-সরবরাহকৃত সংযোগকারী প্যারামিটার দেখুন।

আপনি ইনডেক্স করা কন্টেন্টের জন্য মেটাডেটা এবং স্ট্রাকচার্ড ডেটা পূরণ করার জন্য ইনডেক্সার প্লাগইনটি কনফিগার করতে পারেন। মেটাডেটা এবং স্ট্রাকচার্ড ডেটা ফিল্ডের জন্য পূরণ করার জন্য মানগুলি ইনডেক্স করা HTML কন্টেন্টের মেটা ট্যাগ থেকে বের করা যেতে পারে অথবা কনফিগারেশন ফাইলে ডিফল্ট মান নির্দিষ্ট করা যেতে পারে।

বিন্যাস প্যারামিটার
শিরোনাম itemMetadata.title.field= movieTitle
itemMetadata.title.defaultValue= Gone with the Wind
ডিফল্টরূপে, প্লাগইনটি ডকুমেন্টের শিরোনাম হিসেবে HTML title ব্যবহার করে। শিরোনাম অনুপস্থিত থাকলে, আপনি হয় মেটাডেটা বৈশিষ্ট্যটি উল্লেখ করতে পারেন যাতে ডকুমেন্টের শিরোনামের সাথে সম্পর্কিত মান থাকে অথবা একটি ডিফল্ট মান সেট করতে পারেন।
টাইমস্ট্যাম্প তৈরি করা হয়েছে itemMetadata.createTime.field= releaseDate
itemMetadata.createTime.defaultValue= 1940-01-17
ডকুমেন্ট তৈরির টাইমস্ট্যাম্পের মান ধারণকারী মেটাডেটা অ্যাট্রিবিউট।
শেষ সংশোধিত সময় itemMetadata.updateTime.field= releaseDate
itemMetadata.updateTime.defaultValue= 1940-01-17
ডকুমেন্টের শেষ পরিবর্তনের টাইমস্ট্যাম্পের মান ধারণকারী মেটাডেটা অ্যাট্রিবিউট।
নথির ভাষা itemMetadata.contentLanguage.field= languageCode
itemMetadata.contentLanguage.defaultValue= en-US
সূচীবদ্ধ করা হচ্ছে এমন নথির বিষয়বস্তুর ভাষা।
স্কিমা অবজেক্টের ধরণ itemMetadata.objectType= movie
ডেটা সোর্স স্কিমা অবজেক্ট ডেফিনিশনে সংজ্ঞায়িত সাইটটি যে অবজেক্ট টাইপ ব্যবহার করে। এই প্রপার্টিটি নির্দিষ্ট না থাকলে কানেক্টর কোনও স্ট্রাকচার্ড ডেটা ইন্ডেক্স করবে না।

দ্রষ্টব্য : এই কনফিগারেশন বৈশিষ্ট্যটি মেটাডেটা অ্যাট্রিবিউটের পরিবর্তে একটি মান নির্দেশ করে এবং .field এবং .defaultValue প্রত্যয়গুলি সমর্থিত নয়।

তারিখ-সময় বিন্যাস

ডেটটাইম ফর্ম্যাটগুলি মেটাডেটা অ্যাট্রিবিউটগুলিতে প্রত্যাশিত ফর্ম্যাটগুলি নির্দিষ্ট করে। যদি কনফিগারেশন ফাইলে এই প্যারামিটারটি না থাকে, তাহলে ডিফল্ট মানগুলি ব্যবহার করা হয়। নিম্নলিখিত টেবিলটি এই প্যারামিটারটি দেখায়।

বিন্যাস

প্যারামিটার

অতিরিক্ত তারিখ-সময়ের ধরণ

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

অতিরিক্ত java.time.format.DateTimeFormatter প্যাটার্নের একটি সেমিকোলন-বিভাজিত তালিকা। মেটাডেটা বা স্কিমার যেকোনো তারিখ বা তারিখ-সময় ক্ষেত্রের জন্য স্ট্রিং মান পার্স করার সময় প্যাটার্নগুলি ব্যবহার করা হয়। ডিফল্ট মানটি একটি খালি তালিকা, তবে RFC 3339 এবং RFC 1123 ফর্ম্যাটগুলি সর্বদা সমর্থিত।

ধাপ ৩: নরকোনেক্স HTTP কালেক্টর কনফিগার করুন

জিপ আর্কাইভ norconex-committer-google-cloud-search-{version}.zip একটি নমুনা কনফিগারেশন ফাইল রয়েছে, minimum-config.xml

গুগল আপনাকে নমুনা ফাইলটি অনুলিপি করে কনফিগারেশন শুরু করার পরামর্শ দিচ্ছে:

  1. নরকোনেক্স HTTP কালেক্টর ডিরেক্টরিতে পরিবর্তন করুন:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. কনফিগারেশন ফাইলটি কপি করুন:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. নতুন তৈরি ফাইলটি (এই উদাহরণে, gcs-crawl-config.xml ) সম্পাদনা করুন এবং নিম্নলিখিত টেবিলে বর্ণিত বিদ্যমান <committer> এবং <tagger> নোডগুলি যোগ করুন বা প্রতিস্থাপন করুন।
বিন্যাস প্যারামিটার
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

প্রয়োজনীয়। প্লাগইনটি সক্রিয় করতে, আপনাকে রুট <httpcollector> নোডের চাইল্ড হিসেবে একটি <committer> নোড যোগ করতে হবে।
<UploadFormat> <uploadFormat>raw</uploadFormat>
ঐচ্ছিক। ইনডেক্সার প্লাগইন যে ফর্ম্যাটে ডকুমেন্ট কন্টেন্টকে Google Cloud Search ইনডেক্সার API-তে পুশ করে। বৈধ মানগুলি হল:
  • raw : ইনডেক্সার প্লাগইনটি মূল, অপরিবর্তিত নথির বিষয়বস্তু পুশ করে।
  • text : ইনডেক্সার প্লাগইন এক্সট্র্যাক্ট করা টেক্সট পুশ করে।

ডিফল্ট মান হল raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> এর মান raw হলে প্রয়োজন। এই ক্ষেত্রে, ইনডেক্সার প্লাগইনের জন্য ডকুমেন্টের বাইনারি কন্টেন্ট ফিল্ড উপলব্ধ থাকা প্রয়োজন।

আপনাকে <importer> / <preParseHandlers> নোডের চাইল্ড এলিমেন্ট হিসেবে BinaryContentTagger <tagger> নোড যোগ করতে হবে।

নিম্নলিখিত উদাহরণে gcs-crawl-config.xml তে প্রয়োজনীয় পরিবর্তন দেখানো হয়েছে।

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ধাপ ৪: ওয়েব ক্রল কনফিগার করুন

ওয়েব ক্রল শুরু করার আগে, আপনাকে ক্রলটি এমনভাবে কনফিগার করতে হবে যাতে এতে কেবল সেই তথ্যই থাকে যা আপনার প্রতিষ্ঠান সার্চ ফলাফলে উপলব্ধ করতে চায়। ওয়েব ক্রলের জন্য সবচেয়ে গুরুত্বপূর্ণ সেটিংস হল <crawler> নোড(গুলি) এর অংশ এবং এতে অন্তর্ভুক্ত থাকতে পারে:

  • শুরুর URL গুলি
  • ক্রল করার সর্বোচ্চ গভীরতা
  • থ্রেডের সংখ্যা

আপনার প্রয়োজন অনুসারে এই কনফিগারেশন মানগুলি পরিবর্তন করুন। ওয়েব ক্রল সেট আপ করার বিষয়ে আরও বিস্তারিত তথ্যের জন্য, সেইসাথে উপলব্ধ কনফিগারেশন প্যারামিটারগুলির একটি সম্পূর্ণ তালিকার জন্য, HTTP সংগ্রাহকের কনফিগারেশন পৃষ্ঠাটি দেখুন।

ধাপ ৫: একটি ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন

ইন্ডেক্সার প্লাগইনটি ইনস্টল এবং সেট আপ করার পরে, আপনি এটি স্থানীয় মোডে নিজে থেকেই চালাতে পারবেন।

নিম্নলিখিত উদাহরণটি ধরে নিয়েছে যে প্রয়োজনীয় উপাদানগুলি একটি লিনাক্স সিস্টেমের স্থানীয় ডিরেক্টরিতে অবস্থিত। নিম্নলিখিত কমান্ডটি চালান:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF মনিটর দিয়ে ক্রলারটি পর্যবেক্ষণ করুন

নরকোনেক্স জেইএফ (জব এক্সিকিউশন ফ্রেমওয়ার্ক) মনিটর হল নরকোনেক্স ওয়েব ক্রলার (এইচটিটিপি কালেক্টর) প্রক্রিয়া এবং কাজের অগ্রগতি পর্যবেক্ষণের জন্য একটি গ্রাফিক্যাল টুল। এই ইউটিলিটি কীভাবে সেট আপ করবেন তার সম্পূর্ণ টিউটোরিয়ালের জন্য, জেইএফ মনিটরের মাধ্যমে আপনার ক্রলারের অগ্রগতি পর্যবেক্ষণ করুন দেখুন।