একটি Norconex HTTP কালেক্টর ইনডেক্সার প্লাগইন স্থাপন করুন

এই নির্দেশিকাটি সেইসব প্রশাসকদের জন্য, যারা গুগল ক্লাউড সার্চ নরকনেক্স এইচটিটিপি কালেক্টর ইনডেক্সার প্লাগইনটি ডাউনলোড, স্থাপন এবং রক্ষণাবেক্ষণের দায়িত্বে আছেন। আপনার লিনাক্স, ওয়েব ক্রলিংয়ের মৌলিক বিষয়, এক্সএমএল এবং নরকনেক্স এইচটিটিপি কালেক্টর সম্পর্কে ধারণা থাকা উচিত।

এই নির্দেশিকায় নিম্নলিখিত বিষয়গুলোর জন্য নির্দেশনা অন্তর্ভুক্ত রয়েছে:

  • ইনডেক্সার প্লাগইন সফটওয়্যারটি ডাউনলোড করুন।
  • ক্লাউড সার্চ কনফিগার করুন।
  • Norconex HTTP Collector এবং ওয়েব ক্রলিং কনফিগার করুন।
  • ওয়েব ক্রল শুরু করুন এবং কন্টেন্ট আপলোড করুন।

গুগল ওয়ার্কস্পেস অ্যাডমিনিস্ট্রেটরকে যে কাজগুলো অবশ্যই করতে হবে, সে সম্পর্কিত তথ্য এই নির্দেশিকায় নেই। সেই কাজগুলো সম্পর্কে জানতে, ‘তৃতীয় পক্ষের ডেটা উৎস পরিচালনা’ দেখুন।

Norconex HTTP Collector ইনডেক্সার প্লাগইনের সংক্ষিপ্ত বিবরণ

ডিফল্টরূপে, ক্লাউড সার্চ গুগল ওয়ার্কস্পেস প্রোডাক্ট, যেমন গুগল ডক্স এবং জিমেইল থেকে কন্টেন্ট খুঁজে বের করতে, ইন্ডেক্স করতে এবং পরিবেশন করতে পারে। একটি ওপেন সোর্স এন্টারপ্রাইজ ওয়েব ক্রলার, নরকনেক্স এইচটিটিপি কালেক্টর -এর ইন্ডেক্সার প্লাগইন স্থাপন করে আপনি ওয়েব কন্টেন্ট অন্তর্ভুক্ত করার জন্য এর পরিধি বাড়াতে পারেন।

কনফিগারেশন বৈশিষ্ট্য ফাইল

প্লাগইনটিকে কন্টেন্ট ক্রল ও আপলোড করার অনুমতি দিতে, আপনাকে দুটি কনফিগারেশন ফাইলে নির্দিষ্ট তথ্য প্রদান করতে হবে:

  • {gcs-crawl-config.xml} : নরকনেক্স এইচটিটিপি কালেক্টরের জন্য সেটিংস।
  • sdk-configuration.properties : ক্লাউড সার্চের জন্য সেটিংস।

ওয়েব ক্রল এবং কন্টেন্ট আপলোড

কনফিগারেশন ফাইলগুলো পূরণ করার পর, আপনি ওয়েব ক্রল শুরু করতে পারেন। নরকনেক্স এইচটিটিপি কালেক্টর ওয়েব ক্রল করে এবং মূল বাইনারি বা টেক্সট ডকুমেন্টের বিষয়বস্তু ক্লাউড সার্চ ইন্ডেক্সিং এপিআই-তে আপলোড করে।

সিস্টেমের প্রয়োজনীয়তা

  • অপারেটিং সিস্টেম : শুধুমাত্র লিনাক্স।
  • নরকনেক্স সংস্করণ : সংস্করণ ২.৮.০।
  • সফটওয়্যার : জাভা জেআরই ১.৮।

ACL সমর্থন

ইনডেক্সার প্লাগইনটি গুগল ওয়ার্কস্পেস ডোমেইনের ডকুমেন্টগুলোতে অ্যাক্সেস নিয়ন্ত্রণের জন্য অ্যাক্সেস কন্ট্রোল লিস্ট (ACL) সমর্থন করে।

যদি আপনি প্লাগইন কনফিগারেশনে ডিফল্ট ACL সক্রিয় করেন ( defaultAcl.mode none ' ছাড়া অন্য কিছুতে সেট করে), তাহলে প্লাগইনটি এই ডিফল্টগুলো প্রয়োগ করে। অন্যথায়, প্লাগইনটি সম্পূর্ণ ডোমেইনে পড়ার অনুমতি প্রদান করে। গুগল-প্রদত্ত কানেক্টর প্যারামিটারগুলো দেখুন।

পূর্বশর্ত

ইনডেক্সার প্লাগইনটি ডেপ্লয় করার আগে, এই উপাদানগুলো সংগ্রহ করুন:

স্থাপনের ধাপগুলি

  1. Norconex HTTP Collector এবং প্লাগইন সফটওয়্যার ইনস্টল করুন
  2. ক্লাউড সার্চ কনফিগার করুন
  3. নরকনেক্স HTTP কালেক্টর কনফিগার করুন
  4. ওয়েব ক্রল কনফিগার করুন
  5. ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন

ধাপ ১: Norconex HTTP Collector এবং প্লাগইন সফটওয়্যারটি ইনস্টল করুন।

  1. Norconex ডাউনলোড পেজ থেকে Norconex কমিটার সফটওয়্যারটি ডাউনলোড করুন।
  2. সফটওয়্যারটি ~/norconex/ ফোল্ডারে এক্সট্র্যাক্ট করুন।
  3. কমিটার প্লাগইনটি ক্লোন করুন:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. আপনার নির্বাচিত সংস্করণটি চেক করুন এবং প্লাগইনটি বিল্ড করুন:

    git checkout tags/v1-0.0.3
    mvn package
    

    টেস্টগুলি এড়িয়ে যেতে, mvn package -DskipTests ব্যবহার করুন।

  5. JAR ফাইলটি Norconex lib ডিরেক্টরিতে কপি করুন:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. বিল্ড করা ZIP ফাইলটি এক্সট্র্যাক্ট করুন:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. ইনস্টল স্ক্রিপ্টটি চালান এবং Norconex lib ডিরেক্টরির সম্পূর্ণ পাথ প্রদান করুন:

    sh install.sh
    

    সদৃশ ফাইলের জন্য অনুরোধ করা হলে, বিকল্প 1 নির্বাচন করুন।

ধাপ ২: ক্লাউড সার্চ কনফিগার করুন

Norconex ডিরেক্টরিতে sdk-configuration.properties ফাইলটি তৈরি করুন। ফাইলটিতে অবশ্যই এই প্যারামিটারগুলো উল্লেখ করতে হবে:

সেটিং প্যারামিটার
ডেটা উৎস আইডি api.sourceId = 1234567890abcdef
আবশ্যক। আপনার গুগল ওয়ার্কস্পেস প্রশাসকের কাছ থেকে প্রাপ্ত উৎস আইডি।
পরিষেবা অ্যাকাউন্ট api.serviceAccountPrivateKeyFile = ./PrivateKey.json
প্রয়োজনীয় সার্ভিস অ্যাকাউন্ট কী ফাইল।

উদাহরণ sdk-configuration.properties :

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

প্লাগইনটি কীভাবে ডেটা পাঠাবে তা নিয়ন্ত্রণ করতে আপনি batch.* গুগল-প্রদত্ত কানেক্টর প্যারামিটারগুলো দেখুন।

মেটাডেটা পূরণ করতে, এই ঐচ্ছিক প্যারামিটারগুলো কনফিগার করুন:

সেটিং প্যারামিটার
শিরোনাম itemMetadata.title.field= movieTitle
স্কিমা অবজেক্ট টাইপ itemMetadata.objectType= movie

ধাপ ৩: নরকনেক্স এইচটিটিপি কালেক্টর কনফিগার করুন

প্লাগইনটিতে minimum-config.xml একটি নমুনা ফাইল অন্তর্ভুক্ত রয়েছে।

  1. Norconex ডিরেক্টরিতে যান এবং নমুনাটি কপি করুন:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. <committer> এবং <tagger> নোড যোগ বা প্রতিস্থাপন করতে gcs-crawl-config.xml সম্পাদনা করুন:

সেটিং প্যারামিটার
<committer> নোড <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
আবশ্যক। এটি <httpcollector> নোডের অধীনে যোগ করুন।
<uploadFormat> <uploadFormat>raw</uploadFormat>
ঐচ্ছিক। raw বা text )। ডিফল্ট হলো raw )।

উদাহরণ gcs-crawl-config.xml :

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ধাপ ৪: ওয়েব ক্রল কনফিগার করুন

আপনার প্রয়োজন অনুযায়ী <crawler> নোডগুলি কনফিগার করুন, যার মধ্যে অন্তর্ভুক্ত রয়েছে:

  • শুরু ইউআরএল
  • সর্বোচ্চ ক্রল গভীরতা
  • থ্রেডের সংখ্যা

নরকনেক্স কনফিগারেশন পৃষ্ঠাটি দেখুন।

ধাপ ৫: ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন

কালেক্টরটি লোকাল মোডে চালান:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF মনিটর দিয়ে ক্রলারটি পর্যবেক্ষণ করুন।

নরকনেক্স জেএফ (জব এক্সিকিউশন ফ্রেমওয়ার্ক) মনিটর অগ্রগতির একটি গ্রাফিক্যাল চিত্র প্রদান করে। জেএফ মনিটর দিয়ে আপনার ক্রলার মনিটর করুন দেখুন।