টীকা: অনুসন্ধানের জন্য সাইট সংজ্ঞায়িত করা

এই পৃষ্ঠাটি বর্ণনা করে কিভাবে একটি XML টীকা ফাইল ব্যবহার করে আপনার সার্চ ইঞ্জিনের কভারেজ সংজ্ঞায়িত করতে হয়।

  1. ওভারভিউ
  2. প্রোগ্রামেবল সার্চ এক্সএমএল ফরম্যাট ব্যবহার করে
  3. সার্চ কভারেজ উন্নত করা
  4. টীকা সীমা

ওভারভিউ

আপনি যদি একটি বড় সার্চ ইঞ্জিন তৈরি করেন তবে সাইটের একটি বড় সংগ্রহ পরিচালনা করা ক্লান্তিকর হতে পারে। পরিবর্তে, আপনি একটি টীকা ফাইলে তালিকাবদ্ধ করে এবং এটি আপলোড করে অনেকগুলি সাইটকে যুক্ত করতে এবং পরিচালনা করতে পারেন৷ এছাড়াও, টীকা ফাইলগুলি আপনাকে অনুসন্ধান ফলাফলের র‌্যাঙ্কিংয়ের উপর অনেক বেশি নিয়ন্ত্রণ দেয়।

একটি টীকা ফাইল কেবল টীকাগুলির একটি তালিকা। প্রতিটি টীকাটির দুটি উপাদান রয়েছে: সাইট এবং এর সাথে সম্পর্কিত লেবেল। লেবেল প্রোগ্রামেবল সার্চ ইঞ্জিনকে বলে যে কিভাবে একটি সাইট পরিচালনা করতে হয়; যে, একটি সাইট অন্তর্ভুক্ত করা উচিত কিনা, বাদ দেওয়া, উন্নীত করা, বা অবনমিত. প্রসঙ্গ ফাইলে , আপনি লেবেল সংজ্ঞায়িত করেন; টীকা ফাইলে, আপনি উপযুক্ত লেবেল দিয়ে সাইট ট্যাগ করেন।

আপনি যখন আপনার টীকা ফাইল সম্পাদনা শুরু করেন, তখন অল্প সংখ্যক টীকা দিয়ে শুরু করুন। মুষ্টিমেয় টীকা দিয়ে আপনার সার্চ ইঞ্জিন পরীক্ষা করা এবং সমস্যা সমাধান করা সহজ। যখন আপনি আপনার প্রত্যাশার ফলাফল পান, ক্রমবর্ধমানভাবে আরো টীকা যোগ করুন।

আপনি কন্ট্রোল প্যানেলে টীকা ফাইল আপলোড করতে পারেন। ফাইলের সীমা সম্পর্কে বিস্তারিত জানার জন্য, টীকা সীমা বিভাগটি দেখুন।

উপরে ফিরে যান

প্রোগ্রামেবল সার্চ এক্সএমএল ফরম্যাট ব্যবহার করে

আপনি যদি প্রোগ্রামেবল সার্চ ইঞ্জিন কনফিগারেশন ফাইলে উপলব্ধ সমস্ত বৈশিষ্ট্যের সুবিধা নিতে চান, তাহলে XML হল পথ।

XML টীকা

নিচে XML টীকাগুলির একটি উদাহরণ। এই টীকা ফাইলটি প্রোগ্রামেবল সার্চ ইঞ্জিনকে www.webmd.com/hw/* এর অধীনে সবকিছু অন্তর্ভুক্ত করতে বলে কিন্তু www.webmd.com/hw/cancer/* এর অধীনে সবকিছু বাদ দিতে বলে।

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

টীকা ফাইলে নিম্নলিখিত অনুক্রমের চারটি উপাদান রয়েছে:

  • Annotations (মূল উপাদান)
    • Annotation
      • Label
      • Comment (ঐচ্ছিক)

উপরে ফিরে যান

বাহ্যিক টীকা তৈরি করা

আপনি আপনার সার্চ ইঞ্জিন কভার করতে চান এমন সাইটগুলি তালিকাভুক্ত করতে, নিম্নলিখিতগুলি করুন:

  1. <Annotations></Annotations> রুট উপাদান দিয়ে ফাইলটি শুরু করুন।
  2. <Annotation></Annotation> ট্যাগ যোগ করে একটি টীকা তৈরি করুন, এবং তারপর সাইটের URL প্যাটার্নের সাথে about সংজ্ঞায়িত করুন।
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. <Label name=" "/> ট্যাগ ব্যবহার করে সার্চ ইঞ্জিনের সাথে সাইটটিকে সংযুক্ত করুন এবং সার্চ ইঞ্জিন দ্বারা সেই সাইটটির সাথে কীভাবে আচরণ করা উচিত তা নির্দিষ্ট করুন৷ আপনি সার্চ ইঞ্জিনের কনটেক্সট ফাইল থেকে আপনার সার্চ ইঞ্জিনের জন্য লেবেল পেতে পারেন। আপনি দুটি লেবেল পাবেন: একটি আপনার প্রোগ্রামেবল সার্চ ইঞ্জিনে সাইট যোগ করার জন্য এবং একটি এটি থেকে সাইটগুলি বাদ দেওয়ার জন্য৷ আপনি যদি কনটেক্সট ফাইলে সার্চ ইঞ্জিন লেবেলের নাম পরিবর্তন না করে থাকেন, তাহলে সাইটগুলি অন্তর্ভুক্ত করার জন্য লেবেলটি _include_ আকারে থাকে এবং সাইটগুলি বাদ দেওয়ার জন্য লেবেলটি _exclude_ আকারে থাকে। ত্রুটিগুলি এড়াতে, এই লেবেলগুলি হাতে টাইপ করার পরিবর্তে কপি এবং পেস্ট করুন৷
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    একটি একক সাইটের সাথে যুক্ত একাধিক লেবেল থাকতে পারে,

    আপনি যদি প্রসঙ্গ ফাইলে লেবেলের নাম পরিবর্তন করে থাকেন, তাহলে আপনার টীকা ফাইলে Label name মান আপডেট করতে ভুলবেন না।

  4. আরো সাইট যোগ করতে, অন্য Annotation উপাদান তৈরি এবং সংজ্ঞায়িত করুন.
  5. XML ফাইলটি সংরক্ষণ করুন।

উপরে ফিরে যান

সার্চ কভারেজ উন্নত করা

প্রোগ্রামেবল সার্চ ইঞ্জিন গুগল ইনডেক্সের উপরে নির্মিত। এর মানে হল যে ওয়েবপেজগুলি Google সূচীতে রয়েছে আপনার সার্চ ইঞ্জিনে উপলব্ধ; বিপরীতভাবে, Google দ্বারা ক্রল করা হয়নি এমন ওয়েবপৃষ্ঠাগুলি আপনার অনুসন্ধান ফলাফলগুলিতে প্রদর্শিত হবে না৷ আপনি যদি আপনার প্রোগ্রামেবল সার্চ ইঞ্জিনে এমন সাইটগুলিকে অন্তর্ভুক্ত করতে চান যেগুলি বর্তমানে Google সূচকে নেই, তাহলে Google অনুসন্ধান কনসোলে একটি সাইটম্যাপ জমা দিন৷

একটি সাইটম্যাপ আপনার সাইটের পৃষ্ঠাগুলির একটি তালিকা, সেইসাথে ওয়েবপৃষ্ঠাগুলির আপডেট ফ্রিকোয়েন্সি এবং একে অপরের সাথে সম্পর্কিত তাদের গুরুত্ব সম্পর্কে তথ্য অন্তর্ভুক্ত করে৷ একটি সাইটম্যাপ জমা দেওয়া Google কে আপনার ওয়েবপৃষ্ঠাগুলি আবিষ্কার করতে এবং ক্রলিং সময়সূচী উন্নত করতে সহায়তা করে৷ সাইটম্যাপ সম্পর্কে আরও জানতে, ওয়েবমাস্টার সহায়তা কেন্দ্র এবং সাইটম্যাপ প্রোটোকলের ব্যবহার দেখুন। আপনি যদি শৌখিন সাইটম্যাপ তৈরি করতে আগ্রহী হন, তাহলে http://www.sitemaps.org/protocol.php দেখুন।

আপনার সাইটে নিম্নলিখিতগুলি থাকলে সাইটম্যাপ জমা দেওয়া বিশেষভাবে সহায়ক:

  • গতিশীল বিষয়বস্তু
  • যেসব ওয়েবপেজ সহজে Googlebot (গুগলের ওয়েব ক্রলার) দ্বারা আবিষ্কৃত হয় না, যেমন সমৃদ্ধ AJAX বা ফ্ল্যাশ বৈশিষ্ট্য সহ পৃষ্ঠা
  • এটির সাথে লিঙ্ক করা কয়েকটি ওয়েবসাইট।

    Googlebot এক পৃষ্ঠা থেকে অন্য পৃষ্ঠায় লিঙ্ক অনুসরণ করে ওয়েব ক্রল করে, তাই আপনার সাইটটি ভালভাবে লিঙ্ক না হলে, ক্রলারের পক্ষে এটি আবিষ্কার করা কঠিন। আপনার ওয়েবসাইট নতুন হলে, সম্ভবত অনেক ওয়েবসাইট আপনার সাইটে নির্দেশ করছে না।

  • বিষয়বস্তু পৃষ্ঠাগুলির একটি বড় সংরক্ষণাগার যেখানে ক্রস-লিঙ্কিংয়ের একটি শক্তিশালী নেটওয়ার্ক নেই৷

Google শুধুমাত্র পৃষ্ঠাগুলিকে সূচী করতে পারে যা এটি অ্যাক্সেস করতে পারে। সুতরাং, আপনি যদি আপনার ওয়েবপৃষ্ঠাগুলিতে robots.txt ফাইল বা রোবট মেটা ট্যাগ ব্যবহার করেন, তবে নিশ্চিত করুন যে সেই পৃষ্ঠাগুলি ক্রলারদের ব্লক করে না।

উন্নত কভারেজ তাৎক্ষণিক নয়, কারণ পৃষ্ঠাগুলি ক্রল এবং সূচীকরণের জন্য কিছু সময় লাগে। কিন্তু একবার আপনার ওয়েবপৃষ্ঠাগুলি সূচীতে থাকলে, সেগুলি Google অনুসন্ধান এবং আপনার প্রোগ্রামযোগ্য অনুসন্ধান ইঞ্জিন উভয়েই উপস্থিত হতে পারে৷

উপরে ফিরে যান

টীকা সীমা

নিম্নলিখিত টেবিলটি প্রোগ্রামেবল সার্চ ইঞ্জিনে আপলোড করা টীকা ফাইলের সীমা তালিকাভুক্ত করে:

দ্রষ্টব্য: ঘনিষ্ঠভাবে সীমা অনুসরণ করুন; আপনি তাদের অতিক্রম করলে, আপনার সার্চ ইঞ্জিন ফলাফল নাও দেখাতে পারে।

দৃষ্টিভঙ্গি সীমা
ফাইলের আকার (প্রসঙ্গ বা টীকা ফাইল) 30KB
সার্চ ইঞ্জিন প্রতি টীকা সর্বোচ্চ সংখ্যা 5,000

টিপ: আপনি যদি দেখেন যে আপনার সার্চ ইঞ্জিন বৃহৎ 5,000-সাইটের সীমা ছাড়িয়ে যাচ্ছে, তাহলে পৃথক URLগুলিকে URL প্যাটার্নে একত্রিত করার কথা বিবেচনা করুন৷

উপরে ফিরে যান