Monday, April 21, 2025

एक उन्नत कोडिंग कार्यान्वयन: MARTERING BROWSER ‘Playright, Browser_use Agent & Browsercontext, Langchain, और GEMINI के साथ Google Colab में संचालित AI – Gadgets Solutions

-

इस ट्यूटोरियल में, हम सीखेंगे कि ब्राउज़र की शक्ति का दोहन करना कैसे पूरी तरह से Google Colab के भीतर संचालित AI एजेंट का उपयोग करें। हम ब्राउज़र_स लाइब्रेरी के उच्च-स्तरीय एजेंट और ब्राउज़रेसटेक्स्ट एब्सट्रैक्ट्स के साथ-साथ प्रोग्राम को नेविगेट करने, डेटा निकालने और कॉम्प्लेक्स वर्कफ़्लो को स्वचालित करने के लिए, प्लेराइट के हेडलेस क्रोमियम इंजन का उपयोग करेंगे। हम Google के मिथुन मॉडल को Langchain_google_Genai कनेक्टर के माध्यम से प्राकृतिक and language तर्क और निर्णय प्रदान करने के लिए लपेटेंगे, जो कि सुरक्षित API – की हैंडलिंग के लिए Pydantic के सेक्रेट्स द्वारा सुरक्षित किया गया है। GetPass के प्रबंध क्रेडेंशियल्स के साथ, Asyncio orchestrating non block blocking Execution, और वैकल्पिक .ENV समर्थन पायथन-डोटेनव के माध्यम से, यह सेटअप आपको अपने नोटबुक वातावरण को छोड़ने के बिना एक अंत, end, इंटरैक्टिव एजेंट प्लेटफॉर्म प्रदान करेगा।

!apt-get update -qq
!apt-get install -y -qq chromium-browser chromium-chromedriver fonts-liberation
!pip install -qq playwright python-dotenv langchain-google-generative-ai browser-use
!playwright install

हम पहले सिस्टम पैकेज सूचियों को ताज़ा करते हैं और ब्राउज़र ऑटोमेशन को सक्षम करने के लिए हेडलेस क्रोमियम, इसके वेबड्राइवर और लिबरेशन फोंट को स्थापित करते हैं। इसके बाद पायथन-डोटेनव, लैंगचेन Googlegenerativeai कनेक्टर, और ब्राउज़र-यूज के साथ नाटककार स्थापित किया गया है, और अंत में नाटककार इंस्टॉल के माध्यम से आवश्यक ब्राउज़र बायनेरिज़ डाउनलोड करता है।

import os
import asyncio
from getpass import getpass
from pydantic import SecretStr
from langchain_google_genai import ChatGoogleGenerativeAI
from browser_use import Agent, Browser, BrowserContextConfig, BrowserConfig
from browser_use.browser.browser import BrowserContext

हम कोर पायथन यूटिलिटीज, ओएस फॉर एनवायरनमेंट मैनेजमेंट और एसिंक्रोनस निष्पादन के लिए Asyncio में लाते हैं, साथ ही सुरक्षित API and key इनपुट और स्टोरेज के लिए GetPass और Pydantic’s Secretstr। इसके बाद लैंगचेन के मिथुन रैपर (Chatgooglegenerativeai) और Browser_use टूलकिट (एजेंट, ब्राउज़र, BrowSercontextConfig, BrowserConfig, और Browsercontext) को हेडलेस ब्राउज़र एजेंट को कॉन्फ़िगर करने के लिए लोड करता है।

os.environ("ANONYMIZED_TELEMETRY") = "false"

हम “गलत” के लिए अनाम_टेमेट्री पर्यावरण चर को सेट करके अनाम उपयोग रिपोर्टिंग को अक्षम कर देते हैं, यह सुनिश्चित करते हुए कि न तो नाटककार और न ही ब्राउज़र_स लाइब्रेरी किसी भी टेलीमेट्री डेटा को अपने रखरखावकर्ताओं को वापस भेजती है।

async def setup_browser(headless: bool = True):
    browser = Browser(config=BrowserConfig(headless=headless))
    context = BrowserContext(
        browser=browser,
        config=BrowserContextConfig(
            wait_for_network_idle_page_load_time=5.0,
            highlight_elements=True,
            save_recording_path="./recordings",
        )
    )
    return browser, context

यह एसिंक्रोनस हेल्पर एक हेडलेस (या हेडेड) ब्राउज़र इंस्टेंस को इनिशियलाइज़ करता है और इसे नेटवर्क के लिए प्रतीक्षा करने के लिए कॉन्फ़िगर किए गए ब्राउज़रेक्स्टेक्स्ट में लपेटता है। यह तब ब्राउज़र और इसके तैयार of दोनों को आपके एजेंट के कार्यों के लिए संदर्भ के संदर्भ में देता है।

async def agent_loop(llm, browser_context, query, initial_url=None):
    initial_actions = ({"open_tab": {"url": initial_url}}) if initial_url else None
    agent = Agent(
        task=query,
        llm=llm,
        browser_context=browser_context,
        use_vision=True,
        generate_gif=False,  
        initial_actions=initial_actions,
    )
    result = await agent.run()
    return result.final_result() if result else None

यह async सहायक एक “थिंक and और is ब्रोसे” चक्र को घेरता है: यह आपके LLM, ब्राउज़र संदर्भ और वैकल्पिक प्रारंभिक URL टैब के साथ कॉन्फ़िगर किए गए एक एजेंट को फैलाता है, जब उपलब्ध होने पर विजन का लाभ उठाता है, और GIF रिकॉर्डिंग को अक्षम करता है। एक बार जब आप Agent_loop को कॉल करते हैं, तो यह एजेंट को अपने चरणों के माध्यम से चलाता है और एजेंट के अंतिम परिणाम को लौटाता है (या यदि कुछ भी उत्पादन नहीं होता है तो कोई नहीं)।

async def main():
    raw_key = getpass("Enter your GEMINI_API_KEY: ")


    os.environ("GEMINI_API_KEY") = raw_key


    api_key = SecretStr(raw_key)
    model_name = "gemini-2.5-flash-preview-04-17"


    llm = ChatGoogleGenerativeAI(model=model_name, api_key=api_key)


    browser, context = await setup_browser(headless=True)


    try:
        while True:
            query = input("\nEnter prompt (or leave blank to exit): ").strip()
            if not query:
                break
            url = input("Optional URL to open first (or blank to skip): ").strip() or None


            print("\n🤖 Running agent…")
            answer = await agent_loop(llm, context, query, initial_url=url)
            print("\n📊 Search Results\n" + "-"*40)
            print(answer or "No results found")
            print("-"*40)
    finally:
        print("Closing browser…")
        await browser.close()


await main()

अंत में, यह मुख्य कोरूटीन पूरे COLAB सत्र को चलाता है: यह सुरक्षित रूप से आपके मिथुन एपीआई कुंजी (गेटपास और सेक्रेट्स का उपयोग करके) के लिए सुरक्षित रूप से संकेत देता है, चैटगोगेगनेरैटिवीवई एलएलएम और एक हेडलेस प्लेराइट ब्राउज़र के संदर्भ में सेट करता है, फिर यह एक इंटरेक्टिव लूप में प्रवेश करता है, जहां यह आपके प्राकृतिक – लैंगुएज प्रॉम्प्ट्स को पढ़ता है, परिणामों को प्रिंट करता है, और अंत में यह सुनिश्चित करता है कि ब्राउज़र साफ -सुथरा बंद हो जाए।

निष्कर्ष में, इस गाइड का पालन करके, अब आपके पास एक प्रतिलिपि प्रस्तुत करने योग्य COLAB टेम्पलेट है जो ब्राउज़र ऑटोमेशन, एलएलएम रीजनिंग को एकीकृत करता है, और एक एकल सामंजस्यपूर्ण पाइपलाइन में क्रेडेंशियल मैनेजमेंट को सुरक्षित करता है। चाहे आप वास्तविक are समय बाजार के डेटा को स्क्रैप कर रहे हों, समाचार लेखों को सारांशित कर रहे हों, या रिपोर्टिंग कार्यों को स्वचालित कर रहे हों, नाटककार, ब्राउज़र_स, और लैंगचेन के मिथुन इंटरफ़ेस का संयोजन आपके अगले एआई – पावरड प्रोजेक्ट के लिए एक लचीली नींव प्रदान करता है। एजेंट की क्षमताओं का विस्तार करने के लिए स्वतंत्र महसूस करें, फिर से सक्षम GIF रिकॉर्डिंग, कस्टम नेविगेशन चरणों को जोड़ें, या अन्य एलएलएम में स्वैप करें, जो आपके शोध या उत्पादन की जरूरतों के लिए वर्कफ़्लो को ठीक से दर्जी करने के लिए बैकेंड करता है।


यह रहा कोलैब नोटबुक। इसके अलावा, हमें फॉलो करना न भूलें ट्विटर और हमारे साथ जुड़ें तार -चैनल और लिंक्डइन जीआरओयूपी। हमारे साथ जुड़ने के लिए मत भूलना 90K+ एमएल सबरेडिट

🔥


एक उन्नत कोडिंग कार्यान्वयन: MARTERING BROWSER ‘Playright, Browser_use Agent & Browsercontext, Langchain, और GEMINI के साथ Google Colab में संचालित AI
 – Gadgets Solutions

Asif Razzaq MarkTechPost Media Inc के सीईओ हैं .. एक दूरदर्शी उद्यमी और इंजीनियर के रूप में, ASIF सामाजिक अच्छे के लिए कृत्रिम बुद्धिमत्ता की क्षमता का उपयोग करने के लिए प्रतिबद्ध है। उनका सबसे हालिया प्रयास एक आर्टिफिशियल इंटेलिजेंस मीडिया प्लेटफॉर्म, मार्कटेकपोस्ट का शुभारंभ है, जो मशीन लर्निंग और डीप लर्निंग न्यूज के अपने गहन कवरेज के लिए खड़ा है, जो तकनीकी रूप से ध्वनि और आसानी से एक व्यापक दर्शकों द्वारा समझ में आता है। मंच 2 मिलियन से अधिक मासिक विचारों का दावा करता है, दर्शकों के बीच अपनी लोकप्रियता को दर्शाता है।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

FOLLOW US

150,000FansLike
35,000FollowersFollow
100,000SubscribersSubscribe

Related Stories

Translate »