最新国产精品鲁鲁免费视频,A∨无码一区二区,免费AV无码久久一本通,99精品视频九九精品,99热在线都是精品,国产精品亲子乱子伦XXXX裸,亚洲色无码中文字幕伊人,99re6久久免费观看,无码精品久久久久一区二区,日本高清乱理伦片中文字幕

悟空收錄網(wǎng)

OpenAI新功能揭秘:多模態(tài)時(shí)代的到來


文章編號(hào):413 / 更新時(shí)間:2023-11-30 18:00:56 / 瀏覽:

OpenAI最近在其平臺(tái)上宣布了一系列引人注目的新增和改進(jìn)功能,這些更新旨在進(jìn)一步推動(dòng)人工智能的邊界擴(kuò)展。這些更新不僅包括了性能更強(qiáng)大且成本更低的新型GPT-4Turbo模型,而且還引入了多模態(tài)能力,這將極大地?cái)U(kuò)展開發(fā)者和研究人員的創(chuàng)新空間。以下是這些更新的要點(diǎn):

1.GPT-4Turbo模型:這個(gè)新模型代表了大規(guī)模語言模型的最新進(jìn)展。它不僅性能更強(qiáng)大,而且價(jià)格更親民。這一模型支持高達(dá)128K的上下文窗口,意味著可以處理更長的對(duì)話和文本。GPT-4Turbo的出現(xiàn),顯著提升了開發(fā)者利用大型語言模型潛能的能力,讓模型成為了一個(gè)真正的“全才”。

2.多模態(tài)功能:在多模態(tài)領(lǐng)域的最新進(jìn)展尤為引人注目。OpenAI平臺(tái)上的新功能包括了視覺能力的提升、圖像創(chuàng)造(DALL·E3)以及文本到語音(TTS)技術(shù)。這些多模態(tài)功能的結(jié)合不僅開啟了新的應(yīng)用場景,還為用戶提供了一個(gè)更加豐富和互動(dòng)的體驗(yàn)。

3.助手API(AssistantsAPI):OpenAI新推出的助手API讓開發(fā)者更加便捷地構(gòu)建目標(biāo)明確的AI應(yīng)用。這個(gè)API提供了調(diào)用模型和工具的簡化方式,從而使開發(fā)復(fù)雜的輔助性AI應(yīng)用成為可能,無論是為了業(yè)務(wù)流程自動(dòng)化,還是為了增強(qiáng)用戶體驗(yàn)。

看到這些功能的加入,讓人熱血澎湃,我迫不及待地登陸GPT嘗鮮這些功能。特別是多模態(tài)的功能讓我印象深刻,這里我將實(shí)踐操作以及代碼的分析與大家做一個(gè)分享。

多模態(tài)技術(shù)是一個(gè)日益流行的領(lǐng)域,它結(jié)合了不同類型的數(shù)據(jù)輸入和輸出,如文本、聲音、圖像和視頻,以創(chuàng)造更豐富、更直觀的用戶體驗(yàn)。以下是多模態(tài)技術(shù)的幾個(gè)關(guān)鍵方面:

1.綜合多種感知模式:多模態(tài)技術(shù)整合了視覺(圖像、視頻)、聽覺(語音、音頻)、觸覺等多種感知模式。這種集成使得AI系統(tǒng)能夠更好地理解和解釋復(fù)雜的環(huán)境和情境。

2.增強(qiáng)的用戶交互:通過結(jié)合文本、圖像和聲音,多模態(tài)技術(shù)提供了更自然、更直觀的用戶交互方式。例如,用戶可以通過語音命令詢問問題,同時(shí)接收?qǐng)D像和文本形式的答案。

3.上下文感知能力:多模態(tài)系統(tǒng)能夠分析和理解不同類型數(shù)據(jù)之間的關(guān)系,從而提供更準(zhǔn)確的信息和響應(yīng)。例如,在處理自然語言查詢時(shí),系統(tǒng)能夠考慮相關(guān)的圖像或視頻內(nèi)容,從而提供更為豐富的回答。

4.創(chuàng)新應(yīng)用:多模態(tài)技術(shù)的應(yīng)用范圍廣泛,包括但不限于自動(dòng)化客服、智能助手、內(nèi)容創(chuàng)作、教育、醫(yī)療和零售等領(lǐng)域。它允許創(chuàng)建新型的應(yīng)用程序,這些應(yīng)用程序能夠更好地理解和響應(yīng)用戶的需求。

5.技術(shù)挑戰(zhàn):雖然多模態(tài)技術(shù)提供了巨大的潛力,但它也帶來了諸如數(shù)據(jù)融合、處理不同數(shù)據(jù)類型的復(fù)雜性以及確保準(zhǔn)確性和效率的挑戰(zhàn)。

6.OpenAI的多模態(tài)實(shí)例:在OpenAI的框架下,多模態(tài)功能的一個(gè)顯著例子是DALL·E3,它是一個(gè)先進(jìn)的圖像生成模型,可以根據(jù)文本描述創(chuàng)建詳細(xì)和創(chuàng)造性的圖像。此外,文本到語音(TTS)技術(shù)則將文本轉(zhuǎn)換為自然sounding的語音,進(jìn)一步豐富了人機(jī)交互的可能性。

前面我們對(duì)多模態(tài)進(jìn)行了基本的描述,多模態(tài)是指能夠理解和處理多種類型數(shù)據(jù)(如文本、圖像、聲音等)的技術(shù)。實(shí)現(xiàn)文本-圖片-聲音-視頻之間的轉(zhuǎn)換。轉(zhuǎn)化是表象,實(shí)質(zhì)需要理解。

在人工智能領(lǐng)域,多模態(tài)方法通常結(jié)合了自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)和其他信號(hào)處理技術(shù),以實(shí)現(xiàn)更全面的數(shù)據(jù)理解和處理能力。

為了說明多模態(tài)的工作原理,我們這里舉一個(gè)從文字轉(zhuǎn)圖片的例子,幫助大家理解。我們將整個(gè)過程展示如下:

首先,文本輸入通過一個(gè)文本模型(例如一個(gè)預(yù)訓(xùn)練的語言模型)來提取文本特征。這個(gè)過程涉及將文本轉(zhuǎn)換成一個(gè)高維空間的向量,這個(gè)向量能夠表示文本的語義內(nèi)容。

在某些情況下,確實(shí)會(huì)存在一個(gè)專門的融合模型,它是在訓(xùn)練階段通過學(xué)習(xí)如何結(jié)合不同模態(tài)的數(shù)據(jù)而得到的。這個(gè)融合模型將在推理階段使用。

在其他情況下,融合模型可能是隱含的。例如,在條件生成模型中,文本特征向量直接用作生成圖像的條件,而不需要顯式的融合步驟。

融合模型(或者直接從文本模型得到的特征向量)用于為圖像生成模型設(shè)定條件。這個(gè)條件可以理解為指導(dǎo)生成模型“理解”文本內(nèi)容,并據(jù)此生成匹配的圖像。

最后,圖像生成模型(如DALL·E或其他基于生成對(duì)抗網(wǎng)絡(luò)的模型)接收這個(gè)條件向量,并生成與之相匹配的圖像。這個(gè)過程通常涉及到大量的內(nèi)部計(jì)算,模型會(huì)嘗試生成與條件最匹配的圖像輸出。

整個(gè)流程可以簡化為:文本輸入→文本特征提取→特征融合(如果有)→條件生成→圖像輸出。在這個(gè)過程中,“融合模型”可能是一個(gè)獨(dú)立的模型,也可能是條件生成模型的一部分。關(guān)鍵點(diǎn)是,推理時(shí)的特征融合是基于在訓(xùn)練階段學(xué)到的知識(shí)和參數(shù)進(jìn)行的。

了解了多模型實(shí)現(xiàn)原理之后,我們來登陸ChatGPT體驗(yàn)一下,現(xiàn)在在ChatGPT4中已經(jīng)集成了DALLE3的功能,我們只需要輸入指令就可以生成對(duì)應(yīng)的圖片。如下所示,我們通過文字描述一只可愛的貓咪,ChatGPT就能夠幫我完成圖片的生成。

不止于此,OpenAI還能夠識(shí)別圖片,當(dāng)你提供圖片之后,OpenAI會(huì)根據(jù)圖片描述其中的內(nèi)容,如下圖我們從網(wǎng)絡(luò)上找到一張小貓的圖片,丟給OpenAI讓它識(shí)別一下。

這次我們通過調(diào)用OpenAI的API,來實(shí)現(xiàn)上述功能。畢竟作為程序員不敲敲代碼,只是用工具輸入文字還是不太過癮。

這段代碼使用Python和OpenAI庫來與OpenAI的GPT-4API交互。目的是創(chuàng)建一個(gè)聊天會(huì)話,其中用戶可以向模型發(fā)送圖像地址。代碼通過URL地址,讀取圖像并且對(duì)其進(jìn)行識(shí)別,最終輸出理解的文字。

importosimportopenai#導(dǎo)入所需庫:os用于讀取環(huán)境變量,openai用于與OpenAIAPI交互。openai.api_key=os.getenv('OPENAI_API_KEY')#從環(huán)境變量獲取OpenAI的API密鑰并設(shè)置。這樣可以避免將密鑰硬編碼在代碼中,提高安全性。response=openai.ChatCompletion.create(model="gpt-4-vision-preview",#指定使用的GPT-4模型版本。這里用的'gpt-4-vision-preview'表示一個(gè)特別的版本,可能包含處理圖像的能力。messages=[{"role":"user","content":[{"type":"text","text":"這張圖片表達(dá)了什么意思?"},{"type":"image_url",#用戶消息(messages),包括一段文本和一個(gè)圖像的URL"image_url":"http://www.jituwang.com/uploads/allimg/160327/257860-16032H3362484.jpg"},],}],#響應(yīng)的最大長度(max_tokens)max_tokens=200,)print(response.choices[0])

雖然代碼比較簡單,我們這里還是解釋一下。

導(dǎo)入庫:代碼首先導(dǎo)入os和openai。os庫用于讀取環(huán)境變量中的API密鑰,而openai庫用于執(zhí)行與OpenAIAPI的交互。

實(shí)際上OpenAI這次提供的功能不只是對(duì)圖片的識(shí)別,還可以對(duì)其進(jìn)行擴(kuò)展,將對(duì)圖片識(shí)別的能力推廣到視頻上。如下圖所示,假設(shè)一段1秒鐘的視頻是由24幀圖片組成,如果我們能夠?qū)⒚繌垐D片進(jìn)行識(shí)別,并且將識(shí)別的信息進(jìn)行總結(jié)生成摘要是不是就可以對(duì)視頻進(jìn)行識(shí)別了呢?

這個(gè)想法不錯(cuò),但是需要通過實(shí)踐去驗(yàn)證,我們使用一段代碼加入早已準(zhǔn)備好的視頻,通過OpenCV組件加載視頻,并且對(duì)視頻的內(nèi)容進(jìn)行讀取。將讀取之后的視頻內(nèi)容,分成一幀一幀的圖片,通過對(duì)圖片的識(shí)別達(dá)到對(duì)視頻識(shí)別的目的。

#導(dǎo)入IPython用于顯示功能fromIPython.displayimportdisplay,Image,Audio#導(dǎo)入cv2,我們使用OpenCV庫來讀取視頻文件importcv2#導(dǎo)入base64庫用于數(shù)據(jù)編碼importbase64#導(dǎo)入time庫用于控制顯示時(shí)間importtime#導(dǎo)入openai庫,用于調(diào)用OpenAI的APIimportopenai#導(dǎo)入os庫,用于操作系統(tǒng)級(jí)別的接口,如環(huán)境變量importos#導(dǎo)入requests庫,用于發(fā)起HTTP請(qǐng)求importrequests

當(dāng)然,我會(huì)按照您的要求調(diào)整代碼注釋的位置,使其位于相關(guān)代碼行的上方。

打開一個(gè)視頻文件("the-sea.mp4"),讀取其中的每一幀,并將這些幀轉(zhuǎn)換成JPEG格式后編碼為base64字符串。這種處理方式在需要以文本格式存儲(chǔ)或傳輸圖像數(shù)據(jù)的場景中非常有用,如在網(wǎng)絡(luò)通信中發(fā)送圖像數(shù)據(jù)。

讀取視頻幀:通過while循環(huán)和video.read()方法逐幀讀取視頻。如果讀取成功,將幀編碼為JPEG格式,然后將這些JPEG格式的幀轉(zhuǎn)換為base64編碼,并添加到列表中。

資源管理和輸出:循環(huán)結(jié)束后,使用video.release()釋放視頻文件,隨后打印出讀取的幀數(shù),作為處理的結(jié)果。這提供了對(duì)視頻內(nèi)容處理情況的直觀了解。

遍歷一個(gè)包含base64編碼的圖像幀列表,連續(xù)顯示這些幀,從而實(shí)現(xiàn)視頻播放的效果。

fromIPython.displayimportdisplay,Imageimporttime#導(dǎo)入必要的庫:IPython.display中的display和Image用于顯示圖像,time用于控制播放速度display_handle=display(None,display_id=True)#創(chuàng)建一個(gè)顯示句柄,用于在之后更新顯示的圖像。'display_id=True'允許之后通過該句柄更新顯示的內(nèi)容forimginbase64Frames:#遍歷包含base64編碼圖像幀的列表display_handle.update(Image(data=base64.b64decode(img.encode("utf-8"))))#使用display句柄更新顯示的圖像。首先將base64編碼的字符串解碼回二進(jìn)制數(shù)據(jù),然后創(chuàng)建一個(gè)Image對(duì)象并顯示time.sleep(0.025)#在每幀之間暫停0.025秒,以便模擬視頻播放的效果

初始化顯示句柄:首先創(chuàng)建一個(gè)display_handle,它是一個(gè)可以更新的顯示對(duì)象。這樣做可以在之后循環(huán)中更新顯示的圖像,而不是創(chuàng)建新的圖像顯示。

遍歷和顯示圖像幀:使用for循環(huán)遍歷base64Frames列表中的每一個(gè)base64編碼的圖像幀。在循環(huán)內(nèi)部,使用display_handle.update()方法來更新當(dāng)前顯示的圖像。這里涉及將base64編碼的字符串解碼為二進(jìn)制數(shù)據(jù),并使用Image對(duì)象將其轉(zhuǎn)換為可顯示的圖像。

控制播放速度:在每次更新圖像后,使用time.sleep(0.025)來暫停一段時(shí)間(0.025秒),這樣可以在圖像幀之間創(chuàng)建短暫的延遲,使得連續(xù)播放的視頻效果更加平滑。

查看視頻效果如下,我們截取了視頻中的一張圖片,可以看出是一段描述海上日落的視頻。

使用OpenAI的API來描述一個(gè)視頻幀的內(nèi)容。首先設(shè)置請(qǐng)求的參數(shù),包括模型、API密鑰、請(qǐng)求的提示信息,然后調(diào)用API并打印返回的內(nèi)容。

importosimportopenai#導(dǎo)入所需的庫:os用于訪問環(huán)境變量,openai用于與OpenAI的API進(jìn)行交互PROMPT_MESSAGES=[{"role":"user",#標(biāo)記消息的發(fā)送者角色為用戶"content":["這是我想上傳的視頻幀。能否幫我描述這張視頻幀的內(nèi)容。",{"image":base64Frames[0],"resize":768},#選擇列表中的第一幀圖像,縮放尺寸為768像素],},]#設(shè)置提示信息,以指導(dǎo)模型進(jìn)行視頻幀的內(nèi)容描述params={"model":"gpt-4-vision-preview",#指定使用的模型版本"messages":PROMPT_MESSAGES,#使用前面設(shè)置的提示信息"api_key":os.environ["OPENAI_API_KEY"],#從環(huán)境變量中獲取API密鑰"headers":{"Openai-Version":"2020-11-07"},#設(shè)置API版本頭信息"max_tokens":300,#設(shè)定請(qǐng)求的最大令牌數(shù)}#設(shè)置API調(diào)用的參數(shù)result=openai.ChatCompletion.create(params)#使用提供的參數(shù)發(fā)起API調(diào)用print(result.choices[0].message.content)#打印API返回的內(nèi)容,即模型對(duì)視頻幀內(nèi)容的描述

設(shè)置提示信息:PROMPT_MESSAGES包含了API請(qǐng)求的核心信息,其中包括用戶角色標(biāo)記和要處理的內(nèi)容。這里的內(nèi)容是請(qǐng)求模型描述視頻幀的內(nèi)容,視頻幀作為base64編碼的字符串傳入。

配置API調(diào)用參數(shù):在params字典中配置了API調(diào)用所需的所有參數(shù),包括模型名稱、提示信息、API密鑰、API版本和請(qǐng)求的最大令牌數(shù)。

發(fā)起API調(diào)用:使用openai.ChatCompletion.create方法發(fā)起API調(diào)用,傳入之前配置的參數(shù)。這個(gè)調(diào)用將請(qǐng)求模型根據(jù)提供的視頻幀內(nèi)容進(jìn)行描述。

輸出結(jié)果:最后,打印出API返回的結(jié)果,即模型對(duì)視頻幀內(nèi)容的描述。

展示最終結(jié)果,如下:

這張圖片展示了一幅美麗的日落景象。太陽正從水平線上緩緩下降,天空被染成了橙色和紅色的溫暖色調(diào)。太陽的余暉在云層間穿透,形成了壯觀的光線和陰影效果。海面平靜,太陽的反射在水面上畫出了一道閃耀的光路。遠(yuǎn)處的群山輪廓在天空的對(duì)比下顯得剪影般的輪廓分明。整體上,這是一幅寧靜、和諧、引發(fā)深思的圖像。

看來OpenAI不僅描繪了視頻中的畫面,還對(duì)其的內(nèi)涵進(jìn)行了引申,這是要趕超人類的節(jié)奏了。

好了到現(xiàn)在,我們已經(jīng)完成了從圖片到文字,視頻到文字的轉(zhuǎn)換了。假設(shè)我們要將視頻上傳到網(wǎng)站時(shí),并且對(duì)視頻進(jìn)行解釋,此時(shí)不僅需要文字更需要一段專業(yè)的語音播報(bào)。好吧!我是想展示下面的功能,如何將視頻識(shí)別的文字轉(zhuǎn)化成語音播報(bào)。

下面這段代碼使用Python和OpenAI的語音合成API來將文本轉(zhuǎn)換為語音,即將視頻生成的文本(描述日落景象的文本)轉(zhuǎn)換成語音。然后,它接收并匯總響應(yīng)中的音頻數(shù)據(jù),并使用Audio對(duì)象來播放這段音頻。

importrequestsfromIPython.displayimportAudioimportos#導(dǎo)入所需的庫:requests用于發(fā)起HTTP請(qǐng)求,Audio用于在JupyterNotebook中播放音頻,os用于讀取環(huán)境變量#向OpenAI的語音合成API發(fā)送POST請(qǐng)求response=requests.post("https://api.openai.com/v1/audio/speech",headers={"Authorization":f"Bearer{os.environ['OPENAI_API_KEY']}",},json={"model":"tts-1",#指定使用的語音合成模型"input":result.choices[0].message.content,#要轉(zhuǎn)換為語音的文本"voice":"onyx",#選擇的語音類型},)audio=b""#初始化一個(gè)空字節(jié)串,用于累積音頻數(shù)據(jù)#逐塊讀取響應(yīng)中的音頻數(shù)據(jù)forchunkinresponse.iter_content(chunk_size=1024*1024):audio=chunk#使用response.iter_content方法按塊讀取音頻內(nèi)容,每塊最大為1MB,并將其累加到audio變量中Audio(audio)#使用IPython的Audio對(duì)象播放累加的音頻數(shù)據(jù)

準(zhǔn)備和發(fā)起請(qǐng)求:首先導(dǎo)入所需的庫,并準(zhǔn)備發(fā)起一個(gè)POST請(qǐng)求到OpenAI的語音合成API。請(qǐng)求頭部包含了API密鑰(從環(huán)境變量獲取),請(qǐng)求體包含了模型名稱、要轉(zhuǎn)換的文本內(nèi)容以及語音類型。

接收音頻數(shù)據(jù):從API響應(yīng)中逐塊讀取音頻數(shù)據(jù)。這里使用了1MB作為每個(gè)數(shù)據(jù)塊的大小限制。通過循環(huán),將這些數(shù)據(jù)塊累加到一個(gè)字節(jié)串a(chǎn)udio中。

播放音頻:最后,使用Audio對(duì)象來播放累積的音頻數(shù)據(jù)。這允許在JupyterNotebook環(huán)境中直接播放音頻。

大家可以嘗試上面的代碼,生成自己的語音文件。

文章通過詳盡地探討OpenAI的多模態(tài)功能,展示了人工智能領(lǐng)域的最新進(jìn)展。從GPT-4Turbo模型的介紹到多模態(tài)技術(shù)的應(yīng)用實(shí)例,不僅提供了技術(shù)的理論背景,還通過具體的代碼示例,展現(xiàn)了如何將這些技術(shù)實(shí)際應(yīng)用于圖像生成、視頻內(nèi)容識(shí)別和語音轉(zhuǎn)換。這不僅彰顯了AI技術(shù)的前沿動(dòng)向,也為讀者提供了實(shí)踐AI技術(shù)的洞見和啟發(fā)。

北京市海淀區(qū)中關(guān)村南1條甲1號(hào)ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號(hào):110108002980號(hào)營業(yè)執(zhí)照

我關(guān)注的話題

importosimportopenai#導(dǎo)入所需庫:os用于讀取環(huán)境變量,openai用于與OpenAIAPI交互。openai.api_key=os.getenv('OPENAI_API_KEY')#從環(huán)境變量獲取OpenAI的API密鑰并設(shè)置。這樣可以避免將密鑰硬編碼在代碼中,提高安全性。response=openai.ChatCompletion.create(model="gpt-4-vision-preview",#指定使用的GPT-4模型版本。這里用的'gpt-4-vision-preview'表示一個(gè)特別的版本,可能包含處理圖像的能力。messages=[{"role":"user","content":[{"type":"text","text":"這張圖片表達(dá)了什么意思?"},{"type":"image_url",#用戶消息(messages),包括一段文本和一個(gè)圖像的URL"image_url":"http://www.jituwang.com/uploads/allimg/160327/257860-16032H3362484.jpg"},],}],#響應(yīng)的最大長度(max_tokens)max_tokens=200,)print(response.choices[0])

#導(dǎo)入IPython用于顯示功能fromIPython.displayimportdisplay,Image,Audio#導(dǎo)入cv2,我們使用OpenCV庫來讀取視頻文件importcv2#導(dǎo)入base64庫用于數(shù)據(jù)編碼importbase64#導(dǎo)入time庫用于控制顯示時(shí)間importtime#導(dǎo)入openai庫,用于調(diào)用OpenAI的APIimportopenai#導(dǎo)入os庫,用于操作系統(tǒng)級(jí)別的接口,如環(huán)境變量importos#導(dǎo)入requests庫,用于發(fā)起HTTP請(qǐng)求importrequests

fromIPython.displayimportdisplay,Imageimporttime#導(dǎo)入必要的庫:IPython.display中的display和Image用于顯示圖像,time用于控制播放速度display_handle=display(None,display_id=True)#創(chuàng)建一個(gè)顯示句柄,用于在之后更新顯示的圖像。'display_id=True'允許之后通過該句柄更新顯示的內(nèi)容forimginbase64Frames:#遍歷包含base64編碼圖像幀的列表display_handle.update(Image(data=base64.b64decode(img.encode("utf-8"))))#使用display句柄更新顯示的圖像。首先將base64編碼的字符串解碼回二進(jìn)制數(shù)據(jù),然后創(chuàng)建一個(gè)Image對(duì)象并顯示time.sleep(0.025)#在每幀之間暫停0.025秒,以便模擬視頻播放的效果

importosimportopenai#導(dǎo)入所需的庫:os用于訪問環(huán)境變量,openai用于與OpenAI的API進(jìn)行交互PROMPT_MESSAGES=[{"role":"user",#標(biāo)記消息的發(fā)送者角色為用戶"content":["這是我想上傳的視頻幀。能否幫我描述這張視頻幀的內(nèi)容。",{"image":base64Frames[0],"resize":768},#選擇列表中的第一幀圖像,縮放尺寸為768像素],},]#設(shè)置提示信息,以指導(dǎo)模型進(jìn)行視頻幀的內(nèi)容描述params={"model":"gpt-4-vision-preview",#指定使用的模型版本"messages":PROMPT_MESSAGES,#使用前面設(shè)置的提示信息"api_key":os.environ["OPENAI_API_KEY"],#從環(huán)境變量中獲取API密鑰"headers":{"Openai-Version":"2020-11-07"},#設(shè)置API版本頭信息"max_tokens":300,#設(shè)定請(qǐng)求的最大令牌數(shù)}#設(shè)置API調(diào)用的參數(shù)result=openai.ChatCompletion.create(params)#使用提供的參數(shù)發(fā)起API調(diào)用print(result.choices[0].message.content)#打印API返回的內(nèi)容,即模型對(duì)視頻幀內(nèi)容的描述

這張圖片展示了一幅美麗的日落景象。太陽正從水平線上緩緩下降,天空被染成了橙色和紅色的溫暖色調(diào)。太陽的余暉在云層間穿透,形成了壯觀的光線和陰影效果。海面平靜,太陽的反射在水面上畫出了一道閃耀的光路。遠(yuǎn)處的群山輪廓在天空的對(duì)比下顯得剪影般的輪廓分明。整體上,這是一幅寧靜、和諧、引發(fā)深思的圖像。

importrequestsfromIPython.displayimportAudioimportos#導(dǎo)入所需的庫:requests用于發(fā)起HTTP請(qǐng)求,Audio用于在JupyterNotebook中播放音頻,os用于讀取環(huán)境變量#向OpenAI的語音合成API發(fā)送POST請(qǐng)求response=requests.post("https://api.openai.com/v1/audio/speech",headers={"Authorization":f"Bearer{os.environ['OPENAI_API_KEY']}",},json={"model":"tts-1",#指定使用的語音合成模型"input":result.choices[0].message.content,#要轉(zhuǎn)換為語音的文本"voice":"onyx",#選擇的語音類型},)audio=b""#初始化一個(gè)空字節(jié)串,用于累積音頻數(shù)據(jù)#逐塊讀取響應(yīng)中的音頻數(shù)據(jù)forchunkinresponse.iter_content(chunk_size=1024*1024):audio=chunk#使用response.iter_content方法按塊讀取音頻內(nèi)容,每塊最大為1MB,并將其累加到audio變量中Audio(audio)#使用IPython的Audio對(duì)象播放累加的音頻數(shù)據(jù)
相關(guān)標(biāo)簽: OpenAI人工智能

本文地址:http://www.schoolwires.net.cn/article-413.html

上一篇:Angular開發(fā)中避免使用Ifelse結(jié)構(gòu)的優(yōu)秀實(shí)...
下一篇:SpringBoot32框架即將完成,VMWare聲稱使用量...

發(fā)表評(píng)論

溫馨提示

做上本站友情鏈接,在您站上點(diǎn)擊一次,即可自動(dòng)收錄并自動(dòng)排在本站第一位!
<a href="http://www.schoolwires.net.cn/" target="_blank">悟空收錄網(wǎng)</a>