Aşağıdaki kodda, getElementByIdAsString kullandığımda ("www.abebooks.com/9780143418764/Love-Story- Singh-Ravinder-0143418769/plp ',' sinopsis ');wiki hatası almak için php tarayıcısı

Ancak, wikipedia, getElementByIdAsString ('https://en.wikipedia.org/wiki/A_Brief_History_of_Time', 'Summary') içeriklerini ayıklamak için aynı kodu kullandığımda çalışmıyor;

Aşağıda benim kod ve Ben ikinci one.Can birisi id önceden

Teşekkür dayalı wikipedia içeriği ayıklamak için kodumu düzeltmek kullandığımda alıyorum istisnadır.


function getElementByIdAsString($url, $id, $pretty = true) { 
    $doc = new DOMDocument(); 

    $ch = curl_init($url); 
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36'); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 

    $result = curl_exec($ch); 

// var_dump($doc->loadHTMLFile($url)); die; 
error_reporting(E_ERROR | E_PARSE); 
    if(!$result) { 
     throw new Exception("Failed to load $url"); 
    // Obtain the element 
    $element = $doc->getElementById($id); 

    if(!$element) { 
     throw new Exception("An element with id $id was not found"); 

    if($pretty) { 
     $doc->formatOutput = true; 

    // Return the string representation of the element 
    return $doc->saveXML($element); 

//Here I am dispalying the output in bold text 
echo getElementByIdAsString('https://en.wikipedia.org/wiki/A_Brief_History_of_Time', 'Summary'); 



Fatal error: Uncaught exception 'Exception' with message 'Failed to load http://en.wikipedia.org/wiki/A_Brief_History_of_Time' in C:\xampp\htdocs\example2.php:18 Stack trace: #0 C:\xampp\htdocs\example2.php(40): getElementByIdAsString() #1 {main} thrown in C:\xampp\htdocs\example2.php on line 18 




deneyin eklemek için çok minnettar :-) olacaktır:

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false); 
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); 

Güncelleme sonrasında açıklamada tartışmak:


function getElementByIdAsString($url, $id, $pretty = true) { 
    $doc = new DOMDocument(); 

    $ch = curl_init($url); 
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36'); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false); 
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); 
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); 

    $result = curl_exec($ch); 

    error_reporting(E_ERROR | E_PARSE); 
    if(!$result) { 
     throw new Exception("Failed to load $url"); 
    // Obtain the element 
    $element = $doc->getElementById($id); 

    if(!$element) { 
     throw new Exception("An element with id $id was not found"); 

    if($pretty) { 
     $doc->formatOutput = true; 

    $output = ''; 
    $node = $element->parentNode; 

    while(true) { 
     $node = $node->nextSibling; 
     if(!$node) { 
     if($node->nodeName == 'p') { 
      $output .= $node->nodeValue; 
     if($node->nodeName == 'h2') { 

    return $output; 

//Here I am dispalying the output in bold text 
var_dump(getElementByIdAsString('https://en.wikipedia.org/wiki/A_Brief_History_of_Time', 'Summary')); 

Muhtemelen xPaths kullanabilir ya da sadece tüm cevabı kullanabilir ve regex ile dilediğiniz her şeyi kesebilirsiniz reerx


Liszka Bu sefer herhangi bir hata döndürmüyor, ancak herhangi bir içerik olmadan boş bir sayfa alıyorum .. " Özeti" u alan bu kodu çalıştırdığımda, –


kimliğini kullanmadan belirli içeriği dışarı çıkarmak için işlevinizi kullanırken doğru çalıştığını düşünüyorum getElementById (bu nedenle chrome konsolunda $ ("# Summary") ile aynı etkiyi kullanın. Ne elde etmeye çalışıyorsun? Belki eko hariç çıkışı var_dump deneyin? var_dump (getElementByIdAsString ('https://en.wikipedia.org/wiki/A_Brief_History_of_Time', 'Summary')); –


Metnin Özeti sekmesi altındaki metni çıkarmak istedim. –