Merge ba50c89113 into f2a4983df7

[ie/archive.org] Fix comments extraction (#11527 )
Closes #11526 Authored by: jshumphrey
2024-11-26 01:01:25 +01:00 · 2024-11-12 21:54:13 -05:00 · 2024-11-12 23:26:18 +00:00 · 2024-11-12 23:23:10 +00:00 · 2024-10-18 02:11:03 -07:00 · 2024-10-06 22:43:10 -07:00
3 changed files with 74 additions and 18 deletions
--- a/yt_dlp/extractor/archiveorg.py
+++ b/yt_dlp/extractor/archiveorg.py
@ -205,6 +205,26 @@ class ArchiveOrgIE(InfoExtractor):
                },
            },
        ],
+    }, {
+        # The reviewbody is None for one of the reviews; just need to extract data without crashing
+        'url': 'https://archive.org/details/gd95-04-02.sbd.11622.sbeok.shnf/gd95-04-02d1t04.shn',
+        'info_dict': {
+            'id': 'gd95-04-02.sbd.11622.sbeok.shnf/gd95-04-02d1t04.shn',
+            'ext': 'mp3',
+            'title': 'Stuck Inside of Mobile with the Memphis Blues Again',
+            'creators': ['Grateful Dead'],
+            'duration': 338.31,
+            'track': 'Stuck Inside of Mobile with the Memphis Blues Again',
+            'description': 'md5:764348a470b986f1217ffd38d6ac7b72',
+            'display_id': 'gd95-04-02d1t04.shn',
+            'location': 'Pyramid Arena',
+            'uploader': 'jon@archive.org',
+            'album': '1995-04-02 - Pyramid Arena',
+            'upload_date': '20040519',
+            'track_number': 4,
+            'release_date': '19950402',
+            'timestamp': 1084927901,
+        },
    }]

    @staticmethod
@ -335,7 +355,7 @@ class ArchiveOrgIE(InfoExtractor):
                info['comments'].append({
                    'id': review.get('review_id'),
                    'author': review.get('reviewer'),
-                    'text': str_or_none(review.get('reviewtitle'), '') + '\n\n' + review.get('reviewbody'),
+                    'text': join_nonempty('reviewtitle', 'reviewbody', from_dict=review, delim='\n\n'),
                    'timestamp': unified_timestamp(review.get('createdate')),
                    'parent': 'root'})

--- a/yt_dlp/extractor/facebook.py
+++ b/yt_dlp/extractor/facebook.py
@ -563,13 +563,13 @@ class FacebookIE(InfoExtractor):
                return extract_video_data(try_get(
                    js_data, lambda x: x['jsmods']['instances'], list) or [])

-        def extract_dash_manifest(video, formats):
+        def extract_dash_manifest(vid_data, formats, mpd_url=None):
            dash_manifest = traverse_obj(
-                video, 'dash_manifest', 'playlist', 'dash_manifest_xml_string', expected_type=str)
+                vid_data, 'dash_manifest', 'playlist', 'dash_manifest_xml_string', 'manifest_xml', expected_type=str)
            if dash_manifest:
                formats.extend(self._parse_mpd_formats(
                    compat_etree_fromstring(urllib.parse.unquote_plus(dash_manifest)),
-                    mpd_url=url_or_none(video.get('dash_manifest_url'))))
+                    mpd_url=url_or_none(video.get('dash_manifest_url')) or mpd_url))

        def process_formats(info):
            # Downloads with browser's User-Agent are rate limited. Working around
@ -619,9 +619,12 @@ class FacebookIE(InfoExtractor):
                        video = video['creation_story']
                        video['owner'] = traverse_obj(video, ('short_form_video_context', 'video_owner'))
                        video.update(reel_info)
-                    fmt_data = traverse_obj(video, ('videoDeliveryLegacyFields', {dict})) or video
+
                    formats = []
                    q = qualities(['sd', 'hd'])
+
+                    # Legacy formats extraction
+                    fmt_data = traverse_obj(video, ('videoDeliveryLegacyFields', {dict})) or video
                    for key, format_id in (('playable_url', 'sd'), ('playable_url_quality_hd', 'hd'),
                                           ('playable_url_dash', ''), ('browser_native_hd_url', 'hd'),
                                           ('browser_native_sd_url', 'sd')):
@ -629,7 +632,7 @@ class FacebookIE(InfoExtractor):
                        if not playable_url:
                            continue
                        if determine_ext(playable_url) == 'mpd':
-                            formats.extend(self._extract_mpd_formats(playable_url, video_id))
+                            formats.extend(self._extract_mpd_formats(playable_url, video_id, fatal=False))
                        else:
                            formats.append({
                                'format_id': format_id,
@ -638,6 +641,28 @@ class FacebookIE(InfoExtractor):
                                'url': playable_url,
                            })
                    extract_dash_manifest(fmt_data, formats)
+
+                    # New videoDeliveryResponse formats extraction
+                    fmt_data = traverse_obj(video, ('videoDeliveryResponseFragment', 'videoDeliveryResponseResult'))
+                    mpd_urls = traverse_obj(fmt_data, ('dash_manifest_urls', ..., 'manifest_url', {url_or_none}))
+                    dash_manifests = traverse_obj(fmt_data, ('dash_manifests', lambda _, v: v['manifest_xml']))
+                    for idx, dash_manifest in enumerate(dash_manifests):
+                        extract_dash_manifest(dash_manifest, formats, mpd_url=traverse_obj(mpd_urls, idx))
+                    if not dash_manifests:
+                        # Only extract from MPD URLs if the manifests are not already provided
+                        for mpd_url in mpd_urls:
+                            formats.extend(self._extract_mpd_formats(mpd_url, video_id, fatal=False))
+                    for prog_fmt in traverse_obj(fmt_data, ('progressive_urls', lambda _, v: v['progressive_url'])):
+                        format_id = traverse_obj(prog_fmt, ('metadata', 'quality', {str.lower}))
+                        formats.append({
+                            'format_id': format_id,
+                            # sd, hd formats w/o resolution info should be deprioritized below DASH
+                            'quality': q(format_id) - 3,
+                            'url': prog_fmt['progressive_url'],
+                        })
+                    for m3u8_url in traverse_obj(fmt_data, ('hls_playlist_urls', ..., 'hls_playlist_url', {url_or_none})):
+                        formats.extend(self._extract_m3u8_formats(m3u8_url, video_id, 'mp4', fatal=False, m3u8_id='hls'))
+
                    if not formats:
                        # Do not append false positive entry w/o any formats
                        return
--- a/yt_dlp/extractor/rule34video.py
+++ b/yt_dlp/extractor/rule34video.py
@ -9,8 +9,8 @@ from ..utils import (
    get_element_html_by_class,
    get_elements_by_class,
    int_or_none,
-    parse_count,
    parse_duration,
+    str_to_int,
    unescapeHTML,
 )
 from ..utils.traversal import traverse_obj
@ -77,20 +77,32 @@ class Rule34VideoIE(InfoExtractor):
            formats.append({
                'url': url,
                'ext': ext.lower(),
-                'quality': quality,
+                'height': int(quality),
            })

-        categories, creators, uploader, uploader_url = [None] * 4
+        categories, creators, uploader, uploader_url, views, likes = [None] * 6
        for col in get_elements_by_class('col', webpage):
            label = clean_html(get_element_by_class('label', col))
-            if label == 'Categories:':
+            if label == 'Categories':
                categories = list(map(clean_html, get_elements_by_class('item', col)))
-            elif label == 'Artist:':
+            elif label == 'Artist':
                creators = list(map(clean_html, get_elements_by_class('item', col)))
-            elif label == 'Uploaded By:':
-                uploader = clean_html(get_element_by_class('name', col))
-                uploader_url = extract_attributes(get_element_html_by_class('name', col) or '').get('href')
+            elif label == 'Uploaded by':
+                uploader = clean_html(get_element_by_class('item', col))
+                uploader_url = extract_attributes(get_element_html_by_class('item', col) or '').get('href')

+        views_text = self._html_search_regex(
+            r'custom-eye">\s+<use[^>]+></use>\s+</svg>\s+<span>([^<]+)', webpage, 'views', default='').replace(' ', '')
+        views = int_or_none(views_text)
+        if views is None:
+            precise_match = re.search(r'\((?P<precise_views>[^d]+)\)', views_text)
+            if precise_match:
+                views = str_to_int(precise_match['precise_views'])
+
+        likes_text = get_element_by_class('voters count', webpage)
+        likes_match = re.search(r'\((?P<num_likes>[^d]+)\)', likes_text)
+        if likes_match:
+            likes = str_to_int(likes_match['num_likes'])
        return {
            **traverse_obj(self._search_json_ld(webpage, video_id, default={}), ({
                'title': 'title',
@ -107,10 +119,9 @@ class Rule34VideoIE(InfoExtractor):
            'thumbnail': self._html_search_regex(
                r'preview_url:\s+\'([^\']+)\'', webpage, 'thumbnail', default=None),
            'duration': parse_duration(self._html_search_regex(
-                r'"icon-clock"></i>\s+<span>((?:\d+:?)+)', webpage, 'duration', default=None)),
-            'view_count': int_or_none(self._html_search_regex(
-                r'"icon-eye"></i>\s+<span>([ \d]+)', webpage, 'views', default='').replace(' ', '')),
-            'like_count': parse_count(get_element_by_class('voters count', webpage)),
+                r'custom-time">\s+<use[^>]+></use>\s+</svg>\s+<span>((?:\d+:?)+)', webpage, 'duration', default=None)),
+            'view_count': views,
+            'like_count': likes,
            'comment_count': int_or_none(self._search_regex(
                r'[^(]+\((\d+)\)', get_element_by_attribute('href', '#tab_comments', webpage), 'comment count', fatal=False)),
            'age_limit': 18,
Author	SHA1	Message	Date
Franklin Lee	70923dd05d	Merge `ba50c89113` into `f2a4983df7`	2024-11-12 21:54:13 -05:00
Jackson Humphrey	f2a4983df7	[ie/archive.org] Fix comments extraction (#11527 ) Closes #11526 Authored by: jshumphrey	2024-11-12 23:26:18 +00:00
bashonly	bacc31b05a	[ie/facebook] Fix formats extraction (#11513 ) Closes #11497 Authored by: bashonly	2024-11-12 23:23:10 +00:00
Franklin Lee	ba50c89113	Merge branch 'yt-dlp:master' into master	2024-10-18 02:11:03 -07:00
Franklin Lee	6c6eecce23	[ie/rule34video] Fix extractor: use height instead of quality and fix extracting attributes	2024-10-06 22:43:10 -07:00